- Python機器學習算法與實戰
- 孫玉林 余本國
- 820字
- 2021-10-15 17:45:09
1.5 機器學習模型初探
針對待分析的數據集,利用機器學習算法進行建模和分析的步驟其實也很固定,下面先來看一個實際的機器學習應用案例。
假設房子的價格只跟面積有關,表1-1給出了一些房子的面積和價格之間的數據,請計算出40㎡的房屋價格。
表1-1 面積與價格數據

可以先將數據的分布情況利用散點圖進行可視化,分析面積和價格之間的變化關系,如圖1-20所示,兩者之間可以使用一個線性關系進行表示,即y=ax+b。

圖1-20 房屋面積和價格關系圖
針對該數據分布情況和所提出的問題,可以使用下面的程序進行建模和預測。


運行程序后,可獲得當房子面積為40m2時,模型的預測值為79.59645966,即價格約為79.59萬元。預測值在數據中的位置分布如圖1-21所示。

圖1-21 房屋價格的模型預測情況
以上是對一元線性回歸的實現方法。但在現實中,房價的影響因素太多,不僅跟面積有關,還跟地理位置有關,跟小區容積率等也有關,這就要用到多元線性回歸進行擬合。更復雜的機器學習案例,將會在后面的章節中一一介紹。
在機器學習中,常用的學習方法除了一元線性回歸、多元線性回歸模型,還有邏輯回歸、聚類、決策樹、隨機向量、支持向量機、樸素貝葉斯等模型,這些模型的使用步驟基本類似,步驟如下:①數據預處理和探索;②數據特征工程:③建立模型;④訓練模型;⑤模型預測;⑥評價模型。
如上面針對房屋價格預測的一元線性回歸模型,就是經過了5個步驟。
(1)數據預處理和探索:即整理數據,將數據處理為適合模型使用的數據格式。
(2)建立模型:利用model=LinearRegression()建立線性回歸模型。
(3)訓練模型:model.fit(x,y)。
(4)模型預測:model.predict([[a]])。
(5)評價模型:利用可視化方式直觀地評價模型的預測效果。
在實際的機器學習模型應用過程中,數據預處理和探索、數據特征工程這兩部分是工作量最大的,所以在機器學習的模型使用過程中,將對數據進行充分理解、將數據整理為合適的數據格式,以及從數據中提取有用的特征,往往消耗大量的時間,最后就是對建立的模型進行有效評估。后面的章節都是圍繞這些問題進行展開介紹的。
- 一步一步學Spring Boot 2:微服務項目實戰
- Django+Vue.js商城項目實戰
- Python快樂編程:人工智能深度學習基礎
- Learning Chef
- 微服務設計原理與架構
- Java Web應用開發技術與案例教程(第2版)
- Responsive Web Design by Example
- Haxe Game Development Essentials
- C#程序設計教程(第3版)
- 一本書講透Java線程:原理與實踐
- Python函數式編程(第2版)
- Learning Python Data Visualization
- Modernizing Legacy Applications in PHP
- 基于GPU加速的計算機視覺編程:使用OpenCV和CUDA實時處理復雜圖像數據
- INSTANT Apache Hive Essentials How-to