澳门黄金城app下载

1.5　機器學習模型初探

針對待分析的數據集，利用機器學習算法進行建模和分析的步驟其實也很固定，下面先來看一個實際的機器學習應用案例。

假設房子的價格只跟面積有關，表1-1給出了一些房子的面積和價格之間的數據，請計算出40㎡的房屋價格。

表1-1　面積與價格數據

可以先將數據的分布情況利用散點圖進行可視化，分析面積和價格之間的變化關系，如圖1-20所示，兩者之間可以使用一個線性關系進行表示，即y=ax+b。

圖1-20　房屋面積和價格關系圖

針對該數據分布情況和所提出的問題，可以使用下面的程序進行建模和預測。

運行程序后，可獲得當房子面積為40m2時，模型的預測值為79.59645966，即價格約為79.59萬元。預測值在數據中的位置分布如圖1-21所示。

圖1-21　房屋價格的模型預測情況

以上是對一元線性回歸的實現方法。但在現實中，房價的影響因素太多，不僅跟面積有關，還跟地理位置有關，跟小區容積率等也有關，這就要用到多元線性回歸進行擬合。更復雜的機器學習案例，將會在后面的章節中一一介紹。

在機器學習中，常用的學習方法除了一元線性回歸、多元線性回歸模型，還有邏輯回歸、聚類、決策樹、隨機向量、支持向量機、樸素貝葉斯等模型，這些模型的使用步驟基本類似，步驟如下：①數據預處理和探索；②數據特征工程：③建立模型；④訓練模型；⑤模型預測；⑥評價模型。

如上面針對房屋價格預測的一元線性回歸模型，就是經過了5個步驟。

（1）數據預處理和探索：即整理數據，將數據處理為適合模型使用的數據格式。

（2）建立模型：利用model=LinearRegression（）建立線性回歸模型。

（3）訓練模型：model.fit（x，y）。

（4）模型預測：model.predict（［［a］］）。

（5）評價模型：利用可視化方式直觀地評價模型的預測效果。

在實際的機器學習模型應用過程中，數據預處理和探索、數據特征工程這兩部分是工作量最大的，所以在機器學習的模型使用過程中，將對數據進行充分理解、將數據整理為合適的數據格式，以及從數據中提取有用的特征，往往消耗大量的時間，最后就是對建立的模型進行有效評估。后面的章節都是圍繞這些問題進行展開介紹的。