官术网_书友最值得收藏!

1.5 機器學習模型初探

針對待分析的數據集,利用機器學習算法進行建模和分析的步驟其實也很固定,下面先來看一個實際的機器學習應用案例。

假設房子的價格只跟面積有關,表1-1給出了一些房子的面積和價格之間的數據,請計算出40㎡的房屋價格。

表1-1 面積與價格數據

可以先將數據的分布情況利用散點圖進行可視化,分析面積和價格之間的變化關系,如圖1-20所示,兩者之間可以使用一個線性關系進行表示,即y=ax+b

圖1-20 房屋面積和價格關系圖

針對該數據分布情況和所提出的問題,可以使用下面的程序進行建模和預測。

運行程序后,可獲得當房子面積為40m2時,模型的預測值為79.59645966,即價格約為79.59萬元。預測值在數據中的位置分布如圖1-21所示。

圖1-21 房屋價格的模型預測情況

以上是對一元線性回歸的實現方法。但在現實中,房價的影響因素太多,不僅跟面積有關,還跟地理位置有關,跟小區容積率等也有關,這就要用到多元線性回歸進行擬合。更復雜的機器學習案例,將會在后面的章節中一一介紹。

在機器學習中,常用的學習方法除了一元線性回歸、多元線性回歸模型,還有邏輯回歸、聚類、決策樹、隨機向量、支持向量機、樸素貝葉斯等模型,這些模型的使用步驟基本類似,步驟如下:①數據預處理和探索;②數據特征工程:③建立模型;④訓練模型;⑤模型預測;⑥評價模型。

如上面針對房屋價格預測的一元線性回歸模型,就是經過了5個步驟。

(1)數據預處理和探索:即整理數據,將數據處理為適合模型使用的數據格式。

(2)建立模型:利用model=LinearRegression()建立線性回歸模型。

(3)訓練模型:model.fit(x,y)。

(4)模型預測:model.predict([[a]])。

(5)評價模型:利用可視化方式直觀地評價模型的預測效果。

在實際的機器學習模型應用過程中,數據預處理和探索、數據特征工程這兩部分是工作量最大的,所以在機器學習的模型使用過程中,將對數據進行充分理解、將數據整理為合適的數據格式,以及從數據中提取有用的特征,往往消耗大量的時間,最后就是對建立的模型進行有效評估。后面的章節都是圍繞這些問題進行展開介紹的。

主站蜘蛛池模板: 宜宾县| 会同县| 德格县| 分宜县| 高邑县| 贺州市| 祥云县| 明光市| 芷江| 和田市| 张家港市| 武鸣县| 东乡族自治县| 长丰县| 手游| 南宁市| 绍兴市| 永平县| 红河县| 陇南市| 武义县| 黔南| 连州市| 铜川市| 寿阳县| 靖宇县| 土默特左旗| 晋州市| 凌源市| 大新县| 桂平市| 白玉县| 保山市| 靖州| 称多县| 宜州市| 莒南县| 山阳县| 城步| 大厂| 云和县|