官术网_书友最值得收藏!

1.2.1 定義數據項目

數據項目的核心在于數據。要解決好問題,相關人員必然要先了解有哪些常見的方法與技術可以應用在數據分析上。下面我們先來快速了解一下數據分析模型。

根據要解決的目標,數據分析模型可分成3種類型:監督式學習、非監督學習與半監督學習(Semi-Supervised Learning)。監督式學習指的是數據有一個明確的欄位,用來做預測或分類的目標變量。例如,人們可以利用過去的天氣數據,包含“有沒有下雨”這個欄位,來預測明天“會不會下雨”。此時,就可以稱“下雨與否”為目標變量或統計學上的反應變量。簡單來說,就是從過去數據中的其他欄位,找出與“有沒有下雨”這個欄位之間的關系,并將其關系套用到一組未知數據“會不會下雨”的其他欄位中,得出“會不會下雨”的預測值。以上這個例子也是監督式學習的典型案例。監督式學習可以想象成根據目標找關系,有一個明確學習的欄位,因此被稱為監督式學習。

數據驅動(Data Driven)的方法論是數據分析的一個概念。對于初學者而言,可以先聚焦在特定的問題上討論,再在一個最小可解上進行優化;當熟悉各種方法論之后,再試著進行更泛化的數據驅動。

主站蜘蛛池模板: 新晃| 岳阳县| 连江县| 吴堡县| 龙山县| 通山县| 桐乡市| 宝鸡市| 尉氏县| 海安县| 新和县| 兴业县| 灌南县| 罗江县| 内黄县| 光泽县| 景宁| 庆云县| 西吉县| 普兰店市| 中江县| 镇原县| 娱乐| 马山县| 门源| 昌图县| 沂源县| 彝良县| 玉龙| 海宁市| 调兵山市| SHOW| 敦煌市| 晋中市| 乌兰县| 道孚县| 甘洛县| 湖州市| 稷山县| 磴口县| 巨鹿县|