官术网_书友最值得收藏!

學(xué)習(xí)數(shù)據(jù)科學(xué)的概念性方法

本書介紹了數(shù)據(jù)科學(xué)中最重要的基本概念。其中一些概念直接體現(xiàn)在了章名中,其他的則會在討論過程中自然而然地呈現(xiàn)出來(因此不會被標(biāo)注為“基本概念”)。這些概念貫穿整個學(xué)習(xí)過程,從構(gòu)想問題到應(yīng)用數(shù)據(jù)科學(xué)方法,再到運(yùn)用結(jié)果改進(jìn)決策。同時,它們也構(gòu)成了大量商業(yè)分析方法與技術(shù)的基礎(chǔ)。

這些概念主要分為以下三種。

(1)關(guān)于數(shù)據(jù)科學(xué)如何融入組織和競爭環(huán)境的概念,包括如何吸引、組織和培養(yǎng)數(shù)據(jù)科學(xué)團(tuán)隊,如何讓數(shù)據(jù)科學(xué)轉(zhuǎn)化為競爭優(yōu)勢,以及如何做好數(shù)據(jù)科學(xué)項(xiàng)目。

(2)形成數(shù)據(jù)分析式思維的一般方法。它們有助于識別合適的數(shù)據(jù),選擇合適的方法。這些概念包括數(shù)據(jù)挖掘過程和一系列不同的高級數(shù)據(jù)挖掘任務(wù)

(3)從數(shù)據(jù)中獲取信息的一般性概念。這些概念為大量的數(shù)據(jù)科學(xué)任務(wù)及其算法奠定了基礎(chǔ)。比如,有一條基本概念是如何判定兩個由數(shù)據(jù)描述的個體之間的相似性。這項(xiàng)能力是執(zhí)行多種具體任務(wù)的基礎(chǔ):它可以直接用于尋找與指定用戶相似的用戶;它構(gòu)成了許多預(yù)測算法的核心,可以用來估計目標(biāo)值,如資源使用量或用戶響應(yīng)促銷活動的概率;它還是聚類方法的基礎(chǔ),即在沒有特定目標(biāo)的情況下,按照個體之間共有的特征將它們分組。相似性同樣是信息檢索的基礎(chǔ),可以檢索出一系列與查詢詞條相關(guān)的文件或網(wǎng)頁。最后,它也是許多推薦算法的基礎(chǔ)。在傳統(tǒng)的面向算法的書中,這些任務(wù)可能會以不同的名字分布于不同章節(jié),其中的共同點(diǎn)卻被掩蓋在重重的算法與數(shù)學(xué)命題之下。本書關(guān)注的是統(tǒng)一的概念,而各個具體的任務(wù)和算法就是它們的自然呈現(xiàn)。

再舉一個例子,在對模式的效用進(jìn)行評估時,提升度(lift)這一指標(biāo)在數(shù)據(jù)科學(xué)領(lǐng)域隨處可見。它指的是某一模式在多大程度上是由非隨機(jī)情況導(dǎo)致的。它可以用于在不同場景下對不同模式進(jìn)行評估。例如,通過計算目標(biāo)人群的提升度,可以評估定向廣告算法。它還可以用于判斷結(jié)論的正負(fù)證據(jù)權(quán)重(WOE),以及判斷數(shù)據(jù)中的共現(xiàn)情況是否有意義,不同于僅是高頻事件的自然結(jié)果。

我們相信,運(yùn)用這些基本概念來解釋數(shù)據(jù)科學(xué),不僅能幫助讀者學(xué)習(xí),還能促進(jìn)企業(yè)利益相關(guān)者與數(shù)據(jù)科學(xué)家之間的交流。這種方式使得雙方語言共通,從而能更好地理解彼此。而概念共通又能讓各方進(jìn)行更深入的討論,從而發(fā)現(xiàn)之前可能被忽略的關(guān)鍵問題。

主站蜘蛛池模板: 长治市| 襄城县| 康乐县| 襄垣县| 无为县| 太保市| 泽库县| 微山县| 永州市| 合江县| 乌恰县| 河间市| 桐梓县| 道真| 桐梓县| 乐清市| 刚察县| 建平县| 怀仁县| 迭部县| 晴隆县| 桃园市| 淅川县| 张家港市| 称多县| 新邵县| 西华县| 濮阳市| 喜德县| 修武县| 进贤县| 荔浦县| 叶城县| 芷江| 彭阳县| 大同市| 凤山市| 温泉县| 平武县| 岐山县| 长泰县|