官术网_书友最值得收藏!

前言

為什么要寫這本書

近年來,以機器學習、深度學習為代表的人工智能技術已經逐步應用到醫學、金融、交通等領域,由此掀起了一場大規模的科技與產業革新。人工智能是一門基于數據的科學技術,高質量的數據是推動其發展與應用的重要驅動力。然而,由于現實生活中機器或人為等干擾,數據缺失經常發生甚至不可避免。數據缺失可理解為不完整數據集中的“漏洞”,若不對其進行合理“彌補”,則無法正常開展數據挖掘等數據分析任務。由此可見,在數據質量難以保障而人工智能不斷深化的今天,缺失數據已成為從業或科研人員經常面臨的問題。

結合缺失數據處理這一現實需求,以及筆者多年的研究和工程經驗,本書將全方位、多角度、深層次地呈現目前主流的數據缺失值填補方法,以對缺失值填補領域的研究成果和個人見解進行系統的論述。

缺失值填補是缺失數據處理的有效手段,其核心思想是為每個缺失值計算合理的替換值,以構造完整數據集。此類方法既可以保持原始數據集的規模,又能夠保留不完整樣本中現有數據所攜帶的信息,逐漸受到眾多研究學者和開發人員的廣泛關注。缺失值填補方法眾多,應用范圍基本覆蓋基于數據的科學研究與工業應用領域。諸如均值填補、熱平臺填補等傳統方法主要基于統計學理論實現,隨著人工智能的發展,以機器學習為代表的人工智能技術在缺失值填補領域逐漸盛行。一方面,缺失值填補能夠改善數據質量,進而改進機器學習的應用成效;另一方面,機器學習能夠反哺缺失值填補方法的設計與創新。基于機器學習的缺失值填補理論與方法研究逐漸成為主要的發展趨勢。

盡管填補方法眾多,但無論是哪種方法均不具備普適性,故需從全局視角建立對缺失值填補的全面認知,以在實際應用中結合具體場景和數據集特性選取適宜的填補方法。目前,缺失值填補領域的研究成果以學術論文為主,少有系統性的圖書。由于內容分散且繁雜,研究者需要耗費大量時間查閱論文,且難以形成系統且全面的認知。為了方便讀者從全局視角掌握不同的填補方法,深入理解其意義及相互之間的區別,本書對當下缺失值填補領域的研究成果與應用情況進行系統概括和提煉,并重點突出基于神經網絡和TS模型等機器學習理論的缺失值填補方法,為讀者在科研或工作中遇到的缺失值問題提供全面而有效的解決思路。

總體而言,本書涉及的理論和方法能解決數據處理所面臨的缺失值問題,從而有效提高數據質量,為后續人工智能技術的應用與發展建立堅實的基礎。

讀者對象

本書專注于采用機器學習方法解決數據缺失問題,目標明確、特點鮮明,內容循序漸進、由淺入深,尤其強調論述的系統性和完備性。本書適用人群包括:

●人工智能,尤其是機器學習相關領域的研究者;

●有相關項目開發需求的軟件工程師;

●高校信息學科或相關交叉學科的教師;

●高校計算機、軟件、電子、自動化相關專業的三、四年級本科生及研究生;

●其他了解一定人工智能基礎的學習者和對此感興趣的愛好者。

閱讀本書,應具備如下基礎:

●了解人工智能的基礎知識和概念;

●具有人工智能基本工具的使用經驗,如Python、TensorFlow。

本書特色

本書專注于采用機器學習方法進行缺失數據的填補,相比于傳統的基于統計學的方法,基于機器學習方法的模型更簡單,不需要讀者具有很強的數學功底,并且填補效果優于傳統方法。以機器學習為代表的人工智能方法引領了目前技術發展的潮流,為社會生活的方方面面帶來了徹底的變化。

目前圖書市場中,關于缺失值填補的圖書少之又少。現存的幾類圖書,要么基于統計學的方法,要么直接調用函數庫講解應用,對于基于機器學習方法的缺失值填補方法的論述基本是空白狀態,這與大量數據集需要完成缺失值填補這一現實需求存在巨大的鴻溝。

本書的主要特點如下。

●新穎性。本書主要采用神經網絡和TS模型方法來解決數據缺失問題,與傳統基于統計學的填補方法截然不同,且填補精度更高,填補難度更低。目前,國內圖書市場尚無一本專著與本書類似,因而本書具有新穎性。

●先進性。本書采用的數據集來自UCI等國際公認的著名大學數據集,提出了一系列基于神經網絡和TS模型的填補方法,并與近年來國際上較為流行的其他方法充分對比,實驗結果證明本書所提出的方法具有技術先進性。

●工程性。本書附錄公開了核心方法代碼,讀者可直接將本書方法應用于自己的工程項目當中,具有工程價值。

●易用性。讀者只要了解人工智能的基本概念,能夠基于Python語言和TensorFlow完成基本操作,即可讀懂本書,并且能夠演示和復現各章節的填補方法,具有很好的易用性。

●系統性。本書較為全面地介紹了缺失值填補的各方面內容,包括傳統方法概述、國內外研究現狀評論,對作者設計的各種方法也采用循序漸進的方式,按照方法之間的邏輯關系逐步介紹,力爭為讀者呈現基于機器學習的缺失值填補方法的全貌,給讀者提供一站式的學習體驗,具有良好的系統性。

如何閱讀本書

本書系統地介紹了基于機器學習的缺失值填補理論及方法,共分為8章。

第1章介紹了缺失值填補的背景、意義、研究現狀及應用。

第2章首先對數據缺失機制、缺失數據的處理進行概述,由此突出缺失值填補方法的優越性及必要性;接著從基本概念、方法分類、性能度量3個角度介紹缺失值填補概況。

第3章詳細闡述目前基于統計學、機器學習的缺失值填補理論與方法。首先從樣本間相似度、屬性間關聯性兩個角度對部分填補方法展開介紹;接著闡述基于參數估計的期望最大化填補方法,以及針對缺失數據不確定性的缺失值填補方法。

第4章對目前神經網絡在缺失值填補領域的研究成果進行歸納總結,包括基于多層感知機、自相關神經網絡、循環神經網絡等的填補模型。

第5章從網絡代價函數、填補方法兩個角度闡述神經網絡填補方法的設計及應用,重點介紹缺失值變量視角下的網絡動態填補方案,并詳細闡述缺失值變量思路的優點。

第6章介紹基于TS模型的缺失值填補方法,突出TS模型可解釋性強的優點,詳細介紹面向不完整數據的TS建模過程,并通過特征選擇算法解決TS建模中的特征冗余問題。

第7章從前提參數優化和結論參數優化兩個角度改進TS模型。其中,針對類不均衡問題提供了合理的TS模型優化方案,并介紹了缺失值與TS模型參數的交替學習方案。

第8章基于前文介紹的缺失值填補方法,針對我國貧困家庭特征分析中的數據缺失問題提供解決方案,為缺失值填補的研究工作賦予現實意義,體現其應用價值。

第4~8章提供的各缺失值填補方法的相關核心代碼下載地址為https://github.com/ldz15219/-/releases/tag/1.0

總體而言,第1~3章闡述了缺失值填補的理論基礎,第4~5章詳細闡明了基于神經網絡的缺失值填補方法,第6~7章詳細闡明了基于TS模型的缺失值填補方法,第8章介紹缺失值填補方法的實際應用。讀者可根據自身需求或者已有知識儲備有選擇地閱讀,但如果你是一名初學者,建議從第1章開始按順序學習。

勘誤和支持

由于作者的水平有限,編寫時間倉促,書中難免會出現一些錯誤或者不準確的地方,懇請讀者批評指正。如果你有更多的寶貴意見,歡迎發送郵件至laixiaochen@dlut.edu.cn,期待能夠得到大家的真摯反饋。

致謝

感謝劉德正在本書的內容撰寫、實驗設計、文字及格式校對等方面付出的辛苦努力。沒有你的幫助,本書不可能完成。也感謝劉鑫、陸藝丹、宋橘超、朱金沖、閻文亮等多位朋友對本書的大力支持。

感謝機械工業出版社華章公司的編輯楊福川、張錫鵬、李良等,在創作過程中始終支持我的工作,你們的鼓勵和幫助引導我們順利完成全部書稿。

感謝國家重點研發計劃項目(2018YFB1700200)和國家自然科學基金項目(U1608256)的支持。

感謝我的家人,是你們幫我承擔了家庭負擔,并時時督促和鼓勵我,使我得以完成書稿的撰寫。

謹以此書獻給我的孩子,希望你能健康開心地成長!

賴曉晨

2020年4月

主站蜘蛛池模板: 陆川县| 德阳市| 鄂尔多斯市| 乐山市| 隆尧县| 龙口市| 老河口市| 卓资县| 宜城市| 孟州市| 鹤壁市| 定日县| 竹北市| 隆化县| 道真| 磐石市| 仙桃市| 全州县| 云霄县| 柳州市| 安福县| 榆树市| 乌兰县| 灵台县| 卢龙县| 家居| 顺平县| 饶河县| 克什克腾旗| 咸宁市| 沁阳市| 县级市| 同德县| 石城县| 兰州市| 刚察县| 庆阳市| 大名县| 江山市| 略阳县| 彰化市|