官术网_书友最值得收藏!

1.1 缺失值填補(bǔ)的背景與意義

互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的廣泛應(yīng)用催生了數(shù)據(jù)的爆炸式增長(zhǎng),大數(shù)據(jù)時(shí)代已然來(lái)臨,并且正在以極廣的覆蓋性、極強(qiáng)的滲透力改變著人類的生產(chǎn)、生活方式。狄更斯在《雙城記》中寫道:“這是一個(gè)最好的時(shí)代,也是一個(gè)最壞的時(shí)代。”這句話用以形容大數(shù)據(jù)的發(fā)展現(xiàn)狀再貼切不過(guò)。一方面,海量數(shù)據(jù)的衍生價(jià)值能夠促進(jìn)人類文明的發(fā)展。經(jīng)典的DIKW(Data-to-Information-to-Knowledge-to-Wisdom)模型闡述了由數(shù)據(jù)到智慧的演化進(jìn)程,其將數(shù)據(jù)、信息、知識(shí)、智慧按自底向上的順序納入一個(gè)金字塔形的層次結(jié)構(gòu)。數(shù)據(jù)位于該結(jié)構(gòu)的底層,是信息的載體,是知識(shí)與智慧的本原。若將數(shù)據(jù)比作雨滴,那么信息是由雨滴匯集的河川,知識(shí)是由河川匯聚的大海,智慧是大海里誕生的新生命。由此可見,海量數(shù)據(jù)中很可能蘊(yùn)藏著啟迪人類智慧與文明的力量。另一方面,大數(shù)據(jù)具有基數(shù)龐大、類型繁多、增速迅猛、價(jià)值密度低等特點(diǎn),而人類傳統(tǒng)的分析手段已經(jīng)無(wú)法勝任大數(shù)據(jù)的挖掘工作。如何高效地利用海量數(shù)據(jù)并釋放其衍生價(jià)值是目前面臨的一項(xiàng)重要挑戰(zhàn)。在此背景下,以機(jī)器學(xué)習(xí)、深度學(xué)習(xí)為代表的人工智能技術(shù)成為大數(shù)據(jù)挖掘和分析的重要手段,并且掀起了一場(chǎng)大規(guī)模的科技與產(chǎn)業(yè)革新。

人工智能是計(jì)算機(jī)科學(xué)的重要分支,其發(fā)展與數(shù)據(jù)、算法及硬件密切相關(guān)。著名的人工智能專家吳恩達(dá)曾指出,發(fā)展人工智能就像利用火箭發(fā)射衛(wèi)星,需要強(qiáng)有力的引擎和足夠的燃料。而在人工智能這艘火箭中,機(jī)器學(xué)習(xí)與深度學(xué)習(xí)等算法是引擎,高性能的計(jì)算硬件是打造引擎的工具,海量數(shù)據(jù)是引擎的燃料。上述比喻形象地闡述了人工智能發(fā)展的三大要素以及彼此間的關(guān)系。進(jìn)一步探究大數(shù)據(jù)與人工智能的聯(lián)系可知,大數(shù)據(jù)能夠?yàn)槿斯ぶ悄芴峁┖A康臄?shù)據(jù)支持,而人工智能能夠合理挖掘并釋放大數(shù)據(jù)在各行業(yè)中的衍生價(jià)值。現(xiàn)如今,大數(shù)據(jù)與人工智能已經(jīng)逐步惠及醫(yī)學(xué)、金融、交通、通信等領(lǐng)域,在當(dāng)今社會(huì)發(fā)揮著重要作用。

高質(zhì)量的數(shù)據(jù)是推動(dòng)人工智能發(fā)展的重要因素。然而,由于各種機(jī)器或人為因素的干擾,真實(shí)數(shù)據(jù)集中經(jīng)常存在不同程度的數(shù)據(jù)缺失,以致出現(xiàn)數(shù)據(jù)質(zhì)量下降等情況。數(shù)據(jù)缺失問(wèn)題普遍存在于數(shù)據(jù)采集、錄入、傳輸、存儲(chǔ)及分析等環(huán)節(jié)。探究缺失值的成因?qū)τ诶斫庖约敖鉀Q數(shù)據(jù)缺失問(wèn)題有著積極作用。

以傳感器網(wǎng)絡(luò)為例,該場(chǎng)景下的數(shù)據(jù)缺失主要來(lái)自傳感器與環(huán)境間的交互。例如,節(jié)點(diǎn)的硬件在日曬、風(fēng)吹或雨淋等環(huán)境影響下易損壞,導(dǎo)致無(wú)法傳回?cái)?shù)據(jù)。節(jié)點(diǎn)攜帶的能量有限,其在能量消耗殆盡而未及時(shí)更換電池的情況下會(huì)導(dǎo)致部分?jǐn)?shù)據(jù)丟失。節(jié)點(diǎn)的通信能力有限,其受障礙物、信號(hào)衰弱等影響,導(dǎo)致無(wú)法成功傳輸數(shù)據(jù)。節(jié)點(diǎn)的存儲(chǔ)及處理能力有限,當(dāng)其無(wú)法存儲(chǔ)數(shù)據(jù)或及時(shí)運(yùn)算時(shí),會(huì)丟失部分?jǐn)?shù)據(jù)[1]

以社會(huì)調(diào)查為例,數(shù)據(jù)采集期間的數(shù)據(jù)缺失原因主要有:被調(diào)查者因身體、工作等原因無(wú)法現(xiàn)身參與調(diào)查;被調(diào)查者因問(wèn)題敏感或涉及隱私而拒絕作答;被調(diào)查者有意或無(wú)意地隱瞞事實(shí)而虛假回復(fù)(此類數(shù)據(jù)在后期由分析人員成功檢測(cè)并刪除);調(diào)查者因粗心而忘記詢問(wèn)某些問(wèn)題,或者筆錄時(shí)出現(xiàn)明顯的錯(cuò)填。此外,在數(shù)據(jù)的后續(xù)處理過(guò)程中也易出現(xiàn)數(shù)據(jù)缺失現(xiàn)象。例如,在數(shù)據(jù)錄入期間,操作員因人為失誤錯(cuò)錄數(shù)據(jù)的位數(shù)或某個(gè)數(shù)字等導(dǎo)致數(shù)據(jù)出錯(cuò)(此類數(shù)據(jù)在后期由分析人員成功檢測(cè)并刪除);在數(shù)據(jù)存儲(chǔ)、傳輸及分析過(guò)程中,因系統(tǒng)失靈、傳輸故障、人為失誤等各種原因造成數(shù)據(jù)丟失[2]

除以上場(chǎng)景外,數(shù)據(jù)缺失還存在于金融投資、醫(yī)療診斷等諸多場(chǎng)景中。由于數(shù)據(jù)缺失的產(chǎn)生原因較多且難以完全避免,使得缺失數(shù)據(jù)成為影響數(shù)據(jù)質(zhì)量的一大原因。缺失數(shù)據(jù)可能攜帶該數(shù)據(jù)對(duì)象的重要信息,并且缺失的數(shù)據(jù)量過(guò)大會(huì)嚴(yán)重降低數(shù)據(jù)的質(zhì)量與可信度。若直接利用算法分析不完整數(shù)據(jù),不僅會(huì)增大建模難度和分析過(guò)程的復(fù)雜度,還會(huì)導(dǎo)致分析結(jié)果出現(xiàn)錯(cuò)誤。然而事實(shí)上,大多數(shù)已有的人工智能算法無(wú)法直接處理缺失數(shù)據(jù),因此,需在預(yù)處理階段對(duì)缺失數(shù)據(jù)進(jìn)行有效處理,方可進(jìn)行后續(xù)分析。而如何有效處理缺失數(shù)據(jù)已成為不完整數(shù)據(jù)分析中亟待解決的關(guān)鍵問(wèn)題。

目前,常用的缺失值處理方式主要包括不完整樣本刪除和缺失值填補(bǔ)。直接刪除不完整樣本會(huì)使得建模的數(shù)據(jù)量減小。而當(dāng)不完整樣本的數(shù)量相對(duì)于整個(gè)數(shù)據(jù)集不可忽視時(shí),該方法將導(dǎo)致大量的信息丟失,進(jìn)而導(dǎo)致分析結(jié)果出現(xiàn)嚴(yán)重偏差。相較于直接刪除不完整樣本,缺失值填補(bǔ)法則是一種更為合理的解決方法。

在不完整數(shù)據(jù)分析中,缺失值填補(bǔ)法通過(guò)研究現(xiàn)有數(shù)據(jù),為每個(gè)缺失值找到一個(gè)盡可能合理的替代值,以此獲得與原始數(shù)據(jù)集大小、維度完全相同的數(shù)據(jù)集。該方法既可以保持原始數(shù)據(jù)集的規(guī)模,又能夠?qū)θ笔е底龀龊侠淼耐茢啵咽艿奖姸嗫蒲屑皬臉I(yè)人員的廣泛關(guān)注。據(jù)統(tǒng)計(jì),在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的科研應(yīng)用中,數(shù)據(jù)預(yù)處理耗費(fèi)了研究人員超過(guò)60%的時(shí)間與精力,而在工業(yè)應(yīng)用中該比重甚至超過(guò)80%[3],其中,不完整數(shù)據(jù)處理是關(guān)鍵工作內(nèi)容。由此可見,不完整數(shù)據(jù)的缺失值填補(bǔ)理論及方法具有重要的研究意義與研究?jī)r(jià)值。

在數(shù)據(jù)質(zhì)量難以保障而人工智能不斷深化的今天,以不完整數(shù)據(jù)為對(duì)象的缺失值填補(bǔ)研究是一項(xiàng)基礎(chǔ)且必要的工作。合理的缺失值填補(bǔ)方法不僅能夠有效提升機(jī)器學(xué)習(xí)等人工智能算法的工作效率,還能提高數(shù)據(jù)分析與建模的準(zhǔn)確性和可信度,因此具有重要的現(xiàn)實(shí)意義。

主站蜘蛛池模板: 蕲春县| 翁源县| 东辽县| 开原市| 海安县| 理塘县| 手游| 托克托县| 泗洪县| 高唐县| 秦安县| 泽州县| 凤城市| 新昌县| 将乐县| 合作市| 无极县| 鄱阳县| 普兰店市| 老河口市| 新竹市| 古浪县| 安岳县| 绥宁县| 赣州市| 图片| 修文县| 霍邱县| 延安市| 大悟县| 依安县| 嘉荫县| 斗六市| 天门市| 和平县| 建湖县| 仲巴县| 郯城县| 涿鹿县| 蕉岭县| 额尔古纳市|