官术网_书友最值得收藏!

第1章 緒論

隨著信息時代的到來,各行業(yè)的數(shù)據(jù)規(guī)模呈爆炸式增長。由于數(shù)據(jù)質(zhì)量難以得到有效保障,數(shù)據(jù)缺失已經(jīng)成為實驗研究和實踐過程中面臨的重要問題。在面對缺失數(shù)據(jù)時,直接刪除往往會造成大量信息丟失,嚴重降低數(shù)據(jù)集的可靠性。缺失值填補方法利用現(xiàn)有數(shù)據(jù)為缺失值計算合理的填補值,從而構(gòu)造完整的數(shù)據(jù)集。該方式既可以保持原始數(shù)據(jù)集的規(guī)模,又能夠?qū)θ笔е底龀龊侠淼耐茢啵殉蔀槿笔?shù)據(jù)處理的研究熱點。

常用的缺失值填補方法主要包括基于統(tǒng)計學的缺失值填補方法和基于機器學習的缺失值填補方法。基于統(tǒng)計學的缺失值填補方法具備廣泛的研究基礎,且研究成果斐然。而鑒于機器學習算法在處理大規(guī)模數(shù)據(jù)時具有良好的表現(xiàn),將其應用于數(shù)據(jù)填補工作具有重要的現(xiàn)實意義。大多數(shù)基于機器學習的填補方法根據(jù)不完整數(shù)據(jù)集中的已知信息建立預測模型,并通過訓練出的預測模型估計缺失值,其優(yōu)越性已經(jīng)在實驗研究和實踐過程中得到了充分驗證。目前,缺失值填補方法已經(jīng)為基于數(shù)據(jù)的科學研究提供了可靠的基礎,并且在多個實踐領(lǐng)域獲得了廣泛的應用。隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算產(chǎn)業(yè)的深入發(fā)展,高質(zhì)量的數(shù)據(jù)已經(jīng)成為推動各行業(yè)發(fā)展的重要因素,缺失值填補方法必將因其重要的現(xiàn)實意義與實用價值而受到越來越多的關(guān)注。

主站蜘蛛池模板: 罗山县| 社旗县| 临江市| 荆门市| 常山县| 正定县| 黔东| 砀山县| 高州市| 萨迦县| 奇台县| 沙雅县| 林西县| 扎兰屯市| 旌德县| 潜山县| 临湘市| 平陆县| 江源县| 攀枝花市| 斗六市| 衢州市| 新营市| 铁岭市| 云浮市| 丰原市| 缙云县| 治多县| 富平县| 兴安县| 咸宁市| 大荔县| 通道| 海兴县| 喜德县| 海南省| 阿勒泰市| 济源市| 同心县| 卢龙县| 临汾市|