官术网_书友最值得收藏!

第1章 算量

本章導(dǎo)讀

本章將介紹人工智能三要素之一——數(shù)據(jù)(業(yè)界也稱為算量)。業(yè)界流行這樣一句話:數(shù)據(jù)和特征(從數(shù)據(jù)中提取的用以輸入機(jī)器學(xué)習(xí)算法模型中的維度數(shù)據(jù))決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個上限而已。從中可見數(shù)據(jù)對于人工智能發(fā)展的重要性。

此處的數(shù)據(jù)指的是大數(shù)據(jù)。數(shù)據(jù)承載著信息,不同的信息源與信息形式對應(yīng)著不同的數(shù)據(jù)類型。日常生活中,以表格形式記載的信息數(shù)據(jù)類型我們都已司空見慣,這類數(shù)據(jù)通常顯現(xiàn)出不同特征維度上的數(shù)據(jù)表現(xiàn)。例如,常見的有關(guān)銷售的數(shù)據(jù)表格能顯現(xiàn)出不同地區(qū)、不同時間、不同品種、不同部門的銷售情況,一般稱這類數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù)。還有文字、圖片與視頻等數(shù)據(jù),這類數(shù)據(jù)就不像結(jié)構(gòu)化數(shù)據(jù)那樣能顯現(xiàn)不同特征維度上的數(shù)據(jù)表現(xiàn),在輸入機(jī)器學(xué)習(xí)算法模型之前需要運用特征工程來抽取與選擇隱藏在不同特征維度上的數(shù)據(jù)表現(xiàn),通常稱這類數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù)。當(dāng)然,還有介于結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)之間的半結(jié)構(gòu)化數(shù)據(jù),如郵件等。

大數(shù)據(jù)之所以很有價值,其中一個因素是因為"多源"。為了能更準(zhǔn)確地分析與預(yù)測某些事情,往往需要從多個渠道、多個角度采集歷史數(shù)據(jù)。把各種相關(guān)的不同來源的數(shù)據(jù)匯集起來,有利于讓人工智能算法模型更完善,更具有泛化應(yīng)用能力,這就是多源數(shù)據(jù)的含義。為了獲取更多渠道的數(shù)據(jù)信息,例如互聯(lián)網(wǎng)上各類公開的報道資料,網(wǎng)絡(luò)爬蟲技術(shù)被廣泛應(yīng)用。顯然,多源數(shù)據(jù)可能包含結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。

行為數(shù)據(jù)是大數(shù)據(jù)分析與應(yīng)用過程中很重要的一類數(shù)據(jù)。行為數(shù)據(jù)亦即人們在日常生產(chǎn)和生活中的行為留痕,這些行為動作的數(shù)字化記錄對于分析、預(yù)測、判斷人們的行為動機(jī)與行為趨勢很有參考意義。今天,廣為談及的精準(zhǔn)推送、智能推薦等大數(shù)據(jù)應(yīng)用就主要是基于行為數(shù)據(jù)的。

計算機(jī)在存儲與處理大數(shù)據(jù)的過程中,經(jīng)常需要對各類數(shù)據(jù)進(jìn)行"管理"。數(shù)據(jù)來自何方、數(shù)據(jù)去往何處、數(shù)據(jù)如何編排、數(shù)據(jù)是否有更新、數(shù)據(jù)的使用記錄等信息,都需要進(jìn)行管理,用來管理這些數(shù)據(jù)的數(shù)據(jù)記錄就是元數(shù)據(jù)。數(shù)據(jù)是資產(chǎn),需要用元數(shù)據(jù)對這些數(shù)據(jù)資產(chǎn)進(jìn)行管理。

無論是元數(shù)據(jù),還是各類數(shù)據(jù)本身,通常需要用數(shù)據(jù)倉庫進(jìn)行存儲。為了實現(xiàn)對數(shù)據(jù)的并行處理和安全保障,通常可以將數(shù)據(jù)分布存儲在不同的計算機(jī)上,即采用分布式系統(tǒng)架構(gòu)對數(shù)據(jù)進(jìn)行存儲和計算處理,并通過集群系統(tǒng)技術(shù)將這些分布式存儲和計算進(jìn)行統(tǒng)一管理與調(diào)度。

類似于物流配送中心需要提升物流配送效率和降低物流配送綜合成本一樣,從原數(shù)據(jù)到數(shù)據(jù)應(yīng)用之間也存在一個"數(shù)據(jù)中臺"概念。數(shù)據(jù)中臺的目的是將對原數(shù)據(jù)的匯集和加工處理與數(shù)據(jù)分析應(yīng)用進(jìn)行分離,即通過對原數(shù)據(jù)的匯集和加工處理,形成數(shù)據(jù)分析應(yīng)用所需要的各種"組件",以支撐數(shù)據(jù)分析的快速響應(yīng)與數(shù)據(jù)應(yīng)用的敏捷開發(fā)。

在大數(shù)據(jù)發(fā)展應(yīng)用過程中,也面臨著數(shù)據(jù)安全和個人隱私保護(hù)方面的挑戰(zhàn)。除了通過立法加強(qiáng)監(jiān)管外,技術(shù)層面的安全保障措施也尤為重要,各類加密技術(shù)和區(qū)塊鏈技術(shù)將在大數(shù)據(jù)發(fā)展應(yīng)用過程中大放異彩。

主站蜘蛛池模板: 桑日县| 合作市| 平阳县| 开阳县| 浮山县| 大庆市| 怀仁县| 马公市| 仲巴县| 湘阴县| 延寿县| 新宾| 读书| 兴城市| 云南省| 凉城县| 尤溪县| 林西县| 达日县| 天峨县| 德安县| 马边| 宁武县| 栾城县| 红桥区| 综艺| 台中县| 鄯善县| 神农架林区| 延长县| 当涂县| 突泉县| 弥渡县| 柘荣县| 晋江市| 淮南市| 稻城县| 东辽县| 深水埗区| 恩平市| 临夏市|