官术网_书友最值得收藏!

2.4 數(shù)據(jù)挖掘方法

在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘是最關(guān)鍵的工作。大數(shù)據(jù)的挖掘是從海量的、不完全的、有噪聲的、模糊的、隨機(jī)的大型數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱含在其中的有價(jià)值的、潛在有用的信息和知識(shí)的過(guò)程,也是一種決策支持過(guò)程。其主要基于人工智能、機(jī)器學(xué)習(xí)、模式學(xué)習(xí)、統(tǒng)計(jì)學(xué)等。通過(guò)對(duì)大數(shù)據(jù)高度自動(dòng)化的分析,做出歸納性的推理,從中挖掘出潛在的模式,可以幫助企業(yè)、商家、用戶調(diào)整市場(chǎng)政策、減少風(fēng)險(xiǎn)、理性面對(duì)市場(chǎng),并做出正確的決策。目前,在很多領(lǐng)域尤其是在商業(yè)領(lǐng)域(如銀行、電信、電商等),數(shù)據(jù)挖掘可以解決很多問(wèn)題,包括市場(chǎng)營(yíng)銷策略制定、背景分析、企業(yè)管理危機(jī)等。大數(shù)據(jù)的挖掘常用的方法有分類、回歸分析、聚類分析、關(guān)聯(lián)規(guī)則、因子分析、主成分分析、神經(jīng)網(wǎng)絡(luò)方法、Web數(shù)據(jù)挖掘等。這些方法從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。

2.4.1 分類分析

分類是數(shù)據(jù)挖掘技術(shù)中運(yùn)用最為廣泛也是比較重要的分析手段,它是指運(yùn)用訓(xùn)練數(shù)據(jù)集,通過(guò)分析數(shù)據(jù)的特征和運(yùn)用一定的算法求得分類規(guī)則,該分類規(guī)則就是數(shù)據(jù)分類的模型,然后運(yùn)用該模型對(duì)任何位置的數(shù)據(jù)對(duì)象進(jìn)行分類。分類分為兩個(gè)階段:①構(gòu)建分類模型,通過(guò)一定的算法對(duì)已知類標(biāo)記的數(shù)據(jù)集建立分類模型;②用第一階段構(gòu)造的模型來(lái)預(yù)測(cè)給定的數(shù)據(jù)對(duì)象的類別。比較典型的分類方法有決策樹(shù)分類方法、神經(jīng)網(wǎng)絡(luò)分類法、貝葉斯分類法以及 K-近鄰分類法。分類分析可以被用于分析客戶的屬性和特征,進(jìn)行精準(zhǔn)營(yíng)銷。

1.決策樹(shù)

決策樹(shù)是用于分類和預(yù)測(cè)的主要技術(shù)之一,決策樹(shù)學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,它著眼于從一組無(wú)次序、無(wú)規(guī)則的實(shí)例中推理出以決策樹(shù)表示的分類規(guī)則。構(gòu)造決策樹(shù)的目的是找出屬性和類別間的關(guān)系,用它來(lái)預(yù)測(cè)將來(lái)未知類別的記錄的類別。它采用自頂向下的遞歸方式,在決策樹(shù)的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性的比較,并根據(jù)不同的屬性值判斷從該節(jié)點(diǎn)向下的分支,在決策樹(shù)的葉節(jié)點(diǎn)得到結(jié)論。決策樹(shù)的表現(xiàn)形式類似于流程圖的樹(shù)結(jié)構(gòu),在決策樹(shù)的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值測(cè)試,并根據(jù)屬性值判斷由該節(jié)點(diǎn)引出的分支,在決策樹(shù)的葉節(jié)點(diǎn)得到結(jié)論。內(nèi)部節(jié)點(diǎn)是屬性或者屬性組合,而葉節(jié)點(diǎn)代表樣本所屬的類或類分布。經(jīng)由訓(xùn)練樣本集產(chǎn)生一棵決策樹(shù)后,為了對(duì)未知樣本集進(jìn)行分類,需要在決策樹(shù)上測(cè)試未知樣本的屬性值。測(cè)試路徑是由根節(jié)點(diǎn)到某個(gè)葉節(jié)點(diǎn),葉節(jié)點(diǎn)代表的類就是該樣本所屬的類。

2.貝葉斯分類

貝葉斯(Bayes)分類算法是利用統(tǒng)計(jì)學(xué)貝葉斯定理,來(lái)預(yù)測(cè)類成員的概率,即給定一個(gè)樣本,計(jì)算該樣本屬于一個(gè)特定的類的屬性。這些算法主要利用Bayes定理來(lái)預(yù)測(cè)一個(gè)未知類別的樣本屬于各個(gè)類別的可能性,選擇其中可能性最大的一個(gè)類別作為該樣本的最終類別。由于貝葉斯定理的成立本身需要一個(gè)很強(qiáng)的條件獨(dú)立性假設(shè)前提,而此假設(shè)在實(shí)際情況中經(jīng)常是不成立的,因而其分類準(zhǔn)確性就會(huì)下降。為此就出現(xiàn)了許多降低獨(dú)立性假設(shè)的貝葉斯分類算法,如TAN算法,它是在貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上增加屬性對(duì)之間的關(guān)聯(lián)來(lái)實(shí)現(xiàn)的。

貝葉斯分類的主要算法包括樸素貝葉斯分類算法、貝葉斯網(wǎng)絡(luò)分類算法等。

樸素貝葉斯分類(Na?ve Bayes Analysis, NBC),假設(shè)每個(gè)屬性之間都是相互獨(dú)立的,并且每個(gè)屬性對(duì)非類問(wèn)題產(chǎn)生的影響都是一樣的,即一個(gè)屬性值對(duì)給定類的影響?yīng)毩⒂谄渌麑傩缘闹怠?/p>

貝葉斯定理是概率論中的一個(gè)結(jié)果,它跟隨機(jī)變量的條件概率以及邊緣概率分布有關(guān)。通常來(lái)講,事件A在事件B發(fā)生的條件下的概率,與事件B在事件A發(fā)生的條件下的概率是不一樣的,這兩者有確定的關(guān)系,貝葉斯定理就是這種關(guān)系的陳述。

3.k-近鄰分類法

k-近鄰分類法不是事先通過(guò)數(shù)據(jù)來(lái)選好分類模型,再對(duì)未知樣本分類,而是存儲(chǔ)帶有標(biāo)記的樣本集,給一個(gè)沒(méi)有標(biāo)記的樣本,用樣本集中k個(gè)與之相近的樣本對(duì)其進(jìn)行即時(shí)分類。k-近鄰就是找出k個(gè)相似的樣本來(lái)建立目標(biāo)函數(shù)逼近。

k-近鄰的基本思路:首先,存儲(chǔ)一些標(biāo)記好的樣本集;其次,要有一個(gè)未知類的樣本用來(lái)對(duì)其分類;其次,逐一取出樣本集中的樣本,與未知類樣本相比較,找到k個(gè)與之相近的樣本,用這k個(gè)樣本的多數(shù)的類為未知樣本定類;最后,在樣本集為連續(xù)值時(shí),用k個(gè)樣本的平均值為未知樣本定值。

2.4.2 回歸分析

回歸分析是指對(duì)具有相關(guān)關(guān)系的兩個(gè)變量或多個(gè)變量建立合適的數(shù)學(xué)模型,以近似地表示變量之間平均變化關(guān)系的一種統(tǒng)計(jì)方法?;貧w分析與分類分析類似,但回歸分析的目的不是尋找描述類的模式,而是尋找變量間的關(guān)系模式以確定數(shù)值。例如簡(jiǎn)單的線性回歸技術(shù),它的結(jié)果是一個(gè)函數(shù),可以根據(jù)輸入變量的值來(lái)計(jì)算輸出變量的值。比較流行的回歸分析技術(shù)有線性回歸和邏輯回歸,兩者的區(qū)別在于線性回歸的因變量是連續(xù)的,邏輯回歸的變量是離散的。此外,還有非線性回歸模型,有的可以轉(zhuǎn)化為線性模型?;貧w分析方法被廣泛地用于解釋市場(chǎng)占有率、銷售額、品牌偏好及市場(chǎng)營(yíng)銷效果。

1.線性回歸

線性回歸是利用數(shù)理統(tǒng)計(jì)中的回歸分析,來(lái)確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法,運(yùn)用十分廣泛。

線性回歸有很多實(shí)際用途,分為以下兩大類。

(1)如果目標(biāo)是預(yù)測(cè)或者映射,線性回歸可以用來(lái)對(duì)觀測(cè)數(shù)據(jù)集的值和X的值擬合出一個(gè)預(yù)測(cè)模型。當(dāng)完成這樣一個(gè)模型以后,對(duì)于一個(gè)新增的X值,在沒(méi)有給定與它相配對(duì)的y值的情況下,可以用這個(gè)擬合過(guò)的模型預(yù)測(cè)出一個(gè)y值。

(2)給定一個(gè)變量y和一些變量X1, ..., Xp,這些變量有可能與y相關(guān),線性回歸分析可以用來(lái)量化yXj之間相關(guān)性的強(qiáng)度,評(píng)估出與y不相關(guān)的Xj,并識(shí)別出哪些Xj的子集包含關(guān)于y的冗余信息。

2. Logistic回歸分析

Logistic回歸模型是一種概率模型,適合于病例—對(duì)照研究、隨訪研究和橫斷面研究,且結(jié)果發(fā)生的變量取值必須是二分的或多項(xiàng)分類。可用影響結(jié)果變量發(fā)生的因素作為自變量與因變量,建立回歸方程。

Logistic回歸分析的主要用途:一是尋找危險(xiǎn)因素;二是預(yù)測(cè);三是判別。

2.4.3 其他方法

1.聚類分析

聚類分析源于許多研究領(lǐng)域,包括數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別等。聚類分析是指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的分析過(guò)程。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過(guò)程,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。聚類分析是一種探索性的分析,在分類的過(guò)程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類。聚類分析所使用方法的不同,常常會(huì)得到不同的結(jié)論。不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類分析,所得到的聚類數(shù)未必一致。作為數(shù)據(jù)挖掘中的一個(gè)功能,聚類分析能作為一個(gè)獨(dú)立的工具來(lái)獲得數(shù)據(jù)分布的情況,并且概括出每個(gè)簇的特點(diǎn),或者集中注意力對(duì)特定的某些簇做進(jìn)一步分析。數(shù)據(jù)挖掘技術(shù)的一個(gè)突出特點(diǎn)是能處理巨大的、復(fù)雜的數(shù)據(jù)集,這對(duì)聚類分析技術(shù)提出了特殊的挑戰(zhàn),要求算法具有可伸縮性、可處理不同類型的屬性、可發(fā)現(xiàn)任意形狀的類及處理高維數(shù)據(jù)等。根據(jù)潛在的各項(xiàng)應(yīng)用,數(shù)據(jù)挖掘?qū)垲惙治龇椒ㄌ岢隽瞬煌蟆?/p>

聚類類似于分類,但與分類的目的不同,是針對(duì)數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個(gè)類別。屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關(guān)聯(lián)性很低。

聚類在數(shù)據(jù)挖掘中的典型應(yīng)用有以下3個(gè)方面。①聚類分析可以作為其他算法的預(yù)處理步驟:利用聚類進(jìn)行數(shù)據(jù)預(yù)處理,可以獲得數(shù)據(jù)的基本情況,在此基礎(chǔ)上進(jìn)行特征抽取或分類可以提高精確度和挖掘效率。也可將聚類結(jié)果用于進(jìn)一步關(guān)聯(lián)分析,以獲得進(jìn)一步的有用信息。②可以作為一個(gè)獨(dú)立的工具來(lái)獲得數(shù)據(jù)的分布情況:聚類分析是獲得數(shù)據(jù)分布情況的有效方法。通過(guò)觀察聚類得到每個(gè)簇的特點(diǎn),可以集中對(duì)特定的某些簇做進(jìn)一步的分析。③聚類分析可以完成孤立點(diǎn)挖掘。許多數(shù)據(jù)挖掘算法試圖使孤立點(diǎn)影響最小化,或者排除它們。然而孤立點(diǎn)本身可能是非常有用的,如在金融欺詐探測(cè)中,孤立點(diǎn)可能預(yù)示著金融欺詐行為的存在。

聚類分析法有快速聚類和系統(tǒng)聚類。

1)快速聚類

要求事先確定分類。它不僅要求確定分類的類數(shù),而且還需要事先確定點(diǎn),也就是聚類種子,然后,根據(jù)其他點(diǎn)離這些種子的遠(yuǎn)近把所有點(diǎn)進(jìn)行分類。再然后就是將這幾類的中心(均值)作為新的基石,再分類。如此迭代。

2)系統(tǒng)聚類

系統(tǒng)聚類是將樣品分成若干類的方法,其基本思想是:先將每個(gè)樣品各看成一類,然后規(guī)定類與類之間的距離,選擇距離最小的一對(duì)合并成新的一類,計(jì)算新類與其他類之間的距離,再將距離最近的兩類合并,這樣每次減少一類,直至所有的樣品合為一類為止。

2.關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中研究較早而且至今仍活躍的研究方法之一。關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)或相互關(guān)系,即可以根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出其他數(shù)據(jù)項(xiàng)的出現(xiàn)。關(guān)聯(lián)規(guī)則的挖掘過(guò)程主要包括兩個(gè)階段:第一階段為從海量原始數(shù)據(jù)中找出所有的高頻項(xiàng)目組;第二階段為從這些高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用于金融行業(yè)企業(yè)中用以預(yù)測(cè)客戶的需求,通過(guò)捆綁客戶可能感興趣的信息供用戶了解并獲取相應(yīng)信息來(lái)改善自身的營(yíng)銷。

關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。

在客戶關(guān)系管理中,通過(guò)對(duì)企業(yè)的客戶數(shù)據(jù)庫(kù)里的大量數(shù)據(jù)進(jìn)行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場(chǎng)營(yíng)銷效果的關(guān)鍵因素,為產(chǎn)品定位、定價(jià)與定制客戶群,客戶尋求、細(xì)分與保持,市場(chǎng)營(yíng)銷與推銷,營(yíng)銷風(fēng)險(xiǎn)評(píng)估和詐騙預(yù)測(cè)等決策支持提供參考依據(jù)。

(1)Apriori算法:使用候選項(xiàng)集找頻繁項(xiàng)集。

Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡(jiǎn)稱頻集。

該算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來(lái)。為了生成所有頻集,使用了遞推的方法。

可能產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫(kù),是 Apriori算法的兩大缺點(diǎn)。

(2)基于劃分的算法。

Savasere等設(shè)計(jì)了一個(gè)基于劃分的算法。這個(gè)算法先把數(shù)據(jù)庫(kù)從邏輯上分成幾個(gè)互不相交的塊,每次單獨(dú)考慮一個(gè)分塊并對(duì)它生成所有的頻集,然后把產(chǎn)生的頻集合并,用來(lái)生成所有可能的頻集,最后計(jì)算這些項(xiàng)集的支持度。這里分塊的大小選擇要使得每個(gè)分塊可以被放入主存,每個(gè)階段只需被掃描一次。而算法的正確性是由每一個(gè)可能的頻集至少在某一個(gè)分塊中是頻集保證的。該算法是可以高度并行的,可以把每一分塊分別分配給某一個(gè)處理器生成頻集。產(chǎn)生頻集的每一個(gè)循環(huán)結(jié)束后,處理器之間進(jìn)行通信來(lái)產(chǎn)生全局的候選k-項(xiàng)集。通常這里的通信過(guò)程是算法執(zhí)行時(shí)間的主要瓶頸;而另一方面,每個(gè)獨(dú)立的處理器生成頻集的時(shí)間也是一個(gè)瓶頸。

(3)FP-樹(shù)頻集算法。

針對(duì) Apriori算法的固有缺陷,J. Han等提出了不產(chǎn)生候選挖掘頻繁項(xiàng)集的方法:FP-樹(shù)頻集算法。采用分而治之的策略,在經(jīng)過(guò)第一遍掃描之后,把數(shù)據(jù)庫(kù)中的頻集壓縮進(jìn)一棵頻繁模式樹(shù)(FP-tree),同時(shí)依然保留其中的關(guān)聯(lián)信息,隨后再將FP-tree分化成一些條件庫(kù),每個(gè)庫(kù)和一個(gè)長(zhǎng)度為1的頻集相關(guān),然后再對(duì)這些條件庫(kù)分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很大的時(shí)候,也可以結(jié)合劃分的方法,使得一個(gè)FP-tree可以放入主存中。

3.因子分析

因子分析的基本目的就是用少數(shù)幾個(gè)因子描述許多指標(biāo)或因素之間的聯(lián)系,即將相關(guān)比較密切的幾個(gè)變量歸在同一類中,每一類變量就成為一個(gè)因子,以較少的幾個(gè)因子反映原資料的大部分信息。

運(yùn)用這種研究技術(shù),我們可以方便地找出影響消費(fèi)者購(gòu)買(mǎi)、消費(fèi)和滿意度的主要因素是哪些,以及這些因素的影響力如何。運(yùn)用這種研究技術(shù),我們還可以為市場(chǎng)細(xì)分做前期分析。

4.主成分分析

設(shè)法將原來(lái)的變量重新組合成一組新的互相無(wú)關(guān)的幾個(gè)綜合變量,同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的綜合變量盡可能多地反映原來(lái)變量的信息的統(tǒng)計(jì)方法叫作主成分分析或稱主分量分析,這也是數(shù)學(xué)上用來(lái)降維的一種方法。

主成分分析是設(shè)法將原來(lái)眾多的具有一定相關(guān)性(比如P個(gè)指標(biāo)),重新組合成一組新的互相無(wú)關(guān)的綜合指標(biāo)來(lái)代替原來(lái)的指標(biāo)。

最經(jīng)典的做法就是用 F1(選取的第一個(gè)線性組合,即第一個(gè)綜合指標(biāo))的方差來(lái)表達(dá),即 Var(F1)越大,表示 F1包含的信息越多。因此,在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱 F1為第一主成分。如果第一主成分不足以代表原來(lái)P個(gè)指標(biāo)的信息,再考慮選取 F2,即選第二個(gè)線性組合,為了有效地反映原來(lái)的信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學(xué)語(yǔ)言表達(dá)就是要求Cov(F1, F2)=0,則稱F2為第二主成分,以此類推可以構(gòu)造出第三、第四……第P個(gè)主成分。

主成分分析作為基礎(chǔ)的數(shù)學(xué)分析方法,其實(shí)際應(yīng)用十分廣泛,比如人口統(tǒng)計(jì)學(xué)、數(shù)量地理學(xué)、分子動(dòng)力學(xué)模擬、數(shù)學(xué)建模、數(shù)理分析等學(xué)科中均有應(yīng)用,是一種常用的多變量分析方法。

5.神經(jīng)網(wǎng)絡(luò)方法

神經(jīng)網(wǎng)絡(luò)作為一種先進(jìn)的人工智能技術(shù),因其自身自行處理、分布存儲(chǔ)和高度容錯(cuò)等特性非常適合處理非線性的以及那些以模糊、不完整、不嚴(yán)密的知識(shí)或數(shù)據(jù)為特征的處理問(wèn)題,它的這一特點(diǎn)十分適合解決數(shù)據(jù)挖掘的問(wèn)題。典型的神經(jīng)網(wǎng)絡(luò)模型主要分為三大類:第一類是用于分類預(yù)測(cè)和模式識(shí)別的前饋式神經(jīng)網(wǎng)絡(luò)模型,其主要代表為函數(shù)型網(wǎng)絡(luò)、感知機(jī)。第二類是用于聯(lián)想記憶和優(yōu)化算法的反饋式神經(jīng)網(wǎng)絡(luò)模型,以 Hopfield的離散模型和連續(xù)模型為代表。第三類是用于聚類的自組織映射方法,以 ART模型為代表。雖然神經(jīng)網(wǎng)絡(luò)有多種模型及算法,但在特定領(lǐng)域的數(shù)據(jù)挖掘中使用何種模型及算法并沒(méi)有統(tǒng)一的規(guī)則,而且人們很難理解網(wǎng)絡(luò)的學(xué)習(xí)及決策過(guò)程。

6. Web數(shù)據(jù)挖掘

Web數(shù)據(jù)挖掘是一項(xiàng)綜合性技術(shù),指 Web從文檔結(jié)構(gòu)和使用的集合 C中發(fā)現(xiàn)隱含的模式P,如果將C看作是輸入、P看作是輸出,那么Web挖掘過(guò)程就可以看作是從輸入到輸出的一個(gè)映射過(guò)程。

當(dāng)前越來(lái)越多的Web數(shù)據(jù)都是以數(shù)據(jù)流的形式出現(xiàn)的,因此對(duì) Web數(shù)據(jù)流挖掘就具有很重要的意義。目前常用的Web數(shù)據(jù)挖掘算法有:PageRank算法,HITS算法以及LOGSOM算法。這3種算法提到的用戶都是籠統(tǒng)的用戶,并沒(méi)有區(qū)分用戶的個(gè)體。目前Web數(shù)據(jù)挖掘面臨著一些問(wèn)題,主要包括:用戶的分類問(wèn)題,網(wǎng)站內(nèi)容時(shí)效性問(wèn)題,用戶在頁(yè)面停留時(shí)間問(wèn)題,頁(yè)面的鏈入與鏈出數(shù)問(wèn)題等。在Web技術(shù)高速發(fā)展的今天,這些問(wèn)題仍舊值得研究并加以解決。

7.序列分析

序列分析是對(duì)序列數(shù)據(jù)進(jìn)行分析以發(fā)現(xiàn)蘊(yùn)藏其中的模式和規(guī)律。序列數(shù)據(jù)和時(shí)間序列數(shù)據(jù)都是連續(xù)的觀測(cè)值,觀測(cè)值之間相互依賴。它們之間的差別在于序列數(shù)據(jù)包含離散的狀態(tài),而時(shí)間序列是連續(xù)的數(shù)值。序列數(shù)據(jù)和關(guān)聯(lián)數(shù)據(jù)比較相似,它們都是一個(gè)項(xiàng)集或一組狀態(tài),區(qū)別在于序列分析分析的是狀態(tài)的轉(zhuǎn)移,將數(shù)據(jù)間的關(guān)聯(lián)性和時(shí)間聯(lián)系起來(lái),而關(guān)聯(lián)分析不需要考慮時(shí)間問(wèn)題。Markov鏈?zhǔn)沁M(jìn)行序列分析的主要技術(shù)之一。

8.偏差分析

數(shù)據(jù)庫(kù)中一般存在著很多異常數(shù)據(jù),找出這些異常數(shù)據(jù)非常重要,偏差分析可以解決此類問(wèn)題。偏差分析用于檢測(cè)數(shù)據(jù)現(xiàn)狀、歷史記錄與標(biāo)準(zhǔn)之間的顯著變化和偏離,例如,觀測(cè)結(jié)果與期望的偏離、分類中的反常實(shí)例、模式的例外等。偏差分析的基本方法就是尋找觀察結(jié)果與參照之間的差別。例如,信用卡欺詐案行為檢測(cè)、網(wǎng)絡(luò)入侵檢測(cè)、劣質(zhì)產(chǎn)品分析等。

9.預(yù)測(cè)

預(yù)測(cè)是大數(shù)據(jù)最核心的功能。大數(shù)據(jù)預(yù)測(cè)是指運(yùn)用歷史數(shù)據(jù)和預(yù)測(cè)模型預(yù)測(cè)未來(lái)某件事情的概率。精度和不確定性是預(yù)測(cè)的關(guān)注點(diǎn),通常用預(yù)測(cè)方差進(jìn)行衡量。預(yù)測(cè)技術(shù)是以表示一系列時(shí)間值的數(shù)列作為輸入,接下來(lái)運(yùn)用計(jì)算機(jī)學(xué)習(xí)和統(tǒng)計(jì)技術(shù)對(duì)數(shù)據(jù)進(jìn)行周期性分析、趨勢(shì)分析和噪聲分析,進(jìn)而估算這些序列未來(lái)的值。例如,可以通過(guò)挖掘企業(yè)的歷史銷售數(shù)據(jù)預(yù)測(cè)該企業(yè)未來(lái)一年的銷售額。

主站蜘蛛池模板: 田东县| 绍兴县| 洛川县| 寻乌县| 辽宁省| 朝阳区| 丰宁| 多伦县| 西贡区| 辉县市| 乐都县| 丰台区| 广河县| 平泉县| 永泰县| 三门峡市| 绵竹市| 化隆| 甘德县| 文安县| 贡山| 金秀| 夏河县| 玛纳斯县| 武乡县| 安国市| 富宁县| 凤凰县| 依安县| 洛浦县| 固镇县| 长宁区| 石林| 老河口市| 鄂尔多斯市| 阿合奇县| 清苑县| 新巴尔虎左旗| 南丰县| 兰西县| 达尔|