官术网_书友最值得收藏!

3.3.1 無監(jiān)督學習

無監(jiān)督學習(Unsupervised Learning)是機器學習的一個分支,主要解決訓練樣本在標簽缺乏情況下的模式識別問題,這類算法主動學習的特性能夠很好地滿足互聯(lián)網(wǎng)金融機構(gòu)對于反欺詐場景的業(yè)務(wù)需求。聚類(Clustering)是無監(jiān)督學習中應(yīng)用最廣的一種算法,它的學習目標是將樣本集劃分為若干個不相交的簇,每一個簇都具備特定的規(guī)律。在聚類的時候,我們希望簇內(nèi)相似度高,并且簇間相似度低,這樣才能使聚類后的結(jié)果區(qū)分度最優(yōu)。聚類有多種方式,可以基于距離、概率、密度等給出不同的計算結(jié)果。在反欺詐場景中,建模人員既可以觀察聚類結(jié)果,直接找出異常簇作為疑似欺詐客群,又可以利用簇內(nèi)相似性的原理,將與欺詐客群處于同一個簇的其他樣本打標,擴充標簽數(shù)據(jù)后訓練分類模型。

孤立森林(Isolation Forest)是另一種在反欺詐場景中被嘗試過的無監(jiān)督算法,于2008年被周志華教授團隊首先提出。與聚類算法通過距離、密度等量化指標識別異常樣本不同,孤立森林基于二叉搜索樹原理,利用多棵樹的隨機劃分,找出最容易被孤立出來的樣本作為異常樣本。異常樣本到根節(jié)點的平均路徑長度,則可以看作是該樣本的異常程度,平均路徑長度越短,異常程度越高。由于原理不同,孤立森林可以與聚類相融合,從不同角度量化樣本的異常程度,從而提高召回樣本的準確性。

在深度學習中也有一種無監(jiān)督學習算法,自編碼器(Autoencoder)。它通過神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)將原始樣本從高維空間壓縮到低維空間,從而最大化保留樣本的信息量。自編碼器分為兩部分:第一部分是編碼器(Encoder),它的作用是將樣本集通過多層網(wǎng)絡(luò)映射到一個低維空間;第二部分是解碼器(Decoder),在訓練時通過反向傳播不斷優(yōu)化網(wǎng)絡(luò)參數(shù),使得模型的損失函數(shù)最小。編碼器留下信息量最大的維度,同時解碼器將低維空間還原到樣本集原始的高維空間,其中與原始分布差異較大的樣本,可以看作異常樣本。

自編碼器對于訓練樣本的數(shù)量和維度有一定要求,在樣本量足夠大的情況下可以嘗試這種深度學習方法,找出疑似異常客戶。

主站蜘蛛池模板: 莒南县| 图木舒克市| 平乡县| 利辛县| 关岭| 子洲县| 越西县| 舟山市| 彭州市| 攀枝花市| 溧水县| 阿图什市| 肥乡县| 林周县| 七台河市| 顺昌县| 铁力市| 南溪县| 竹北市| 云林县| 诏安县| 邛崃市| 台中市| 东辽县| 包头市| 西充县| 庆云县| 万载县| 花莲县| 太白县| 淅川县| 南开区| 恩平市| 岳阳县| 孝昌县| 汶上县| 七台河市| 丽江市| 舞钢市| 武川县| 兴宁市|