官术网_书友最值得收藏!

第1章 緒論

1.1 背景和意義

智能終端、互聯網及無線傳感網絡的發展將我們帶入了一個數據的時代,據市場研究公司Strategy Analytics的分析師預測稱:在未來5年內,全球移動用戶基數將增加到89億;中國三家電信運營商的各省份公司也都在構建著自己的數據倉庫,而這些數據倉庫的總體規模已達到數十PB的水平;騰訊微博每天約有4000萬條微博信息;YouTube每月上傳的視頻近100萬h。此外,傳感器網絡、移動網絡、電子郵件、社會網絡以及生物信息等領域每天都會產生海量數據,在此推動下,數據流成為未來數據發展的一個主要趨勢,而從數據流中挖掘有用的知識得到廣泛的重視。

數據挖掘(Data Mining, DM)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。當積累的數據越來越多,如何從積累的數據中提取有用的知識成為很多行業的當務之急。數據挖掘的技術主要有關聯規則挖掘、聚類分析、分類、預測、時序模式和偏差分析等。

自從數據挖掘技術出現以來,關聯規則挖掘一直是數據挖掘領域中的一個最基本和最重要的研究方向。關聯規則挖掘的重要工作就是挖掘頻繁項集(頻繁模式),因此關聯規則挖掘也常常稱為頻繁模式挖掘。根據處理的事務數據集的類型不同,存在傳統數據集上的頻繁模式挖掘、不確定數據集上的頻繁模式挖掘和具有內外部效用值數據集中的高效用模式挖掘等。傳統的數據集僅僅考慮了事務項集中的項是否出現,而沒有考慮事務項集中的項集效用值;高效用模式挖掘將事務項集中的效用值也考慮到模式的挖掘模型中;不確定事務數據集中的頻繁模式挖掘考慮了事務項集中項對應值的不確定性。以上不同類型中的模式挖掘已被廣泛應用在商業、企業、過程控制、政府部門及科學研究等領域。如在移動通信數據中,可以通過頻繁模式挖掘出高消費客戶群的消費規則、不同客戶群之間的關系、增值較高的業務組合、客戶的消費推薦等;在關聯規則產生的過程中,可以同時利用頻繁模式和高效用模式來產生利潤最大的規則。另外頻繁模式挖掘也被擴展到了聚類、分類、預測、序列模式、異常檢測等其他數據挖掘技術中。

本書分別對傳統數據流、不確定數據流中的頻繁模式挖掘算法及數據流中高效用模式挖掘算法進行了分析與研究,分別介紹新的挖掘算法或者對已有算法的改進算法;同時本書也對大數據集中的頻繁模式挖掘算法進行了分析與研究,并介紹基于MapReduce并行框架的大數據的頻繁模式挖掘算法。

主站蜘蛛池模板: 且末县| 遂宁市| 明溪县| 九龙县| 徐州市| 即墨市| 天水市| 阜阳市| 浙江省| 山阴县| 河东区| 阿鲁科尔沁旗| 工布江达县| 彩票| 淮滨县| 淄博市| 天镇县| 元谋县| 景谷| 鱼台县| 波密县| 新宁县| 杨浦区| 玛曲县| 新密市| 扬州市| 乐陵市| 米泉市| 阿拉善左旗| 龙川县| 阳原县| 和田县| 永川市| 北海市| 天台县| 平山县| 黄大仙区| 临泽县| 隆昌县| 霍州市| 绵阳市|