官术网_书友最值得收藏!

前言

數據和信息正以前所未有的速度增長。正如Kevin Kelly在著名的What Technology Wants里面提到的那樣,人類幾百萬年的基因變異,平均速度大約是每年1bit;而現在信息社會每年新增的信息量為400艾(exa, IE=1018),即人類1s內處理數據的總量,等于我們的DNA用10億年處理的數據量。在這樣的滔天數據洪流面前,如何及時地對已產生的數據進行挖掘和分析,從中提取我們關心的、與企業產能和效益有密切關系的潛在信息,是信息時代的企業需要特別關注的問題;其中一個重要的方面,就是對關聯關系(頻繁模式)和高效用模式的挖掘。

由于數據流具有海量性、實時性和動態變化性的特點,這就要求數據流上的挖掘算法有較高的時空效率。盡管數據流上模式挖掘技術取得了一定的進展,但是挖掘算法的時空效率仍然是當前數據挖掘領域中的研究焦點之一。

本書以數據流上的頻繁模式和高效用模式挖掘計算為背景,介紹該領域相關的概念、理論及近年來相關的最新研究成果,內容包括傳統數據集中的頻繁模式挖掘及其大數據集下的頻繁模式挖掘算法、不確定數據流中的頻繁模式挖掘算法、具有效用值的數據流中的高效用模式挖掘算法,以及包含相應靜態數據集中的挖掘算法。全書共分為五章:第1章首先對已有的頻繁模式和高效用模式挖掘算法進行了回顧,詳細地介紹了算法Apriori和FP-Growth等;第2章探討傳統的動態數據中的頻繁模式挖掘算法;第3章首先探討不確定靜態數據上的頻繁模式挖掘算法,然后探討了不確定數據流中的頻繁模式挖掘算法;第4章探討靜態數據集上的高效用模式挖掘算法,然后基于靜態數據集上的挖掘算法,介紹數據流中的高效用模式挖掘算法;第5章以傳統數據集為例,介紹了MapReduce框架下的頻繁模式挖掘算法。各章內容相對獨立又相互聯系,較為系統地闡述了數據流中幾種模式挖掘算法的研究現狀。

本書主要內容為作者在攻讀博士學位期間的研究成果,其中部分工作得到國家自然科學基金項目“大數據環境下高維數據流挖掘算法及應用研究”(61370200)、寧波市自然科學基金項目“面向大數據的高頻金融時間序列高效用時態頻繁模式挖掘研究”(2013A610115)和“多重不確定數據流上模式挖掘的建模及算法研究”(2014A610073)等項目的支持,并得到寧波大紅鷹學院優秀博士計劃資助。書稿的撰寫過程中,大連理工大學的馮林教授、楊元生教授、金博博士等老師給予了大力支持和熱心指導,同時也得到姚遠、劉勝藍、張晶、姜玫、吳明飛、王輝兵、蔡磊等同學的關心和合作,在此一并感謝!

作者

2014年7月于寧波大紅鷹學院

主站蜘蛛池模板: 伊宁县| 上饶市| 湖北省| 肥城市| 加查县| 平谷区| 车致| 莱芜市| 西平县| 浦北县| 云林县| 宁阳县| 永丰县| 琼海市| 咸阳市| 大化| 金平| 南川市| 拉萨市| 桑日县| 长寿区| 临朐县| 全椒县| 嘉兴市| 同心县| 六盘水市| 开阳县| 柘城县| 松阳县| 平武县| 阿拉善左旗| 乐清市| 青冈县| 墨脱县| 滁州市| 巫溪县| 阜城县| 宜州市| 克拉玛依市| 松滋市| 文山县|