- Web用戶查詢日志挖掘與應用
- 王繼民
- 1989字
- 2019-01-04 01:33:07
前言
隨著計算機網絡技術的日益成熟與Web信息量的快速增長,用戶可以利用網絡在任何地點對各類Web檢索系統進行信息查詢,包括Web搜索引擎、電子商務站點、數字圖書館等。Web檢索系統的服務器日志記錄了用戶與系統交互的整個過程,主要包括用戶的訪問時間、所輸入的查詢詞、點擊的檢索結果及點擊時間、移動用戶的終端設備信息等。這些日志文件所包含的查詢或點擊記錄的規模一般都很大,尤其是大型商業搜索引擎,它每天能接受幾千萬甚至上億次的用戶查詢。
開展大規模互聯網用戶查詢日志挖掘及其應用研究,可以發現中文用戶進行Web查詢行為的特征與規律,改善Web檢索系統的性能 (效果與效率),實現個性化信息服務,在發現用戶查詢主題的變化及其與社會事件之間的關系等方面也具有重要的理論與實際意義。
本書介紹了互聯網用戶查詢日志挖掘及其應用研究領域的主要技術、方法與實證研究成果,全書由3篇共14章內容組成,具體如下。
上篇是對用戶查詢日志挖掘及其應用研究的概括性分析與總論。首先利用文獻計量與社會網絡分析等方法,剖析了Web搜索引擎用戶日志與移動搜索用戶日志的國內外研究熱點、主要科研團隊等研究現狀。然后給出了Web用戶查詢日志挖掘研究框架,分別針對搜索引擎用戶日志和移動搜索用戶日志,闡明了使用何種數據分析與挖掘的理論、技術與方法,歸納并總結了目前已有的研究成果,包括:日志挖掘的研究內容、數據集的選擇方法、數據預處理的方法、不同地域用戶行為的特征與比較、如何應用于系統性能的改善等內容。該框架的建立可以指導一般的Web檢索系統、電子商務站點及其類似Web日志挖掘的研究等。上篇由4章內容組成。
中篇介紹基于不同類型日志所開展的實證研究。用戶日志來自北大天網大規模Web搜索引擎系統的用戶日志、國內某大型期刊數據庫的用戶日志、移動搜索的用戶日志,這三類日志分別涵蓋搜索引擎的使用情況、學術期刊數據庫的使用情況和移動搜索的使用情況,代表性較強。對這些日志數據集,我們開展了多維度、多方法的綜合性試驗研究。取得了許多有價值的研究成果,包括:基于時間序列的用戶訪問量模型、中文Web搜索引擎用戶檢索的一般特征與規律、多任務中文Web查詢的特征、用戶點擊URL的局部性與自相似性、中文Web用戶查詢行為的演化趨勢、高校用戶檢索策略的影響因素模型、國內移動搜索用戶與傳統PC搜索用戶的比較研究等。中篇由7章內容組成。
下篇介紹應用研究方面的工作,主要包括3部分內容。其一為基于用戶日志進行查詢推薦的一項實驗性研究。其二由一項發明專利的內容構成,所介紹的查詢推薦方法及系統具有實際可操作性。它充分利用用戶日志的數據項,為用戶提供最可能反映其查詢意向且系統具有最佳反饋結果的查詢串。其三介紹基于用戶查詢的輿情監測實例與一個實證研究結果。下篇由3章內容組成。本書的整體邏輯框架如圖1所示。

圖1 本書的基本結構
Web用戶查詢日志挖掘所使用的技術與方法主要有:中文信息處理技術、Web使用挖掘方法、建模分析與預測、社會網絡分析方法、可視化技術、新事件探測技術、網絡輿情分析分法等。整體研究思路與技術路線如圖2所示。

圖2 Web用戶查詢日志挖掘的研究思路與技術路線
本書內容主要來自作者近年來在該領域所做的研究工作,多數章節的內容直接來自本人與他人合作發表的學術研究論文;其中,基于搜索引擎實證研究的數據主要來自北大天網前幾年的用戶日志 (作為公益性中文搜索引擎,它始終沒有商業化,近幾年的用戶訪問量較少),而主流的商業搜索引擎如百度、谷歌等都不對外提供或不愿完整提供自己的用戶日志,這使得我們無法進一步更新這些實證研究成果。本書的部分研究工作得到中國博士后科學基金、教育部人文社科基金、國家社會科學基金等科研基金的資助。作者早期的研究工作是在北京大學信息科學技術學院網絡實驗室做博士后時完成的,感謝合作導師李曉明教授的指導與幫助。本書中的搜索引擎日志分析的工作大多是與北大網絡實驗室的老師和研究生們共同完成的,包括閆宏飛、彭波、孟濤、陳翀、龔筆紅等;移動搜索和期刊數據庫檢索日志挖掘的工作大多是與我指導的研究生們一起完成的,主要有王建冬、李雷明子、張鵬、王明星、鄭玉鳳、張玉濤等,本科生有孟凡、王一博等;我系博士后化柏林老師和知識產權出版社的李德升老師對書稿的修訂和完善提出了有益的建議。感謝所有與我進行過合作研究和為我提供幫助的老師和同學們。在寫作過程中,我們參考或借鑒了大量的中外文參考資料,由于篇幅所限或工作疏忽,未能一一列出,在此特向所有的參考文獻作者表示衷心的感謝。
本書的撰寫工作雖幾經努力,但限于能力和水平,難免有疏漏與錯誤之處;同時,Web用戶查詢日志挖掘與應用屬于一個新興的研究領域,具有多學科交叉屬性;隨著互聯網的快速發展,特別是移動互聯網的普及,Web用戶的查詢行為也將產生新的變化,本書中的一些理論、技術與方法也需要進一步完善和提高。因此,懇請各位專家和讀者批評指正 (E-mail:mailto:wjm@pku.edu.cn)。
王繼民
2013年10月于北京大學靜園三院
- 廣電5G從入門到精通
- C++黑客編程揭秘與防范
- Learning QGIS 2.0
- 物聯網概論(第2版)
- Windows Server 2003 Active Directory Design and Implementation: Creating, Migrating, and Merging Networks
- 智慧城市中的移動互聯網技術
- 通信簡史:從信鴿到6G+
- 通信原理及MATLAB/Simulink仿真
- 搶占下一個智能風口:移動物聯網
- Windows Server 2012 Hyper-V虛擬化管理實踐
- 通信十年:擁抱互聯網
- 網絡利他行為研究:積極心理學的視角
- INSTANT LinkedIn Customization How-to
- Guide to NoSQL with Azure Cosmos DB
- SRv6網絡部署指南