phix电子烟和mt哪个好

書名：自己動手寫分布式搜索引擎
作者名：羅剛
本章字數： 992字
更新時間： 2020-11-28 15:52:41

1.7 本章小結

在20世紀90年代，計算機還不普及，圖書館為了方便借閱者檢索圖書，把每本書對應做了一個卡片，借閱者可以根據圖書的分類編號手工查找分類放在盒子中的圖書卡片。

20世紀50年代中期，在IBM公司工作的Luhn提出利用詞對文檔構建索引并利用用戶查詢詞與文檔中詞的匹配程度進行檢索的方法，這種方法就是目前常用的倒排文檔技術的雛形。倒排索引按詞建立詞到文檔的映射。雖然詞是最基本的語義單元，但是用戶意圖往往不僅僅只是用查詢詞就能完全代表。需要擴展查詢詞，猜測用戶意圖，根據用戶意圖展示信息。

本章介紹了互聯網搜索及其創新原則。在Google出現之前，Yahoo使用人工對網站分類，提供按目錄導航和搜索目錄數據庫功能。在Google尚未占據互聯網搜索絕對優勢之前，也是在筆者第一次聽人推薦Google之前，就出現了元搜索引擎(Meta Search Engine)。用戶只需提交一次搜索請求，由元搜索引擎負責轉換處理后提交給多個預先選定的獨立搜索引擎，并將從各獨立搜索引擎返回的所有查詢結果，集中起來處理后再返回給用戶。但Google開始獨家壟斷全球互聯網搜索后，元搜索引擎逐漸被人遺忘。

Google早期的時候使用MapReduce實現分布式索引。后來之所以放棄這種方式，是因為它并不能為Google提供它所想要的索引速度。工程師需要等待8個小時的計算時間才能夠得到計算的全部結果，然后把它發布到索引系統中。隨著實時檢索時代的到來，Google需要在幾秒內刷新索引內容，而非8小時。

Hadoop來源于開源的分布式搜索項目Nutch。Powerset公司在Hadoop的基礎上開發了基于BigTable架構的數據庫Hbase(http://hbase.apache.org/)。2008年，微軟收購了Powerset。

與文本挖掘技術對應的是包括語音識別、基于內容的圖像檢索等技術的流媒體挖掘技術。隨著網絡電視和視頻網站的流行，流媒體挖掘技術正越來越引起人們的關注。

除了像Google的網頁搜索這樣的常規搜索引擎外，還有些特殊的搜索引擎。搜索的輸入不一定是簡單的關鍵詞，例如，Wolfram|Alpha(http://www.wolframalpha.com/)是一個特殊的可計算的知識引擎。它可以根據用戶的問句式的輸入精確地返回一個答案。開放式信息提取搜索(http://openie.allenai.org/)是另外一個問答式的搜索。除了大的搜索引擎，還有些小的垂直搜索引擎，例如，專利搜索引擎http://www.soopat.com/。

Prim算法于1930年由捷克數學家沃伊捷赫·亞爾尼克(Vojtěch Jarník)發現，并在1957年由美國計算機科學家羅伯特·普里姆(Robert C. Prim)獨立發現。1959年，艾茲格·迪科斯徹再次發現了該算法。因此，在某些場合，Prim算法又被稱為DJP算法、亞爾尼克算法或普里姆－亞爾尼克算法。除了Prim算法，還可以用Kruskal算法求解最小生成樹。

單元測試可以采用JUnit結合Hamcrest測試框架，或者TestNG結合Hamcrest。

官术网_书友最值得收藏!

自己動手寫分布式搜索引擎

1.7 本章小結