2.2 搜索引擎概念
2.2.1 通用搜索引擎
目前,在互聯網上使用的搜索引擎有很多,如谷歌、百度等,這些搜索引擎主要關注的是廣大用戶的信息搜索需求,這類搜索引擎也稱為通用搜索引擎。通用搜索引擎將自動搜索互聯網中各種信息,經過整理、組織、加工和處理后,通過建立索引數據庫來管理和存儲這些信息,并提供基于索引的信息檢索服務。當用戶發出搜索請求時,搜索引擎根據用戶提交的查詢條件,從索引數據庫中快速檢索出用戶所需的網頁信息,并返回給用戶。
1.通用搜索引擎分類
按照信息搜索方式和服務提供方式的不同,搜索引擎可以分為如下三大類。
(1)目錄搜索引擎:以人工方式或半自動方式搜集信息,由編輯人員查看信息后,人工生成信息摘要,并將信息放置在事先確定的分類框架中。信息通常面向網站提供目錄瀏覽服務和直接檢索服務。這類搜索引擎因加入了人的智能,所以信息定位準確、導航質量高,缺點是需要人工介入、維護量大、信息量較少、信息更新不及時等。這類搜索引擎的代表有雅虎、LookSmart等。
(2)機器人搜索引擎:由一個稱為網絡蜘蛛或網絡爬蟲的機器人程序以某種搜索策略自動地在互聯網中搜索信息,并為搜索到的信息建立索引數據庫,為用戶提供信息檢索服務。這類搜索引擎的優點是信息量大、更新及時、無須人工干預。缺點是返回信息過多,有很多無關的信息,用戶必須從結果中進行篩選。這類搜索引擎的代表有谷歌、百度等。
(3)元搜索引擎:元搜索引擎是將用戶的查詢請求同時遞交給多個搜索引擎,將返回的結果進行重復信息排除、重新排序等處理后,作為最終的結果返回給用戶。這類搜索引擎的優點是返回結果的信息量更大、更全。缺點是不能充分利用所使用搜索引擎的功能,用戶需要做更多的篩選。這類搜索引擎的代表有Web Crawler、Info Market等。
除了上述的主流搜索引擎外,還有一些門戶網站也提供信息搜索及其查找服務。
2.通用搜索引擎結構
通用搜索引擎通常由網絡蜘蛛(Spider)、索引器、檢索器和用戶接口等4個部分組成,其系統結構如圖2-1所示。

圖2-1 通用搜索引擎系統結構
(1)網絡蜘蛛(亦稱網絡爬蟲)在互聯網中不斷地搜索(也稱爬行),發現和采集新的網頁信息,然后將網頁信息存入頁面庫,由索引器建立索引。
(2)索引器將分析網絡蜘蛛所采集的信息,從中抽取出索引項,建立用于檢索頁面的索引表,存入索引庫中。
(3)檢索器將根據用戶的查詢請求和條件,從索引庫中快速檢索出網頁信息,并通過網頁相似度評價,對輸出的結果進行排序。
(4)用戶接口為用戶提供一個輸入查詢請求和顯示查詢結果的用戶界面。
3.通用搜索引擎不足
盡管通用搜索引擎已經成為搜索互聯網信息的常用網絡工具,但是它也存在一定的局限性:
(1)不同領域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結果往往包含用戶并不關注的大量網頁。
(2)通用搜索引擎的目標是盡可能高的網絡覆蓋率,有限的搜索引擎服務器資源與無限的網絡數據資源之間存在一定的矛盾。
(3)通用搜索引擎主要提供基于關鍵字的信息檢索,一般不支持基于語義的信息查詢。
2.2.2 主題搜索引擎
主題搜索引擎是一種針對特定主題的搜索引擎,可以為某一特定領域、某一特定人群或某一特定需求提供信息檢索服務,其特點就是“專、精、深”,與通用搜索引擎相比,主題搜索引擎顯得更加專注、具體和深入。
1.主題搜索引擎特點
主題搜索引擎專注于特定主題或領域的信息搜索,對于非特定主題或領域的信息被視為無效信息。這就要求網絡蜘蛛在互聯網上搜集信息時,必須采用基于主題的搜索策略。網絡蜘蛛按照預先設定的主題來搜集相關信息,減少了所采集的信息量,提高了索引庫中的信息質量。
主題搜索引擎具有以下特點:
(1)領域范圍小。由于專注于特定主題或領域,信息量相對較小,便于建立起一個專業信息收錄全、能夠實時更新的索引庫,提高了信息的質量。
(2)詞匯量小。只涉及某一個或幾個主題或領域,能夠降低詞匯和用語的一詞多義現象,而且利用主題詞表進行規范和控制,提高了信息查全率。
(3)準確率高。可以通過專家指導等方式,提高查詢語句的明確性和精確度,使查詢結果的準確率大為提高。
(4)便于帶寬的使用。信息采集量小,減少了網絡傳輸量,有利于網絡寬帶的有效利用。
(5)查詢響應時間短。由于索引數據庫的規模小,有利于縮短查詢響應時間,還可以采用復雜的查詢語法,提高用戶查詢的準確度。
2.主題搜索引擎結構
主題搜索引擎是在通用搜索引擎結構上改進而成的,其改進主要表現為如下幾個方面。
(1)主題網絡蜘蛛。采用面向主題的網絡蜘蛛,能夠按照預先設定的主題有選擇性地搜集相關的網頁,排除不相關的網頁。由于信息搜集范圍要小得多,提高了信息搜集質量,并且便于信息實時更新。
(2)索引器。對搜集到的信息進行準確的分類標引是搜索引擎中最重要的一個環節。在通用搜索引擎中,對信息的分類標引主要有自動和人工兩種。自動分類標引速度快,但精確度不高;人工分類標引精確度高,但速度太慢。而主題搜索引擎所涉及的領域和信息量都比較小,完全可以將兩種分類標引方法有機地結合起來,在自動分類標引過程中加入人工智能,利用專家知識對信息進行分類標引,提高了信息質量。
(3)檢索器及用戶接口。對檢索器和用戶接口改進主要體現在4個方面:一是提供了充分表達用戶查詢要求的檢索功能。二是提供了相似度反饋機制,不僅可以通過計算檢索詞在每個結果中的出現次數和出現位置來計算相似度,而且可以根據用戶的要求決定相似度,通過多次交互逐步求精。三是能夠集中處理檢索,可通過站點共聚或內容共聚,減少信息總量,將檢索結果集中處理成相同的格式反饋給用戶。四是能夠應用自動獲得的領域模型和用戶模型進行智能化信息搜集、索引和過濾,并自動地將用戶感興趣的有用信息提交給用戶。
主題搜索引擎系統結構如圖2-2所示,主要由面向主題的網絡蜘蛛、索引數據庫、關鍵詞數據庫、用戶接口、關鍵詞相似度計算、文檔相似度計算、文檔聚類器、檢索器等部分組成。

圖2-2 主題搜索引擎系統結構
主題搜索引擎工作過程如下:
(1)系統首先將人工收集到的常用關鍵詞輸入到關鍵詞數據庫中,然后啟動面向主題的網絡蜘蛛模塊,根據關鍵詞數據庫中的關鍵詞爬行Web頁面,取回搜集到的文檔。
(2)通過文檔相似度計算模塊計算其文檔相似度,去除與主題無關的信息。然后通過文檔聚類器模塊將與主題相關的信息聚類成簇,并根據關鍵詞建立索引,分類存入到索引數據庫中。
(3)用戶通過用戶接口或用戶界面輸入相應的關鍵詞,系統啟動關鍵詞相似度計算模塊,查詢關鍵詞數據庫中是否存在相匹配的信息,如果存在則直接從索引數據庫中提取相關的信息建立索引。系統通過檢索器模塊,從索引數據庫中快速檢索出相關文檔信息,并對文檔信息與查詢信息之間的相似度進行評價,以此來排序將要輸出的結果,實現某種用戶相關性反饋機制。