官术网_书友最值得收藏!

2.2 搜索數據

在網絡上搜索數據時需要使用瀏覽器、搜索引擎和搜索指令。例如,在Internet Explorer瀏覽器中打開百度搜索引擎,輸入搜索指令“主題教育 filetype:pdf”,目的是獲取與“主題教育”相關PDF格式的文件。

2.2.1 搜索引擎

使用搜索引擎(Search Engine)獲取數據是數據獲取的最基本、最常用的方法。搜索引擎泛指在網絡上以一定的策略搜集數據,對數據進行組織和處理,并為用戶提供數據檢索服務的工具或系統。搜索引擎被業界公認為繼廣告、網絡游戲、無線增值之后互聯網的“第四桶金”,因此很多公司開展了搜索引擎業務。搜索引擎的排名經常變化(很多公司公布的數據間隔是一周),常見的搜索引擎如下,本節涉及的搜索引擎與前后順序無關。

百度搜索[3]是全球最大的中文搜索引擎,2000年1月創立于北京中關村。

谷歌搜索[4]是互聯網公司谷歌的主要產品,也是世界上最大的搜索引擎之一,擁有網站、圖像、新聞組和目錄服務四個功能模塊,于1999年下半年推出。

搜狗[5]是搜狐公司的旗下子公司,于2004年8月推出。

360[6](曾用名“好搜”)是奇虎360公司推出的獨立搜索品牌,上線時間是2012年8月。

有道搜索[7]是網易旗下搜索引擎,不僅提供網頁、圖片、熱聞、視頻、音樂、博客等傳統數據搜索服務,還推出了詞典搜索等,于2007年12月推出。

必應搜索[8]是微軟公司于2009年5月推出的全新搜索品牌,為用戶提供網頁、圖片、視頻、詞典、翻譯、資訊、地圖等搜索服務。

中國搜索[9]由盤古搜索和即刻搜索合并而來,于2013年10月開始籌建,2014年3月上線測試。中國搜索由中央七大新聞媒體——人民日報、新華社、中央電視臺、光明日報、經濟日報、中國日報和中新社聯手創辦。中國搜索擁有的政府資源是其他搜索引擎無法比擬的。

搜庫[10]是優酷旗下的專業視頻搜索引擎,于2010年4月上線推出,提供優酷站內視頻和全網視頻的專業搜索。

愛奇藝搜索[11]是國內最大的視頻搜索引擎之一,涵蓋全網海量視頻資源的搜索。

淘寶搜索[12]是阿里巴巴旗下的搜索引擎,主要針對旗下的淘寶網進行站內搜索,為用戶提供C2C的購物搜索結果。

搜索引擎的工作過程分為如下三個步驟。

首先是抓取網頁。每個獨立的搜索引擎都有自己的網頁抓取程序爬蟲(spider)。爬蟲順著網頁中的超鏈接,從一個網站爬到另一個網站,通過超鏈接分析,連續訪問、抓取更多網頁。被抓取的網頁被稱為網頁快照。由于互聯網中超鏈接的應用很普遍,理論上,從一定范圍的網頁出發就能搜集到絕大多數的網頁。

其次是處理網頁。搜索引擎抓到網頁后要做大量的預處理工作,才能提供檢索服務。其中最重要的是提取關鍵詞,建立索引庫和索引,以及去除重復網頁、分詞(中文)、判斷網頁類型、分析超鏈接、計算網頁的重要度和豐富度等。

最后是提供檢索服務。用戶輸入關鍵詞進行檢索,搜索引擎從索引數據庫中找到匹配此關鍵詞的網頁。為了用戶便于判斷,除了網頁標題和URL,還會提供一段來自網頁的摘要和其他數據。

搜索引擎的種類雖然多種多樣,但根據搜索方式的不同,主要分為全文搜索、目錄索引和元搜索三種。全文搜索是在互聯網上爬取各網站的數據來建立自己的數據庫,并向用戶提供查詢服務,如谷歌搜索、百度搜索等。目錄索引是按目錄分類的網站鏈接列表。元搜索引擎是在接收用戶查詢請求時,同時在其他多個引擎上進行搜索,并將全部結果返回給用戶。

2.2.2 瀏覽器

瀏覽器一種軟件,功能是以用戶可理解的方式顯示Web頁面,并方便用戶與Web頁面的交互。蒂姆·伯納斯·李于1990年發明了第一個網頁瀏覽器World Wide Web,后改名為Nexus。隨著網絡的普及,出現了功能各異的瀏覽器,常見的瀏覽器包括Internet Explorer、Opera、Firefox、蘋果Safari、谷歌chrome、360瀏覽器、QQ瀏覽器和百度瀏覽器等。

Acid3[13]是由網頁標準計劃小組(Web Standards Project,WaSP)設計的測試網頁,于2008年3月3日正式發布,是目前Web標準基準測試中最嚴格的。其測試焦點集中在ECMAScript、DOM Level3、Media Queries和data:URL。瀏覽器開啟此測試網頁后,頁面會不斷加載功能、直接給予分數,滿分為100分。還有一些瀏覽器專項測試網站,包括是否支持HTML5的測試[14]、CSS3測試[15]、速度測試[16]和JavaScript基準測試[17]等。

2.2.3 搜索指令

搜索指令的使用可以快速、精準地搜索到數據。瀏覽器不同對搜索指令的支持也不同,基本的搜索指令包含以下內容。本節以百度搜索引擎為例講解常用的搜索指令。

1.intitle和allintitle

intitle指令將搜索范圍限制在網頁的標題。allintitle指令搜索的所有關鍵字都必須在網頁的標題中。例如,搜索“intitle:改革開放40周年”,約有486000個結果,見圖2.1,“allintitle:改革開放40周年”共搜索到約724個結果,見圖2.2。

圖2.1 使用intitle搜索指令

圖2.2 使用allintitle搜索指令

2.inurl和allinurl

inurl指令將搜索結果限制在特定URL或者網站頁面上。allinurl指令搜索的所有關鍵字都限制在URL或網站頁面上。例如,僅在政府網站中搜索“改革開放40周年”,即“inurl:gov.cn 改革開放40周年”,則約有104000個結果,見圖2.3;僅在URL“news.ifeng.com/world”中搜索“改革開放40周年”,即“allinurl:news.ifeng.com/world 改革開放40周年”,則約有95個結果,見圖2.4。

圖2.3 使用inurl搜索指令

圖2.4 使用allinurl搜索指令

3.site

site指令將搜索限制在站點或者頂層域名上。例如,僅在特定網站“www.ifeng.com”搜索“改革開放40周年”,則搜索指令是“改革開放40周年 site:www.ifeng.com”,見圖2.5。注意,在“site”指令后的站點或頂層域名前不能加“http://”,如搜索指令“改革開放40周年 site:http://www.ifeng.com”無法正確執行,見圖2.6。

4.filetype

filetype指令將搜索限制為某類特定后綴或者文件名的擴展名。例如,僅搜索“ppt”擴展名的文檔,則搜索指令是“改革開放40周年 filetype:ppt”,見圖2.7,搜索結果均為擴展名.ppt的PowerPoint文件。

圖2.5 site搜索指令正確用法

圖2.6 site搜索指令錯誤用法

圖2.7 使用filetype指令

5.完整匹配" "

完整匹配搜索是搜索結果包含雙引號中出現的所有詞,順序也必須匹配。例如,搜索“改革開放40周年”時加雙引號,結果見圖2.8,對比不使用完整匹配搜索結果,見圖2.9。使用完整匹配的搜索結果更精準。大數據時代的當下,用戶往往沒有足夠的時間查看數以萬條甚至更多的搜索結果,用戶更喜歡精準搜索的結果。

圖2.8 不使用完整匹配搜索指令

圖2.9 使用完整匹配搜索指令

百度搜索工具以圖形化界面完成搜索指令。“時間不限”可以設置搜索時間條件,圖2.10設置的時間是從“2018-10-24至2018-12-24”。“所有網頁和文件”可以設置搜索到的文檔類型,如“PDF”文件格式。“站點內搜索”可以限制在某個站點或者頂層域名內搜索,如“wenku.baidu.com”。

圖2.10 使用百度搜索工具

完整的指令可以參考谷歌幫助[18],也可以使用百度高級搜索[19],見圖2.11。百度高級搜索頁面可以限定包括或不包括的關鍵字、限定搜索結果顯示的條數、限定搜索時間、限定搜索的網頁語言、限定文檔格式、限定關鍵詞位置和限定搜索位置等。實際上,百度高級搜索集成了常見的搜索指令,用戶不需記住復雜的搜索指令就可在圖形化搜索界面完成復雜的搜索任務。

圖2.11 百度高級搜索

網頁快照(Snapshot)的使用可以提高搜索效率,因為網頁快照存儲在搜索引擎服務器中,所以查看網頁快照比直接訪問Web頁面要快。在網頁快照中,搜索的關鍵詞高亮顯示,方便用戶單擊關鍵詞直接找到關鍵詞出現位置,見圖2.12和圖2.13。而且,當搜索的Web頁面被刪除或鏈接失效時,可以使用網頁快照查看這個頁面的原始內容。

圖2.12 在百度中搜索“數據挖掘”

圖2.13 網絡快照中關鍵詞“數據挖掘”高亮顯示

主站蜘蛛池模板: 丽江市| 新竹县| 大姚县| 乐山市| 昌吉市| 钟祥市| 藁城市| 宁远县| 新兴县| 南川市| 富阳市| 威海市| 德保县| 垣曲县| 尤溪县| 盘山县| 志丹县| 蒙自县| 体育| 台山市| 新丰县| 三亚市| 隆安县| 高阳县| 梁平县| 安陆市| 双城市| 广西| 宜黄县| 库车县| 平江县| 互助| 湘潭县| 灵丘县| 枣强县| 滨州市| 平塘县| 怀仁县| 金寨县| 大渡口区| 伊川县|