官术网_书友最值得收藏!

第1章 什么是網絡爬蟲

隨著大數據時代的來臨,網絡爬蟲在互聯網中的地位將越來越重要。互聯網中的數據是海量的,如何自動高效地獲取互聯網中我們感興趣的信息并為我們所用是一個重要的問題,而爬蟲技術就是為了解決這些問題而生的。我們感興趣的信息分為不同的類型:如果只是做搜索引擎,那么感興趣的信息就是互聯網中盡可能多的高質量網頁;如果要獲取某一垂直領域的數據或者有明確的檢索需求,那么感興趣的信息就是根據我們的檢索和需求所定位的這些信息,此時,需要過濾掉一些無用信息。前者我們稱為通用網絡爬蟲,后者我們稱為聚焦網絡爬蟲。

主站蜘蛛池模板: 宜城市| 乐业县| 南安市| 全州县| 涪陵区| 漯河市| 通河县| 哈巴河县| 苗栗县| 祁阳县| 高雄县| 淮滨县| 阿荣旗| 十堰市| 张家口市| 巨鹿县| 新津县| 泰兴市| 泾阳县| 闻喜县| 福鼎市| 元谋县| 郎溪县| 和平县| 申扎县| 镇坪县| 都匀市| 乃东县| 明溪县| 绥宁县| 德格县| 中西区| 万全县| 武川县| 响水县| 齐齐哈尔市| 容城县| 西宁市| 德昌县| 枣阳市| 龙泉市|