- 信息內容安全管理及應用
- 李建華主編
- 353字
- 2021-10-27 15:46:37
3.2 網絡媒體信息的獲取原理
與面向特定點的網絡通信信息獲取不同,網絡媒體信息獲取環節的工作范圍理論上可以是整個互聯網。傳統的網絡媒體信息獲取環節從預先設定的、包含一定數量URL的初始網絡地址集合出發,首先獲取初始集合中每個網絡地址對應的發布內容。網絡媒體信息獲取環節一方面將初始網絡地址發布信息的主體內容按照系列內容判重機制,有選擇地存入互聯網信息庫。另一方面,網絡媒體信息獲取環節還進一步提取已獲取信息內嵌的超鏈接網絡地址,并將所有超鏈接網絡地址置入待獲取地址隊列,以“先入先出”方式逐一提取隊列中的每個網絡地址發布信息。網絡媒體信息獲取環節循環開展待獲取隊列中的網絡地址發布信息獲取、已獲取信息主體內容提取、判重與信息存儲,以及已獲取信息內嵌網絡地址提取并存入待獲取地址隊列操作,直至遍歷所需的互聯網網絡范圍。