- 信息內容安全管理及應用
- 李建華主編
- 1415字
- 2021-10-27 15:46:34
2.2.3 智能化網絡內容分析理解管控引擎的應用范例
本小節選取基于構建網絡上有害信息發現與預警系統為例,重點講解信息內容安全管理應用模型的應用范例。網上有害信息發現與預警系統可進一步細分為大數據采集存儲層、融合分析層以及表達應用層三個層次,具體包括:多通道泛在網絡多模態發布內容感知采集,多模態大數據內容結構化存儲,網上離散文本、圖像及視頻的信息特征抽取與表達,多媒體信息特征智能快速比對,以及網上有害信息自動告警等方面的核心關鍵技術。具體如圖2-3所示。

圖2-3 網上有害信息發現與預警系統
1.多通道泛在網絡多模態發布內容感知采集
多通道泛在網絡多模態發布內容感知采集,全面涵蓋傳統網絡媒體、網絡新媒體和移動互聯網媒體,是重點突破網絡客戶端尤其是智能移動終端APP內流轉信息的統一采集技術,為網絡空間內容資源的深度利用提供了全面的數據基礎。
2.多模態大數據內容結構化存儲
與通用搜索引擎的大規模并行訪問、快速頁面定位訪問的目的不同,網絡空間內容資源的深度利用更關注對全媒體特定主題事件大數據進行分布式結構存儲和索引。因此,不僅需要存儲和管理海量的異構數據,還需要對大數據進行語義分析,存儲和管理不同類型數據之間的語義聯系,構建分布式結構存儲的網絡有害信息數據(倉)庫。
3.離散文本信息特征抽取與表達
離散語義的網絡文本信息非常類似于自然語言處理領域的對話(Dialog)識別及處理技術,不同的是,后者在同一篇文檔中,而前者分散在不同時間、不同地點。相關基礎研究工作的共性難題是遠程指代、主題矛盾等。同時,離散語義復原、網絡行為識別等,同樣未得到很好的解決。鑒于此,研究創新性的基于離散語義分析的離散文本信息特征分析識別技術,用于重點解決如何進行網絡離散文本狀態跟蹤及復原、適合網絡文本的自動分詞和句法分析、如何選擇和表達離散語義的特征、如何構建適合于網絡文本的專用知識庫等技術難點。
4.圖像信息特征抽取與表達
圖像信息特征抽取與表達旨在對圖像內容進行特征抽取,用低維度的圖像信息特征來描述和表達整個圖像的內容。準確性、全面性和鑒別力是對圖像信息特征抽取的三大要求,具體表現為:①準確性:圖像特征必須準確地描述圖像的內容,不會受到與內容無關圖像編輯操作的影響,例如,準確的圖像特征不會受到圖像尺度變換(平移、縮放、旋轉等)的影響,因為該類操作對圖像內容改變不大;②全面性:圖像特征必須完整地表達圖像內容,而不是圖像某一局部;③鑒別力:圖像特征必須對不同的圖像內容有較大的差異,能夠直接體現圖像內容的特點。
5.視頻信息特征抽取與表達
視頻信息特征抽取與表達旨在對視頻內容進行特征抽取,用低維度的視頻信息特征來描述和表達整個視頻的內容。相比圖像內容,視頻媒體加入了時間維度,其包含的信息量更為豐富,從而進一步提升了對其內容準確描述的難度。鑒于此,視頻信息特征抽取與表達具體包括:①基于內容的視頻鏡頭分割技術,能夠將整段視頻分割成若干個視頻鏡頭;②基于視頻鏡頭的特征抽取與表達技術,能夠針對每一個視頻鏡頭,抽取相應的視頻特征,反映視頻鏡頭的內容與特點。準確性、全面性和鑒別力,同樣是對視頻鏡頭特征抽取的三大要求。
6.多媒體信息特征智能快速比對與有害信息自動告警
在獲取特征之后,需要對特征進行快速、準確的比對,進而能夠判斷待檢測圖像、視頻是否為數據庫中暴恐、反動等類型的有害內容,同時對檢測為有害內容的信息進行多平臺及時告警。時間效率和智能比對準確性,屬于智能比對與自動告警環節的兩大明確要求。