pg赏金女王试玩网站在哪

書名：大數據可視分析方法與應用
作者名：陳為巫英才鮑虎軍等
本章字數： 6171字
更新時間： 2020-05-07 14:46:10

1.4　實例2——基于知識圖譜的交互關系瀏覽與分析

復雜數據的關系表達本質上是多目標對象的關系表達。語義上，復雜數據構建了一個多目標對象的異構網絡。本案例采用知識圖譜作為基礎數據模型，提出一套關系分析中所需要的數據模型，如圖1-13所示。我們將復雜數據構建的多對象異構網絡映射到知識圖譜表現的多實體異構網絡，在此基礎上，同時考慮空間信息在分析工作中的重要性，以及空間信息作為復合數據在可視化中的特殊性，設計建模方案。數據模型具體包括：對象、對象的屬性、對象之間的關聯、對象的空間結構。與知識圖譜的實體、實體的屬性、實體之間的關系的模型相比，該模型更能表達和利用空間地理信息。

圖1-13　面向關系分析的數據模型

1.4.1　對象的可視化

根據Tamara Munzner的What-Why-How可視化分析框架（圖1-14），我們可以對領域數據進行如表1-1所示的數據抽象（What）。

圖1-14　可視化分析框架

　　表1-1　領域數據到抽象數據類型的映射

通過任務操作和任務目標的合理組合，我們得到如表1-2所示的異構矩陣視圖用以表達本文中的任務抽象（Why）。

表1-2　異構矩陣視圖

表1-2中矩陣視圖的設計目的在于結合給定數據模型，將任務拆解為一系列元任務，降低系統可視化和交互設計的復雜度。通過組合元任務的設計編碼或交互方式，達到解決復雜任務的目的。這些元任務根據語義層次不同，分為高層、中層、底層語義任務。越是底層的任務，越基礎，也易于設計；越是高層的任務，越接近人的知識理解。高層語義任務依賴于中層語義任務，中層語義任務依賴于底層語義任務，因此底層語義任務還可以實現高層語義任務的具化，后續章節將通過案例來解釋這樣的具化。

這種系統性的設計方法可以高度地抽象數據、任務，可以讓設計者避免受到領域信息的干擾，更準確地認知系統，設計更加完善的設計編碼和交互方式；同時設計者可以對比和借鑒具有相似抽象數據、任務的其他領域系統，以此優化設計編碼和交互方式。

良好的設計編碼和交互方式有以下功能。

①提高用戶工作效率：直觀、易理解、易記憶的可視界面操作比命令行更加方便、有效。

②增加展示信息量：通過空間的復用，在有限的分辨率下向用戶展示更多的信息。

③降低用戶認知成本：通過控制可視界面的細節程度，隱藏或突出部分數據，降低用戶對信息的認知成本。

下面主要介紹系統的節點鏈接視圖、空間地理視圖、時間軸視圖、對象屬性視圖和統計視圖（橫向柱狀圖）。具體介紹表1-2中元任務的實現，以及相關可視設計編碼和交互方式。所用數據來自Wikidata、Facebook、Twitter、LinkedIn以及本地文本文檔。

1.4.2　可視化

表1-1中的高維數據抽象了領域數據模型中的對象，在知識圖譜中則表現為實體。一個實體擁有唯一的URI作為標識符，同時擁有自身的屬性、空間結構以及與其他實體之間的關聯關系，且擁有確定的類型。在語義層面上看，實體表達了一個事物，較為具象，貼近人的理解，系統中對實體的操作，也是符合人的認知中對相應事物的操作。下面介紹結合不同語義任務中對數據的可視化設計。

1.4.2.1　數據的可視化

（1）底層語義任務

①識別單對象：用照片、形狀（圖形）、顏色編碼對象或對象的類型，易于識別（如圖1-15所示）。

圖1-15　層次布局的搜索結果

②比較多對象：并列對象屬性視圖，進行比較（如圖1-16所示）。

圖1-16　比較多對象

③摘要對象集：關聯其他視圖+過濾，如圖1-17所示，通過關聯統計視圖中的類別統計中執行過濾，從黃色高亮的對象集中摘要部分對象，并用橙色高亮表示。

圖1-17　摘要對象集

（2）中層語義任務

查取、查閱對象：獲取已知位置的已知或未知對象，可通過選擇對象實現。例如圖1-18中選擇A節點的操作。

定位對象：獲取未知位置的已知對象，導航+識別對象，例如通過縮放、平移等定位手段選擇圖1-18代表目標對象的B節點。

瀏覽對象：獲取未知位置的未知對象，導航+選擇，例如探索圖1-18顯示范圍外的未知節點。

圖1-18　查閱、定位對象——力引導布局

（3）高層語義任務

標記對象：選擇。

推導多對象的相關性：標記對象+比較多對象，在圖1-16中選中對象，比較對象，其中對象信息窗口的高亮跟隨鼠標，由圖中信息可以推導出兩個對象是不同的人。

展示多對象分布：定位多對象+編碼。

發現多對象分布：展示多對象分布+重配（如改變布局算法），如圖1-15的層次布局，圖1-18的力引導布局，使用圖1-19的網格布局和圓環布局可以較為輕松地發現分布中關系集中的對象。

圖1-19　搜索結果的網格布局（左）和圓環布局（右）

1.4.2.2　屬性的可視化

表1-1中的屬性抽象了領域數據模型中對象的屬性，在知識圖譜中表現為實體除空間結構以外的其他屬性。一個屬性是對其所屬實體自身信息的一個描述，屬性值根據類型的不同可能是類別型、有序型或數值型。時間屬性屬于數值型屬性，通過時間軸視圖進行可視化；非時間屬性通過統計視圖中的橫向柱狀圖進行可視化；另外數值型屬性可以通過熱力圖映射進行可視化。

（1）底層語義任務

識別單對象屬性的分布、模式、異常：用橫向柱狀圖可視化對象屬性，如圖1-20屬性統計視圖（左）和熱力圖（右），右側顯示了對選中節點的屬性的統計，將數值型屬性編碼到熱力圖的顏色。

圖1-20　屬性統計視圖（左）和熱力圖（右）

圖1-21為時間軸視圖。

圖1-21　時間軸視圖

復雜數據中，附帶時間信息的部分數據可以抽取事件。事件作為特殊的實體，帶有時間屬性，通過一維映射的方式，可視化在時間軸上。用戶通過改變時間軸的跨度、精度，可以觀察時間的分布情況、特定事件的先后關系以及事件序列隱藏的特征等。

（2）中層語義任務

定位、瀏覽對象屬性的分布——導航，在圖1-20的屬性統計視圖中查找或瀏覽獲取對象屬性的統計信息。

（3）高層語義任務

發現和展示對象屬性分布、極值：摘要對象+識別對象的分布、模式、異常，如圖1-22所示，在展示的對三個實體的統計信息中可以發現：

①三個實體都是人（type屬性）；

②三個實體都是男的（gender屬性）；

③兩位名為“Barack Obama”，一位名為“Barack Obama，Sr.”（name屬性）。

統計視圖如圖1-22所示。

圖1-22　統計視圖

柱狀圖可用于查看多個對象在一個或多個維度上的數據分布信息。統計視圖以柱狀圖的方式，統計多個對象的屬性分布情況。對象的屬性根據數據類型可分為：類別型屬性、有序型屬性和數值型屬性。其中有序型屬性和數值型屬性的統計默認根據其次序進行可視化，便于發現對象屬性的分布、極值。

1.4.2.3　關系的可視化

對象之間的關系抽象了領域數據模型中對象之間的關聯，在知識圖譜中表現為實體和實體之間的關聯關系。關系依賴于其對象存在，所以關系可視化流程部分依賴于對象可視化。大量的關系將不同的對象關聯起來，呈現出網絡的形式，讓用戶更直觀地發現關系網絡中隱含的價值，比如觀察信息在關系網絡中的流動規律，或者關系網絡中的核心節點等。

網絡結構可視化中，最核心的要素是布局呈現方式。我們針對節點鏈接圖的布局（圖1-23）做了一定的可視化設計，以增強可視化效果。

圖1-23　節點鏈接圖在復雜關系上的布局應用

不同的節點鏈接圖的布局，呈現出不同的網絡信息的隱喻，這里使用了四種不同的布局方法。

（1）力引導布局

如圖1-24（a）所示，力引導布局的核心思想是采用彈簧模型，使得布局在動態變化后，節點之間不存在相互的遮擋。布局不僅美觀，對空間也有較高的利用率。通過力引導布局，能夠反映實體之間的親疏關系和網絡結構中的拓撲屬性。

圖1-24　節點鏈接圖的布局方法

力引導布局可以清楚地識別出網絡結構中的核心人物（關鍵點），可以快速識別出社區團體以及他們之間的關系，對網絡的中心性有較好的反映。因此，力引導布局在社交網絡關系描述中使用頻繁。

（2）層次布局

如圖1-24（b）所示，層次布局可以描述網絡結構中其他節點與關心節點的遠近距離，或是隱含的從屬或包含關系。例如，可在社交關系圖中查看興趣人的一級關系人脈、二級關系人脈等；或在分析的老板-公司-職員關系圖中，發現其中老板擁有哪些公司，每個公司雇用了哪些職員。

網絡結構圖中，若關心其中拓撲結構或是隱含的樹形結構信息，層次布局具有不錯的展示效果。層次布局中，不同層次上的節點數據分布可能不均勻，空間利用情況難以估計。采用正交的層次布局，層次結構的體現較為自然、直觀，但節點數量少的層次的空間利用率較低，圖1-24（b）便是正交的層次布局；對于節點數量隨層次深度加深而明顯增加的數據，可以采用徑向的層次布局，能夠在不太損失層次結構的情況下，更好地利用空間。在實際應用過程中需要相互權衡，以提高布局的可讀性和美觀性。

（3）圓環布局

如圖1-24（c）所示，圓環布局更加關注節點兩兩之間的關系。所有節點平均分布在圓環上，易于觀察興趣節點與其他所有節點存在的關系，以及節點間一級關系的分布情況。

圓環布局較為突出的缺點為空間的利用程度較低。

（4）網格布局

如圖1-24（d）所示，網格布局是四個布局中空間利用率最高的布局算法，適合在未發現明顯特征的數據圖中查看圖的網絡結構、節點和邊的簡要信息。

網格布局的不足之處在于沒有明顯的隱喻信息。一般可以通過網格布局進行初步探索，發現興趣節點或網絡結構特征，進而選擇更合適的布局算法，進行后續分析。

當關系分析的規模不斷增大時，節點鏈接圖的問題和挑戰也漸漸突顯出來。一方面，由于屏幕像素的限制，在有限的空間中有效表達的信息十分有限。若按照上述布局方法，當對象規模達到千級、關系規模達到萬級時，必然出現大量的對象和關系的視覺遮擋現象。視覺遮擋不僅使得節點或邊無法有效表達所代表的含義，同時給交互帶來極大的難題。另一方面，由于瀏覽器的性能限制，當對象規模達到千級、關系規模達到萬級時，渲染實現可能需要用戶長時間等待，瀏覽器的渲染速度問題也突顯出來，長時間的等待必然影響用戶的交互體驗。屏幕像素限制的解決方法一般包括減少圖元使用的像素數、減少圖元數量、增加屏幕像素。渲染時間的解決方法一般包括降低圖元復雜度、減少圖元數量、提升設備性能。減少圖元使用的像素數、降低圖元復雜度的方法可以保留數據整體詳細分布，但是降低了圖元編碼信息的能力，理論上圖元的最少使用像素數為1，即最高有效表達圖元數量等于屏幕像素數；減少圖元數量的方法損失部分信息和部分分布，但可通過LOD（Layer of Detail）技術，在交互過程中重現暫時損失的信息，或將圖元替換并編碼損失信息的統計特征，實現數據的概覽。增加屏幕像素、提升設備性能的方法能夠最大可能地保留原始展示，缺點是成本增加，且可擴展性不高。

在不考慮設備提升的情況下，我們在大規模關系可視化場景中設計了節點鏈接圖的緊湊布局，可以對大規模關系進行更加有效的可視化。

（1）緊湊的力引導布局

力引導布局對于小規模數據，或者有著樹形層次結構的數據，可以得到較好的布局效果，如圖1-25（a）所示。但是對于大規模的數據，尤其是在數據點之間的連接比較雜亂的情況下，效果并不好。圖1-25（b）所示的圖包含3000個節點、18027條邊，節點的大小和節點之間的連接關系都是隨機生成的。

圖1-25　力引導布局案例

緊湊的力引導布局方案通過簡化節點的圖元復雜度，減少甚至去除邊的圖元，達到提高渲染效率和有效展示的目的。緊湊的力引導布局的布局原理和力引導布局一致，只不過取消了邊的限制，可以讓節點均勻散布在屏幕上，較充分地利用屏幕空間，如圖1-26所示。

圖1-26　緊湊的力引導布局

該布局缺失了節點之間的連接信息，可以通過交互過程去彌補。當鼠標懸停節點上方時，高亮該節點、該節點的一級關聯節點以及它們之間的邊，如圖1-27所示。

圖1-27　緊湊的力引導布局中的高亮交互

（2）緊湊的網格布局

緊湊的網格布局方案同樣通過簡化節點的圖元復雜度、減少甚至去除邊的圖元，達到提高渲染效率和有效展示的目的。緊湊的網格布局根據每個節點的權重分配固定大小的矩形區域，可以充分利用屏幕空間。但是數據量達到一定規模之后（如3000節點），即使在1920×1080的屏幕上，也會呈現出擁擠的狀態，如圖1-28所示，節點之間的關聯信息可以采用與圖1-27相似的處理方法，通過交互的方式來展示。

圖1-28　緊湊的網格布局

（3）緊湊的層次布局（圖1-29）

圖1-29　緊湊的層次布局

緊湊的網格布局方案同樣通過簡化節點的圖元復雜度，達到提高渲染效率和有效展示的目的。緊湊的層次布局表現為以關鍵對象為中心的多層環狀布局。距離中心關鍵對象的路徑越短，節點變得越少。從空間利用率和布局效果來說，大規模關系的場景下，徑向的層次布局優于正交的層次布局。若簡單地將到中心等距的節點排布于同一層圓環上，當外層圓環節點數量較多時，依然可能發生嚴重的遮擋問題，所以需要對基礎布局進行改進，減少外層節點的遮擋。如圖1-29所示，控制每個環中的節點密度，根據節點密度調整環的寬度。緊湊的圓環布局設計結果為一層無中心的緊湊徑向層次布局，故將其合并為緊湊的徑向層次布局。

①底層語義任務　不同布局下的關系網絡，所運用的編碼設計和交互方法基本相同，本節剩余部分用力引導布局進行說明。

a.識別單對象關系：識別關系所屬對象，而后識別對象的關系（圖1-30）。在識別到“Barack Obama”和“Sportscenter”后，確認識別到其中的“favoriteTVShow”關系。

圖1-30　識別對象關系

b.摘要對象關系集：關聯其他視圖+過濾（圖1-31），通過關聯統計視圖中的關系統計來執行過濾，高亮摘要的部分對象關系（“hasHomeCountry”關系）。

圖1-31　摘要對象關系集

②中層語義任務（圖1-32）

圖1-32　查取、查閱、定位關系

a.查取對象關系：獲取已知位置的已知關系，可通過選擇關系實現。如圖1-32所示，選擇圖中的A關系（“hasHomeCountry”關系）。

b.查閱對象關系：獲取已知位置的未知關系，可通過選擇關系實現。如圖1-32所示，選擇圖中的B關系。

c.定位對象關系：獲取未知位置的已知對象，導航+識別關系，例如通過縮放、平移等定位手段選擇圖1-32中代表“Barack Obama”和“Michelle Obama”之間的C關系（“spouse”關系）。

d.瀏覽對象關系：獲取未知位置的未知對象，導航+選擇，例如探索圖1-32顯示范圍外的未知關系。

③高層語義任務

a.標記對象關系：選擇。

b.推導對象關系：比較多對象，或觀察節點鏈接圖拓撲。圖1-32中存在“Barack Obama→spouse→Michelle Obama”和“Barack Obama→mother→Ann Dunham”，可以推導出“Michelle Obama→motherInLaw→Ann Dunham”，如圖1-33藍色連線所示。

圖1-33　推導對象關系

c.展示對象網絡拓撲：定位多對象+定位多對象關系。

d.發現對象網絡拓撲：展示對象網絡拓撲+重配（如改變布局算法），可發現不同布局下的網絡拓撲。

1.4.2.4　空間的可視化

（1）底層語義任務

①定位、標記對象空間位置（圖1-34）：用地圖坐標編碼地理信息。

圖1-34　定位、標記對象空間位置

②摘要對象空間分布：關聯其他窗口+過濾，如圖1-35所示為在空間地理視圖中摘要對象空間分布。

圖1-35　摘要對象空間分布

（2）中層語義任務

①查取、定位對象空間位置：定位、標記對象空間位置，如圖1-34所示。

②查閱、瀏覽對象空間位置：識別、比較對象空間位置，可參考查閱、瀏覽對象。

（3）高層語義任務

①標記對象空間位置：選擇，如圖1-36中紅框對象選擇的標記。

圖1-36　地圖的框選

②展示多對象空間分布：定位多對象空間位置。

③發現多對象空間分布：展示多對象空間分布+選擇。

空間地理視圖　地理信息數據是描述事物的必要因素，對其的可視化至關重要。對于異構數據的地理可視化，有助于觀察數據在地理分布上存在的規律、特征。

通過點數據地圖映射的方式，將代表實體的符號映射到相應的位置。數據密集的區域，繪制的符號集中；數據稀疏的地方，繪制的符號分散。

熱力圖　在數據過于密集的地方，可能出現符號重疊等，難以看清所表達的數值，或難以比較不同區域的多少，熱力圖可以有效地應付這樣的情況。通過將地圖分割為小單位，采用一定的重建或差值算法，將數據轉化為連續的數值，通過顏色編碼的方式呈現（越紅的地方，數值越高；越藍的地方，數值越低）。

熱力圖可以顯示多個實體同一數值維度在地理上的分布情況，默認情況下，熱力圖展示實體的分布密度。

官术网_书友最值得收藏!

大數據可視分析方法與應用

1.4 實例2——基于知識圖譜的交互關系瀏覽與分析

1.4.1 對象的可視化

1.4.2 可視化

1.4.2.1 數據的可視化

1.4.2.2 屬性的可視化

1.4.2.3 關系的可視化

1.4.2.4 空間的可視化

1.4　實例2——基于知識圖譜的交互關系瀏覽與分析

1.4.1　對象的可視化

1.4.2　可視化

1.4.2.1　數據的可視化

1.4.2.2　屬性的可視化

1.4.2.3　關系的可視化

1.4.2.4　空間的可視化