官术网_书友最值得收藏!

  • 城市計算
  • 鄭宇
  • 3724字
  • 2025-06-05 13:49:40

1.4.4 城市服務挑戰

這一層架起了城市計算與現有城市相關領域(比如城市規劃、環境理論和交通等領域)之間的橋梁,并面臨以下挑戰:一是將領域知識與數據科學相融合,二是將城市計算系統集成到現有的領域系統中。

1.4.4.1 將領域知識與數據科學相融合

在為這些領域啟用城市計算應用時,我們需要一定程度的領域知識。例如,為了預測城市中的交通狀況,我們需要知道哪些因素會影響特定地點的交通流量。然而,領域專家和數據科學家通常是兩個幾乎不共享知識的獨立群體。前者擁有豐富的領域知識和經驗,但通常對數據科學知之甚少。后者配備了多樣化的數據科學技術,但缺乏領域知識。此外,領域知識可能過于復雜,無法明確指定,因此無法被智能算法精確建模。解決這個問題有兩種方法。

首先,數據科學家需要通過與領域專家溝通或學習領域內已發表的文獻來獲得一定程度的領域知識。與領域專家合作時,數據科學家需要確定哪些關鍵問題(在領域內)對于任務的完成至關重要,并且可以通過數據科學來解決。數據科學家應該了解可能導致問題的因素,并選擇相應的數據集來解決問題。他們需要理解領域內已提出的方法的原理,利用良好的洞察力彌補這些方法的不足。

其次,設計一些允許領域專家與數據科學家創建的智能技術交互的視覺數據分析工具是更好的選擇。這是一種將機器智能和人類智能結合的方式,也是將領域知識與現代科學整合的方法。例如,使用智能技術,數據科學家可以根據一些簡單的標準或初步設置生成一些初步結果。然后將這些結果呈現給領域專家,他們根據自己的領域知識對結果進行細化。細化可能包括從結果中刪除一些不可讀的候選數據,或者調整一些有意義的參數。有了經過細化的結果,智能技術繼續生成另一輪結果,并從領域專家那里獲得反饋,直到得到滿意的結果。通過這種交互,領域知識和人類智能被整合到由數據科學驅動的智能技術中。有了這樣的交互式視覺數據分析工具,領域專家更有可能為城市計算項目貢獻更多的知識。

1.4.4.2 系統集成

理想情況下,我們希望根據圖1.12所示的框架,為一個領域應用根本性地構建一個城市計算系統。然而,在現實中,許多領域應用可能已經擁有自己的系統,這些系統接收傳感器數據并為應用生成決策。領域專家可能希望在完全切換之前先測試新的城市計算系統,這種情況下存在兩個挑戰。

首先,幾乎不可能將城市計算系統的關鍵組件(如數據分析模型)部署到現有的領域系統中,因為這些組件可能需要根據最近的數據進行更新(即重建)。訓練過程并不完全自動化,需要數據科學家參與參數調整和可視化過程。例如,可能每幾個月重新訓練一次空氣質量預測模型,因為城市的交通和天氣條件在幾個月內可能會發生顯著變化。然而,對于大多數領域專家來說,重新訓練機器學習模型超出了他們的能力范圍。

簡單地為每個現有的領域系統分配一名數據科學家就有可能解決這個問題,但這又引起了另一個擔憂。鑒于數據科學家的數量遠遠少于需要數據科學的領域應用數量,處理更多的領域請求時將會非常費力。將關鍵組件緊密集成到現有的領域系統中增加了數據科學家的工作量。例如,除了第一個挑戰中提到的領域知識外,他們還需要了解特定領域系統是如何工作的。此外,他們還需要維護部署在不同領域系統中的多個類似組件。

第二個挑戰是,為了防止數據暴露給公眾,這些系統有時是基于私有云構建的。因此,城市計算系統可能無法完全訪問來自領域系統的數據。

為了應對這些挑戰,圖1.12提出了一個可能的松散集成策略。在這個策略中,現有的領域系統繼續接收原始數據。然后,如果存在數據安全問題,它將提供處理過的數據(例如,從原始數據中提取的特征)給城市計算系統。由于特征提取函數不是動態的,并且不涉及數據科學家,因此可以很容易地部署到現有的領域系統中。數據科學家在城市計算系統方面工作,在必要時訓練新模型(無須了解領域系統如何工作)。這些在城市計算系統中運行的模型以來自領域系統的數據為輸入,持續生成結果(例如,交通預測)。然后,城市計算系統通過云API將結果作為服務提供給領域系統。基于城市計算系統的結果,領域系統可以推導出最終的決策來操作領域應用。同樣的API集可以提供給許多其他需要給定城市的交通預測數據的領域系統。因此,一個模型可以服務于許多領域應用,一個數據科學家可以處理許多類似請求。

圖1.12 城市計算服務系統集成策略

1.4.4.3 培訓數據科學家

盡管數據科學家在許多城市計算項目中扮演著至關重要的角色,但數據科學家的數量非常有限,因為數據科學是一個新興領域。此外,培訓一名數據科學家是非常具有挑戰性的,比培訓一名數據分析師困難得多。表1.2展示了數據分析師和數據科學家之間的區別。

表1.2 數據分析師和數據科學家之間的比較

總的來說,給定數據集,數據分析師可以運用現有的數據分析工具來解決一個表述明確的(數據挖掘或機器學習)問題,并生成具有預定義架構的結果。例如,為了確定應該批準還是拒絕信用卡申請,數據分析師可以使用以前申請人的表格和還款歷史來訓練一個二分類模型(例如,決策樹),可以從申請人的表格中提取一組特征,如年齡、工作和收入。根據信用卡發放后申請人的還款歷史,可以得出相應的標簽(Y或N)。如果還款始終按時,則標簽設置為Y,否則為N。一旦模型被訓練好,它就可以根據新表格中的特征預測新申請的標簽。如果標簽為Y,則批準申請,否則拒絕。簡而言之,這是一個表述明確的二分類問題,有給定數據集(即申請人以前的表格和還款歷史)和預定義結果(即拒絕或批準)。

相比之下,數據科學家可能面臨的問題包括:環境中有百分之多少的PM2.5是由車輛產生的?如果把北京市政府搬到城市邊遠地區,對北京的交通和經濟會有什么影響?我們如何減少城市的噪聲污染?這類問題并不是表述明確的數據分析問題,因為它們不是簡單的聚類、分類、回歸或因果關系分析任務。此外,哪些數據集與問題相關是未知的。沒有現成的工具可以解決這些問題,而且結果的模式也不能輕易地預定義為一些標簽,如Y或N。數據科學家需要做的是確定與問題相關且在實際世界中可用的數據集,為問題設計定制的數據分析模型,并推導出最終結果。

在許多情況下,我們的客戶(例如,政府官員)甚至無法提出明確的問題。在這種情況下,數據科學家需要自行識別有價值的問題,這些問題對于領域來說是任務關鍵型的,并且比傳統解決方案更適合數據科學。這比解決一個給定的問題還要難。

更具體地,如圖1.13所示,數據科學家應該具備四個方面的技能。

圖1.13 數據科學家的定義

? 理解問題 數據科學家在城市計算中需要解決的問題通常來自其他領域,如交通、能源和環境領域,而不是計算機科學。數據科學家不一定需要成為領域專家,但科學家必須理解以下問題:問題是什么?為什么這個問題具有挑戰性?可能導致這個問題的因素是什么?傳統解決方案是如何解決這個問題的?為什么這些方法不能徹底解決這個問題。這些問題的答案來源于常識、領域內已發表的相關文獻以及簡單的數據可視化。

例如,為了推斷一個地點的空氣質量,數據科學家需要知道可能導致空氣污染的因素,如工廠和車輛排放、氣象條件以及擴散條件。僅知道這些因素,數據科學家就可以選擇合適的數據集來表示或指示相應的因素。通過學習現有文獻,我們知道空氣污染是多個復雜過程的結果,包括局部排放、外部傳播和化學反應。一方面,我們知道傳統的物理擴散模型無法解決這個問題,因為它們只考慮前兩個過程。此外,準確模擬前兩個過程也是困難的,因為在現實世界中捕捉所有污染源是不切實際的。另一方面,數據科學家可以從現有方法中學習到需要提取的特征以及設計數據分析模型遵循的原理。

? 深入理解數據 數據科學家除了需要了解數據的格式和屬性外,還需要洞察數據背后的信息。例如,出租車的GPS軌跡不僅表示道路上的交通狀況,還暗示了人們的通勤模式,因為每條出租車軌跡都包含了乘客的上下車點。大量的上下車點對代表了人們的出發地和目的地以及出發和到達時間,這些提供了關于通勤模式的關鍵信息。此外,人們的通勤模式還指示了一個區域的功能和經濟發展以及自然環境。有了這樣的洞察,我們就可以利用一個領域的數據集來解決另一個領域的問題,實現跨領域的數據融合,并應對數據稀疏性的挑戰。例如,我們可以結合出租車軌跡(表示交通狀況和通勤模式)與其他數據集(如POI和道路網絡)來推斷一個區域的功能。我們甚至可以使用出租車軌跡作為其中一個輸入來評估房地產的潛在價值并對其進行排名。

? 精通不同類型的數據分析模型 數據科學家需要掌握數據科學中的各種模型和算法,包括數據管理、數據挖掘、機器學習和可視化。為了用端到端的解決方案解決實際問題,數據科學家需要系統地整合數據科學不同分支的算法。在某些情況下,解決方案中某一步驟的算法設計取決于其前一步驟和后一步驟的算法。例如,在設計數據管理算法時,我們需要考慮云計算平臺的特點以及上層機器學習算法的性質。

? 使用云計算平臺 在大數據時代,數據無法再存儲在單臺機器上。云計算平臺正成為許多大數據研究(包括城市計算在內)的常見基礎設施。知道如何使用這樣的平臺對于數據科學家部署他們的解決方案至關重要。云計算平臺獨特的設計影響了算法的設計。此外,了解如何通過添加新組件或中間層來改進云計算平臺會更好。一個增強的云計算平臺可以更有效地支持城市計算系統(詳情請參見第6章)。

主站蜘蛛池模板: 贵州省| 虎林市| 华池县| 凉城县| 凌源市| 黄陵县| 十堰市| 本溪市| 香格里拉县| 沁源县| 中宁县| 濮阳市| 通州市| 定边县| 卢湾区| 白城市| 玉溪市| 益阳市| 永康市| 拉孜县| 天祝| 石门县| 五家渠市| 孝义市| 古蔺县| 江陵县| 济源市| 邯郸市| 舞阳县| 安丘市| 磴口县| 郑州市| 和静县| 平湖市| 永胜县| 遵义县| 定西市| 拉萨市| 饶阳县| 鸡西市| 曲沃县|