- 大數據時代下的公共藝術
- 李謙升 汪單
- 3490字
- 2025-07-22 16:14:27
開放數據
數據開放與共享的概念雖然早已有之,但開放數據運動正式名稱的提出卻是在2008年,在蒂姆·奧萊利的召集下,三十名開放公共數據的推動者齊聚奧萊利出版社加州總部,共同制定了開放數據的八條準則。同年,著名信息企業IBM在美國外交委員會的演講中提出了“智慧城市”的概念。這是歷史的巧合,但同時也是信息社會發展到某個階段的必然。“開放數據”與“智慧城市”這兩個信息時代的新興概念之間,有著千絲萬縷的內在聯系。雖然“開放數據”的名詞在1995年才第一次被提出,但在科學界,早在20世紀40年代就有學者提出要開放科學數據,讓不同國家、不同領域的研究人員可以共享相關科學數據,不要用知識產權或其他機制來限制科學知識的流動。科學社會學之父羅伯特·金·默頓在1942年的《論科學與民主》一文中提出了著名的構成“科學精神”的四大規則,即普遍性、公有性、無私利性和有條理的懷疑性,這一思想是科學共同體社會結構的基本準則。人類基因組計劃就是科學數據開放的典型案例。在科學界的開放數據原則和自由軟件運動的影響下,開放數據的概念被逐漸提了出來。“開放數據”的術語和比較準確的定義是最近幾年間開始發展起來的,特別是在互聯網興起以及例如Data.gov,Data.gov.uk等幾個重要的開放數據的平臺建立之后,“開放數據”的定義和內涵才開始逐漸清晰起來。“開放數據”是指可以被所有人自由使用、重新定義與發布的數據,它不受任何版權、專利或其他機制所限制。與開放數據運動類似的還有開放軟件運動、開放硬件運動、開放內容運動等,這些運動背后的本質是相同的,都是希望開放原本封閉的信息和知識,通過網絡分享與協作,使更多創新、有意義的想法得以實現。在“開放數據”的定義中,有幾個關鍵的特征需要指出:第一,必須可以獲取和訪問,特別是通過互聯網進行下載,并且提供一種可以閱讀和修改的格式,這就保證了數據的廣泛性。第二,數據可以重新利用和發布,也可以和其他數據集相混合使用,從而保證了數據的擴展性。第三,沒有相關的政策或條款的限制,例如某數據只允許非商業用途的使用,而不能用在商業用途上;或者某數據只可以用于教育用途等,類似這樣的數據都不屬于開放數據的范疇。開放數據的使用必須對任何個人或者團體都一視同仁,沒有區別,以此保證數據使用上的平等性。
開放數據運動的起源最早可以追溯到自由軟件運動。從1946年第一臺電子計算機在賓夕法尼亞大學研制投入使用之后的二三十年里,軟件一直作為硬件的附屬品的地位存在,沒有專門的軟件開發機構或者公司。甚至軟件(Software)這個詞匯本身也落后于硬件(Hardware)被人們所認識。早期的軟件都是由計算機制造商開發,免費贈送給客戶,包括軟件所有的源代碼,客戶在使用計算機的過程中也可以隨意地修改軟件功能,以達到更加符合自己需求的目的。這樣的協作方式也就成為開放運動最本質的來源和動力。但隨著時代的發展,硬件的利潤在不斷下降,而軟件的復雜程度在不斷增加,軟件的開發成本水漲船高,這最終導致了軟件作為獨立的商品開始與硬件分離。著名的標志事件莫過于1969年IBM公司宣布將不再和硬件一起提供免費的軟件和相關服務,而將軟件作為獨立的商品進行銷售。自此,對軟件及其相關服務進行收費就變成了一個普遍的行為,軟件行業的興起也由此開始。既然有收費,就必然要進行保護,這時候的軟件產品已經不會再公開自己的源代碼,而只是提供給用戶可執行的文件。1976年,比爾·蓋茨(Bill Gates)發表了一封著名的信件—《致愛好者的公開信》,他在信中強調:“有誰會在沒有任何報酬的情況下來做這些專業的工作?什么樣的愛好者可以為他的產品投入三十年的開發事件,并且發現所有的錯誤、編寫文檔以及免費發布這個產品?”這種拒絕公開源代碼的軟件,就成為“私有軟件”,從而開始了軟件商業化的浪潮。
就在“私有軟件”蓬勃發展的過程中,有人開始重新思考開放的意義。1983年,來自麻省理工學院(MIT)人工智能研究所的程序員理查德·斯托曼(Richard Stallman)提出GNU項目,旨在開發一個自由的類Unix操作系統。1985年,理查德·斯托曼又專門設立了自由軟件基金會(Free Software Foundation,FSF)來管理、推動GNU項目的發展。在這個過程中,著名的自由軟件許可證—GNU通用公共許可協議(GNU General Public License, GPL)被制定出來,該協議最主要的核心內容就是授予任何程序接受者運行、復制、改進、發行該程序的自由。該協議讓軟件的開發打破了“私有”的壁壘,反對專有和封閉,強調開放和交流,要求軟件開發人員開放源代碼,供其他相關人員學習、分享、交流之用,從而可以提高整個軟件行業的效率和創新能力。到2004年4月,遵守GPL協議的自由軟件已占Freshmeat(筆者注:開源軟件社區排行榜)上所列軟件的75%,SourceForge(筆者注:開放源代碼軟件開發平臺和倉庫)的68%。而自20世紀90年代初互聯網技術的興起,更進一步促進了自由軟件的發展。一方面人們可以通過網絡進行開發上的協作;另一方面,所有的自由軟件又在網絡上被全世界網民和技術人員進行測試和改進,使得軟件中的錯誤可以快速地被修復。所以從自由軟件運動開始以來,從開源操作系統Linux,開源編譯器GCC,開源編輯器Emacs等一系列優秀的開源軟件被開發出來,這些軟件被全世界的程序員共同維護,每個人也可以根據自己的需要進行修改和發布,這極大地推動了開源軟件功能的豐富和創新。直1998年,在美國硅谷的一次自由軟件精英的會議當中,“開源”這個詞正式被提出,作為自由軟件運動的代名詞。

開放數據和智慧城市發展的關鍵時間點
伴隨開源軟件運動的不斷壯大與發展,開源硬件運動(Open-source hardware)等其他開源運動也轟轟烈烈地發展起來。最終,開源運動的目光投向了數據領域。軟件是由代碼和數據組成,開源軟件運動主要針對的是軟件中代碼的開放,主要針對和影響的也是程序員等技術人員群體。而開放數據運動則涉及更加廣泛的個人與組織。2007年11月在美國舊金山的塞巴斯托波舉行的一次會議上,三十多名來自開源領域的思想家和實踐者齊聚一堂,共同制定開放數據的標準和原則。本次會議中,總共對開放數據的行為制定了八條基本原則,從而對公共數據如何開放做了明確的定義。在本次會議之后,2009年為了建立一個更加透明、公民參與度更高和協作的政府,簽署了三個備忘錄,其中有兩個涉及對政府數據的開放。2009年的5月美國聯邦政府數據開放網站正式上線,標志著政府開放數據的一個里程碑。
開放數據運動離不開智慧城市的建設。智慧城市由IBM公司自2008年提出,旨在通過新一代信息技術的應用,使人類能以更加精細和動態的方式管理生產和生活的狀態,通過把傳感器嵌入和裝備到全球每個角落的供電系統、供水系統、交通系統、建筑物和油氣管道等生產生活的各種設施中,使其形成物聯網和互聯網的相連,實現人類社會與物理系統的整合,而后通過超級計算機和云計算對物聯網進行整合。智慧城市為開放數據提供了豐富的數據源,城市中的各種傳感器采集了人類生活與生產過程中的大量數據,這些數據通過物聯網源源不斷地傳回城市的數據中心和各種數據服務器上。可以說,如果沒有這些數據,開放數據運動就如同無源之水,根本無法起到相應的創新作用。而智慧城市除了強調新一代信息技術以外,本身也強調構建一個開放、協同創新的城市概念,讓生活在城市中的每一位市民可以了解、參與城市自身的建設和管理活動,從而形成一個以智能應用為基礎,利用互聯技術構建的智慧城市環境。

大數據、開放數據與政府數據的示意圖
另一方面,近年來大數據(Big Data)的概念廣泛流行,各類書籍資料也從各個方面對大數據進行了解釋,本文不對大數據的概念進行討論,而是重點將大數據與開放數據進行比較,以區分兩者的不同之處。首先,大數據與開放數據都有一些共同的特點,例如數據類型多、數據維度高、數據體量大等,所以有時人們會混淆大數據與開放數據。大數據與開放數據并不一樣,許多公司、科研機構與政府組織的數據,包括商業數據、科學成果數據、國家安全數據等,這些數據無論從體量或者復雜性上看都屬于大數據,但這些數據為某個機構所持有,并不屬于開放數據。而開放數據中一些商業的報表或者政府發布的某些城市數據,例如城市綠地位置、醫院分布等,這些數據只是傳統的簡單統計數據,并沒有達到大數據概念的要求,所有這些數據雖然開放了,但并不屬于大數據。再者,近來開放政府(Open Government)的概念也比較流行,包括我國國務院在印發的《促進大數據發展行動綱要》中也提到了加快開放政府數據的要求。但政府數據又不同于大數據和開放數據,只有在政府開放的數據中某個數據集在體量上達到一定量級時,政府數據與大數據才產生交集。最典型的例子城市氣象數據或公共交通GPS數據等就既屬于城市開放數據也屬于大數據。而類似政府預算報告之類數據只能算是開放數據,并不是大數據。在開放政府過程中還有一些活動,例如請市民參加聽證會等就只是政府數據的一部分,既不屬于大數據也不屬于開放數據。