官术网_书友最值得收藏!

第二節 大數據的概念內涵

當前,大數據時代剛剛開始,大部分相關技術和分析應用可以說從2010年前后才開始出現的[8]。雖然大數據的發展應用剛剛起步,但大數據的概念最早源于氣象、天文等科學計算中對海量數據的分析處理,而真正引起人們廣泛關注的則是來自互聯網領域的大數據應用。從現代意義上看,大數據可以說是計算機與互聯網相結合的產物,前者實現了數據的數字化,后者實現了數據的網絡化,兩者結合賦予了大數據更加豐富的含義。究竟什么是大數據,由于所從事學科領域的差異,國內外學者對大數據有著不同的看法。從技術層面看,大數據是一個抽象的概念,一些學者從技術的角度出發提出大數據是指無法在可容忍的時間內用傳統IT技術和軟硬件工具對其進行感知、獲取、管理、處理和服務的數據集合[9](見表1-2)。

表1-2 大數據定義及主要觀點

除此之外,還有學者從信息資源的角度出發,指出大數據是具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產[10]。尤其是從事社會科學領域的學者認為大數據的概念內涵不應僅局限在技術層面,他們認為大數據可以定義為在合理時間內采集大規模資料、處理成為常住使用者更有效決策的社會過程[11]

雖然大數據尚未有公認的定義,但并不意味著大家對這個概念沒有較為普遍的共識。從以上定義來看,我們認為“大數據”是伴隨數據信息的存儲、分析等技術進步,而被人們所收集、利用的超出以往數據體量、類型,具有更高價值的數據集合和信息資產。總的來說,從概念內涵來看,大數據不僅僅指海量數據,或者說大規模或超大規模的數據資源集合,其更具有四重概念屬性,如圖1-1所示。

圖1-1 大數據的四重概念內涵

一 大數據是一種新的數據形態

當前,隨著移動服務、電子商務、互聯網金融、社交網絡等新技術應用的飛速發展,越來越多的人類經濟社會運行內容被投射到云上,在云端進行統一處理并提供服務。有句形象的說法,以前是“人在做,天在看”,現在則是“人在做,云在算”。在這樣一個背景下,人類社會產生的數據無論是規模、類型還是處理速度的要求都面臨巨大變化。大數據概念出現的最根本歷史因素,是人類進入信息時代以來的全球性數據爆炸性增長。有研究認為,當前互聯網上的數據以每年50%左右的速度增長,人類90%以上的數據都是最近幾年產生的[12]。同時,隨著當前社交網絡、移動計算和傳感器等新的渠道和技術的不斷涌現和應用,互聯網中越來越多的信息是不規則的半結構化甚至非結構化數據。大數據計算服務的目的,就是對當前互聯網領域占據80%以上的結構化和半結構化數據進行智能分析,并且實時地將計算結果通過網絡反饋給終端用戶。這是看待大數據的第一個視角,即它是一種呈現數據容量大、增長速度快、數據類別多等特征的數據形態。

大數據是數據信息的一類,之所以稱為大數據,因為其具有不同于傳統數據信息的特征,這些特征決定了大數據與“海量數據”和“非常大的數據”這些概念之間的不同。關于大數據的特征目前還未形成統一認識,國際數據公司、高德納公司、弗雷斯特研究公司、國際商業機器公司(IBM)等著名國際組織和企業,以及道格·萊尼、維克托·邁爾等眾多研究者認為,大數據的基本特性可以從數據容量(Volume)、結構類型(Variety)及處理速度(Velocity)三個維度來考察,簡稱“3V”[13]。隨著技術的進步,以及對于大數據研究的深入,人們對于大數據特征的認識也發生了一些變化。IBM提出了大數據的5V特點,詳細解讀如下。

1.Volume(大量)

數據量大,包括采集、存儲和計算的量都非常大。大數據的起始計量單位至少是PB、EB或ZB(注:1TB=1024GB、1PB=1024TB、1EB=1024PB、1ZB=1024EB)。伴隨各種隨身設備、物聯網和云計算、云存儲等技術的發展,人和物的所有軌跡都可以被記錄,數據因此被大量生產出來,這與數據存儲和網絡技術的發展密切相關。移動互聯網的核心網絡節點是人,不再是網頁,人人成為數據制造者,短信、微博、照片、視頻都是其數據產品;數據來自無數自動化傳感器、自動記錄設施、生產檢測、環境檢測、交通檢測、安防檢測等;來自各種自動化流程記錄,刷卡機、收款機、電子不停車收費系統、互聯網點擊、電話撥號等設施以及各種辦事流程登記等。大量自動或人工生產的數據通過互聯網聚集到特定地點,包括電信運營商、互聯網運營商、政府、銀行、商場、企業、交通樞紐等,形成大數據之海。

2.Variety(多樣)

種類和來源多樣化包括結構化、半結構化和非結構化數據,這也意味著要在海量、種類繁多的數據間發現其內在關聯。互聯網時代,各種設備通過網絡連成一個整體。個人用戶不僅可以通過網絡獲取信息,還成為信息的制造者和傳播者。因此,數據量不僅在爆炸式增長,數據種類也變得繁多。除了簡單的文本分析外,還包括網絡日志、音頻、視頻、圖片、傳感器數據、點擊流、搜索引擎、地理位置信息等其他任何可用的信息。比如,在交通領域,交通智能化分析平臺數據來自路網攝像頭、公交、軌道交通、出租車以及省際客運等運輸工具采集的車輛行駛數據,地理信息系統數據,以及通過問卷調查采集的用戶數據等。諸如每天浮動車輛產生的記錄、交通卡刷卡記錄、手機定位數據、出租車運用數據、電子停車收費系統數據等,在體量和速度上都達到“大且多樣”的規模。

3.Value(價值密度)

大數據的價值具有稀缺性、不確定性和多樣性,數據價值密度相對較低,但應用價值高,或者說是浪里淘沙卻又彌足珍貴,可見大數據運用的真實意義所在。隨著互聯網以及物聯網的廣泛應用,信息感知無處不在,如何結合業務邏輯并通過強大的機器算法來挖掘數據價值,是大數據時代最需要解決的問題。“互聯網女皇”Mary Meeker曾用一幅生動的圖像來描述大數據。一張是整整齊齊的稻草堆,另外一張是稻草中縫衣針的特寫,寓意通過大數據技術的幫助,可以在稻草堆中找到你所需要的東西,哪怕是一枚小小的縫衣針,這揭示了大數據的一個很重要的特點,即價值的稀疏性。保留有用信息,舍棄不需要的信息,發現潛在關聯的數據并加以收集、分析、加工,使其變為可用的信息,是大數據價值的真正所在。

4.Velocity(高速)

數據增長速度快,處理速度也快,時效性要求高。海量多類型的數據對數據的處理能力提出了更高的要求,現實中對數據的時效性需求上,有一個著名的“1秒定律”,即要在秒級時間范圍內給出分析結果,超出這個時間,數據就失去價值了。隨著移動網絡的發展,人們對數據的時效應用需求更加普遍,比如通過手持終端設備關注天氣、交通、物流等信息。搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個性化推薦算法盡可能要求實時完成推薦。高速性要求具有時間敏感性和決策性即能在第一時間抓住重要事件發生的信息,提前感知預測并直接提供服務對象所需要的個性化服務。例如,對絕大多數商品來說,找到顧客“觸點”的最佳時機并非在結賬以后,而是在顧客還提著籃子逛街時。電子商務網站從點擊流、瀏覽歷史和行為(如放入購物車)中實時發現顧客的即時購買意圖和興趣,并據此推送商品,這就是“快”的價值。

5.Veracity(真實性)

數據的準確性和可信賴度,即數據的質量。數據的重要性就在于對決策的支持,數據的規模并不能決定其能否為決策提供幫助,數據的真實性和質量才是獲得真知和思路最重要的因素,是制定成功決策最堅實的基礎。追求高數據質量是一項重要的大數據要求和挑戰,即使最優秀的數據清理方法也無法消除某些數據固有的不可預測性,例如,人的感情和誠實性、天氣形勢、經濟因素等。在處理這些類型的數據時,數據清理無法修正這種不確定性,然而,盡管存在不確定性,數據仍然包含寶貴的信息。隨著社交數據和企業內容、交易與應用數據等新數據源的興起,傳統數據源的局限被打破,企業愈發需要有效的技術之力以確保其真實性及安全性。

此外,隨著對大數據研究的深入,大數據的特征已不僅僅局限在5V的范疇中,也有一些學者對大數據的特征有著其他的認識[14],具體如表1-3所示。

表1-3 研究者對大數據特性的其他認識

續表

二 大數據是一種新的產業業態(大數據+)

當前,圍繞大數據存儲、傳輸、處理、加工、開發和應用各個環節,大數據產業的核心生態和關聯業態已經初步形成。據估算,2016年,我國大數據市場規模約為2485億元,預計年均增速維持在30%以上,到2022年,我國大數據產業規模或達13626億元以上。大數據應用領域的擴展,激發了“互聯網+大數據”的商業新模式,一系列基于大數據的產品應運而生,帶動物聯網、人工智能、無人駕駛等新興產業加速發展。如裴艷等基于投入產出模型,對我國大數據產業與國民經濟各產業部門之間的投入、產出關系進行分析,發現我國大數據產業的帶動力系數為1.4150,推動力系數為1.2003,屬于第一類部門。其特點為需求拉動力大、供給推動力大,即屬于強輻射力、強制約力的產業[15]

習近平總書記指出:“研究表明,全球95%的工商業同互聯網密切相關,世界經濟正在向數字化轉型,我們要在數字經濟和新工業革命領域加強合作,共同打造新技術、新產業、新模式、新產品。”大數據技術兼具“使能性技術”(Enabling Technologies)和“通用目的技術”(General Purpose Technologies, GPTs)的優點。一方面,大數據技術能夠改進和提升既存技術能力,為使用者架設“使然技術”與“應然技術”之間的橋梁,大大提高創新效率;另一方面,大數據技術能夠滿足各行各業的共性需要,對于國民經濟各部門具有十分廣泛的輻射帶動效應,有助于提升全要素生產率。根據交易成本經濟學理論,交易成本源于人的有限理性和機會主義行為。顯然,大數據有助于擴展人的理性,減少人的機會主義行為,從而有利于降低交易成本。而從交易成本視角而言,大數據技術是一種具有降低交易成本的技術進步[16]。根據美國聯邦儲備委員會的研究結果,2004~2012年美國勞動生產率的增長中,數字化技術的貢獻度達到43%,接近其他所有技術對生產率增長的貢獻之和。正因如此,全球各國在推動數字經濟發展時,其著眼點已經遠遠超出數字化產業本身,而是關注于大數據、云計算等數字技術與實體經濟的融合部分,關注數字化技術對于傳統行業轉型升級的帶動輻射作用,全力推動經濟模式向形態更高級、結構更合理的方向演進。

三 大數據是一種新的治理模式(大數據×)

當前,全球信息技術革命持續演進,電子政務發展所依托的信息技術手段正面臨重大飛躍,以云計算、大數據、物聯網和移動互聯網等為代表的新一輪信息技術變革浪潮風起云涌,不僅對產業發展、商業模式、媒體傳播、金融服務等領域產生強烈沖擊,同時也深刻改變了信息化發展的技術環境及條件,為政府治理、公共服務、社會管理和商業運行提供了更為強有力的科技支撐。

在公共服務方面,全球電子政務領先國家開始普遍開展政府網站用戶行為大數據分析與挖掘工作。如美國、英國、澳大利亞、加拿大、日本、韓國、新加坡等數十個發達國家政府門戶網站和聯合國門戶網站均已部署了基于云服務模式的網站用戶行為分析系統。通過對海量網站用戶訪問行為數據的分析和挖掘,提煉用戶需求,指導政府提供更加個性化的網上服務,并通過對用戶訪問規律和點擊行為的動態監測,有針對性地改進政府網上服務,精準推送服務內容,使在線服務越來越向智慧化、精準化、主動化的方向發展。

在社會管理方面,國外一些政府部門(如醫療、交通、公安等)已經注重挖掘本部門所掌握的數據價值,更有效地提高部門業務運作效率,提升公眾滿意度。例如,美國疾病預防控制中心(CDC)利用從多處收集的海量數據,開發了復雜的流感跟蹤系統,及時了解疫情變化,并基于流感跟蹤系統,建立了專門網站(FluView),每周將數據向公眾開放,方便公眾查詢當地的流感情況。再如,美國警察部門正在興起一項新的應用——警務預測(Predictive Policing),即基于大數據分析預測一個城市哪個地區最可能發生犯罪事件以及哪里最有可能找到犯罪分子。此外,應用大數據實現精細化的交通治理逐漸成為一種趨勢,包括利用大數據分析處理交通擁堵、監測惡劣天氣的道路狀況、檢測道路損毀狀況等。

在政府治理創新方面,以大數據、人工智能等為代表的數字經濟蓬勃發展,對政府治理方式提出了一系列全新挑戰,各國均在積極尋求適應數字經濟時代的政府治理模式創新路徑。如針對以大數據、云計算、區塊鏈、人工智能等為代表的FinTech(金融科技)帶來的監管挑戰,英國金融行為監管局提出發展RegTech(監管科技),力求依靠科技手段滿足實時、動態監管需求,逐步解決金融監管信息不對稱問題,緩解法律滯后等弊端。再如美國密歇根州早在2002年就建成了世界上第一個網絡法院,主要聚焦處理信息技術和新經濟領域的糾紛,有效解決目前傳統法院審理周期漫長與新經濟領域短周期經濟活動之間的矛盾。英國學者海倫·馬吉茨(Helen Margetts)指出,全球政府治理在經歷了傳統的韋伯模式和新公共管理(NPM)模式后,正在進入第三個階段,即數字治理(DEG)模式,其基本特征就是將數字化技術置于機構層級的核心位置,以公民權為軸心,推動數字化的整體性政府建設。

在商業治理領域,當前大數據已經成為商業智能的代名詞,基于大數據的分析和挖掘技術,商業智能已經從過去的報告和決策支持模式躍升到商業預測和未來決策制定(Next-move Decision Making)的模式[17]。另外,大數據通過對企業不同價值鏈條的動態整合,已形成一種全新的網狀、彈性、自組織的業務流程管理格局,還將引發一場“戰略性的、企業級的、貫穿整個價值鏈的深度變革”[18]

四 大數據是一種新的思維理念(大數據!)

大數據的第四層內涵,是在推動產業發展和治理創新的基礎上,進一步在認知層面完成對人類社會群體的思維模式改造,發揮大數據融入經濟社會發展方方面面的階乘效應。長期以來,中國社會文化一直缺乏精確的數據意識,中國人的傳統習慣是定性思維而不是定量思維,正如胡適先生所說的“差不多”文化,這種文化阻礙了科技在中國的發展,沒有精確就沒有現代科技。數據文化的本質就是尊重客觀世界的實事求是精神,數據就是定量化的、表征精確的事實,重視數據就是強調用事實說話,遵循理性思維的科學精神,因此提升全社會的數據意識、強化數據精神是大數據熱的巨大貢獻。

著名歷史學家黃仁宇先生曾指出[19],西方人在研究社會經濟史時,喜歡使用計量經濟學的方法,其實西方其他社會科學在做研究時都有數字化的傾向,用數據來說明問題。比如新制度經濟學的福格爾研究美國鐵路對美國經濟的推動作用時得出其貢獻僅為3%,這個數據的得出需要那個時代的各種相關要素的統計資料。要做這樣的研究,其前提是必須有某一時期相關因素的準確的統計資料。黃仁宇認為,古代中國與西方的城邦制社會不同,在大一統的政治環境下,中央政府的各種決策往往以道德準則而不是實際情況為出發點,甚至以儀式來代替行政,各種相關數據要么沒有統計,要么就是嚴重失實,無法做到“數目字管理”,這就是中國數字文化長期缺失的重要原因。

大數據的核心,實際上并不是技術和應用本身,而是對于數據背后的規律、原理、本質的解讀、研判和決策。數據本身是中立的,數據并不會告訴我們一件事是好還是壞。數據分析的最終導向,是人的價值判斷。我們在推動大數據發展和開展公共政策大數據評估研究的過程中,不能僅僅考慮技術和產業層面的問題,還應當注意塑造民族在數據文化時代的“魂”。因此,打造正確的大數據價值觀和文化觀,正如以色列歷史學家尤瓦爾·郝拉利在其最新出版的《今日簡史》中[20]所指出的:“大數據算法可能會抹去自由,同時也就可能創造出歷史上最不平等的社會,讓所有的財富和權力集中在一小群精英手中。大多數人類的痛苦將不再是受到剝削,而是更糟的局面:再也無足輕重。”

筆者認為,大數據文化觀的塑造應當堅持三個基本原則。一是“解放心靈”。印度學者克里希那穆提曾寫過一本書,叫作《教育就是解放心靈》。大數據文化的本質不應當是讓大家覺得很緊張,讓大家都為了一個分數去拼命,而應該是要大家獲得一種精神上的自由,學會解放自己的心靈。二是“完善人格”。這是在中國古代經典中一以貫之的精神。《論語·憲問》中就提出了“修己以敬”“修己以安人”“修己以安百姓”這樣三種完善人格的境界,其核心思想,則是通過解放心靈來完善人格,最終達到修齊治平的目的。三是“提升生命質量”。大數據文化的最終目標,是提高每個人的生命質量,大數據不應當讓每一個人感覺被綁定、越來越緊張、越來越僵化,而應通過分析,讓每一個人覺得更輕松、更自由、人格更完善,讓每個人生命質量有一個真正的提高。

主站蜘蛛池模板: 陆良县| 香河县| 达孜县| 墨脱县| 临泉县| 湘潭市| 福建省| 阿克| 红桥区| 怀柔区| 满洲里市| 芜湖市| 右玉县| 高陵县| 嘉禾县| 临清市| 洪洞县| 民勤县| 宁明县| 故城县| 清丰县| 青铜峡市| 石屏县| 元朗区| 马公市| 修武县| 达孜县| 理塘县| 偃师市| 额尔古纳市| 定日县| 于都县| 鹤庆县| 临猗县| 金川县| 龙游县| 定西市| 常德市| 太原市| 桐庐县| 惠来县|