- 大數(shù)據(jù)及其可視化
- 周蘇 王文
- 2142字
- 2019-10-23 15:52:19
1.2.1 小數(shù)據(jù)時(shí)代的隨機(jī)采樣
數(shù)千年來,政府一直都試圖通過搜集信息來管理國(guó)民,只是到最近,小企業(yè)和個(gè)人才有可能擁有大規(guī)模搜集和分類數(shù)據(jù)的能力。
以人口普查為例。據(jù)說古代埃及曾進(jìn)行過人口普查,《舊約》和《新約》中對(duì)此都有所提及。那次由奧古斯都愷撒(見圖1-6)主導(dǎo)實(shí)施的人口普查,提出了“每個(gè)人都必須納稅”。

圖1-6 奧古斯都愷撒
1086年的《末日審判書》對(duì)當(dāng)時(shí)英國(guó)的人口、土地和財(cái)產(chǎn)做了一個(gè)前所未有的全面記載。皇家委員穿越整個(gè)國(guó)家對(duì)每個(gè)人、每件事都做了記載,然而,人口普查是一項(xiàng)耗資且費(fèi)時(shí)的事情,盡管如此,當(dāng)時(shí)搜集的信息也只是一個(gè)大概情況,實(shí)施人口普查的人也知道他們不可能準(zhǔn)確地記錄下每個(gè)人的信息。實(shí)際上,“人口普查”這個(gè)詞來源于拉丁語的“censere”,本意就是推測(cè)、估算。
三百多年前,一個(gè)名叫約翰·格朗特的英國(guó)縫紉用品商提出了一個(gè)很有新意的方法,來推算出鼠疫時(shí)期倫敦的人口數(shù),這種方法就是后來的統(tǒng)計(jì)學(xué)。這個(gè)方法不需要一個(gè)人一個(gè)人地計(jì)算,也比較粗糙,但采用這個(gè)方法,人們可以利用少量有用的樣本信息來獲取人口的整體情況。雖然后來證實(shí)他能夠得出正確的數(shù)據(jù)僅僅是因?yàn)檫\(yùn)氣好,但在當(dāng)時(shí)他的方法大受歡迎。樣本分析法一直都有較大的漏洞,因此,無論是進(jìn)行人口普查還是其他大數(shù)據(jù)類的任務(wù),人們還是一直使用清點(diǎn)這種“野蠻”的方法。
考慮到人口普查的復(fù)雜性以及耗時(shí)耗費(fèi)的特點(diǎn),政府極少進(jìn)行普查。古羅馬在擁有數(shù)十萬人口時(shí)每5年普查一次。美國(guó)憲法規(guī)定每10年進(jìn)行一次人口普查,而隨著國(guó)家人口越來越多,只能以百萬計(jì)數(shù)。直到19世紀(jì),這樣不頻繁的人口普查依然很困難,因?yàn)閿?shù)據(jù)變化的速度超過了人口普查局統(tǒng)計(jì)分析的能力。
新中國(guó)成立后,先后于1953、1964和1982年舉行過3次人口普查。前3次人口普查是不定期進(jìn)行的,自1990年第4次全國(guó)人口普查開始改為定期進(jìn)行。根據(jù)《中華人民共和國(guó)統(tǒng)計(jì)法實(shí)施細(xì)則》和國(guó)務(wù)院的決定以及國(guó)務(wù)院2010年頒布的《全國(guó)人口普查條例》規(guī)定,人口普查每10年進(jìn)行一次,尾數(shù)逢0的年份為普查年度。兩次普查之間,進(jìn)行一次簡(jiǎn)易人口普查。2020年為第七次全國(guó)人口普查時(shí)間。
新中國(guó)第一次人口普查的標(biāo)準(zhǔn)時(shí)間是1953年6月30日24時(shí),所謂人口普查的標(biāo)準(zhǔn)時(shí)間,就是規(guī)定一個(gè)時(shí)間點(diǎn),無論普查員入戶登記在哪一天進(jìn)行,登記的人口及其各種特征都是反映那個(gè)時(shí)間點(diǎn)上的情況。根據(jù)上述規(guī)定,不管普查員在哪天進(jìn)行入戶登記,普查對(duì)象所申報(bào)的都應(yīng)該是標(biāo)準(zhǔn)時(shí)間的情況。通過這個(gè)標(biāo)準(zhǔn)時(shí)間,所有普查員普查登記完成后,經(jīng)過匯總就可以得到全國(guó)人口的總數(shù)和各種人口狀況的數(shù)據(jù)。1953年11月1日發(fā)布了人口普查的主要數(shù)據(jù),當(dāng)時(shí)全國(guó)人口總數(shù)為601938035人。
第六次人口普查的標(biāo)準(zhǔn)時(shí)間是2010年11月1日零時(shí)。2011年4月,發(fā)布了第六次全國(guó)人口普查主要數(shù)據(jù)。此次人口普查登記的全國(guó)總?cè)丝跒?339724852人。與2000年第五次人口普查相比,10年增加7390萬人,增長(zhǎng)5.84%,年平均增長(zhǎng)0.57%,比1990年到2000年年均1.07%的長(zhǎng)率下降了0.5個(gè)百分點(diǎn)。
美國(guó)在1880年進(jìn)行的人口普查,耗時(shí)8年才完成數(shù)據(jù)匯總。因此,他們獲得的很多數(shù)據(jù)都是過時(shí)的。1890年進(jìn)行的人口普查,預(yù)計(jì)要花費(fèi)13年的時(shí)間來匯總數(shù)據(jù)。然而,稅收分?jǐn)偤蛧?guó)會(huì)代表人數(shù)確定都是建立在人口的基礎(chǔ)上的,這些必須獲得正確且及時(shí)的數(shù)據(jù),很明顯,人們已有的數(shù)據(jù)處理工具已經(jīng)不適用當(dāng)時(shí)的情況。后來,美國(guó)人口普查局就委托發(fā)明家赫爾曼·霍爾瑞斯(被稱為現(xiàn)代自動(dòng)計(jì)算之父)用他的穿孔卡片制表機(jī)(見圖1-7)來完成1890年的人口普查。

圖1-7 霍爾瑞斯普查機(jī)
經(jīng)過大量的努力,霍爾瑞斯成功地在1年時(shí)間內(nèi)完成了人口普查的數(shù)據(jù)匯總工作。這在當(dāng)時(shí)簡(jiǎn)直就是一個(gè)奇跡,它標(biāo)志著自動(dòng)處理數(shù)據(jù)的開端,也為后來IBM公司的成立奠定了基礎(chǔ)。但是,將其作為搜集處理大數(shù)據(jù)的方法依然過于昂貴。畢竟,每個(gè)美國(guó)人都必須填一張可制成穿孔卡片的表格,然后再進(jìn)行統(tǒng)計(jì)。對(duì)于一個(gè)跨越式發(fā)展的國(guó)家而言,十年一次的人口普查的滯后性已經(jīng)讓普查失去了大部分意義。
這就是問題所在,是利用所有的數(shù)據(jù)還是僅僅采用一部分呢?最明智的自然是得到有關(guān)被分析事物的所有數(shù)據(jù),但是,當(dāng)數(shù)量無比龐大時(shí),這又不太現(xiàn)實(shí)。如何選擇樣本?事實(shí)證明,問題的關(guān)鍵是選擇樣本時(shí)的隨機(jī)性。統(tǒng)計(jì)學(xué)家們證明:采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。雖然聽起來很不可思議,但事實(shí)上,研究表明,當(dāng)樣本數(shù)量達(dá)到某個(gè)值之后,從新個(gè)體身上得到的信息會(huì)越來越少,就如同經(jīng)濟(jì)學(xué)中的邊際效應(yīng)遞減一樣。
在商業(yè)領(lǐng)域,隨機(jī)采樣被用來監(jiān)管商品質(zhì)量。這使得監(jiān)管商品質(zhì)量和提升商品品質(zhì)變得更容易,花費(fèi)也更少。以前,全面的質(zhì)量監(jiān)管要求對(duì)生產(chǎn)出來的每個(gè)產(chǎn)品進(jìn)行檢查,而現(xiàn)在只需從一批商品中隨機(jī)抽取部分樣品進(jìn)行檢查即可。本質(zhì)上來說,隨機(jī)采樣讓大數(shù)據(jù)問題變得更加切實(shí)可行。同理,它將客戶調(diào)查引進(jìn)了零售行業(yè),將焦點(diǎn)討論引進(jìn)了政治界,也將許多人文問題變成了社會(huì)科學(xué)問題。
隨機(jī)采樣取得了巨大的成功,成為現(xiàn)代社會(huì)、現(xiàn)代測(cè)量領(lǐng)域的主心骨。但這只是一條捷徑,是在不可搜集和分析全部數(shù)據(jù)的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴于采樣的絕對(duì)隨機(jī)性,但是實(shí)現(xiàn)采樣的隨機(jī)性非常困難。一旦采樣過程中存在任何偏見,分析結(jié)果就會(huì)相去甚遠(yuǎn)。此外,隨機(jī)采樣不適合考察子類別的情況。因?yàn)橐坏├^續(xù)細(xì)分,隨機(jī)采樣結(jié)果的錯(cuò)誤率會(huì)大大增加。因此,在宏觀領(lǐng)域起作用的方法在微觀領(lǐng)域卻失去了作用。
- 列車傳動(dòng)與控制
- 會(huì)計(jì)師事務(wù)所合并整合研究
- 立體構(gòu)成:概念 應(yīng)用與欣賞(第2版)
- 航天系統(tǒng)原理
- 合同法
- 2020年海南省選聘大學(xué)生村官考試《公共基礎(chǔ)知識(shí)》考點(diǎn)精講及典型題(含歷年真題)詳解
- 華東師范大學(xué)外語學(xué)院811翻譯和寫作(B)歷年考研真題及詳解
- 經(jīng)濟(jì)法基礎(chǔ)(第三版)
- 注塑模具設(shè)計(jì)基礎(chǔ)(第2版)
- 商務(wù)談判理論與實(shí)務(wù):策略、技巧與實(shí)訓(xùn)
- 物流戰(zhàn)略管理
- 耕地土壤重金屬污染調(diào)查與修復(fù)技術(shù)
- 會(huì)計(jì)學(xué)(第二版)
- 同濟(jì)大學(xué)數(shù)學(xué)系《高等數(shù)學(xué)》(第7版)(下冊(cè))配套題庫(考研真題+課后習(xí)題+章節(jié)題庫+模擬試題)
- Altium Designer 18電路設(shè)計(jì)從入門到精通(第2版)