官术网_书友最值得收藏!

1.2.1 小數(shù)據(jù)時(shí)代的隨機(jī)采樣

數(shù)千年來,政府一直都試圖通過搜集信息來管理國(guó)民,只是到最近,小企業(yè)和個(gè)人才有可能擁有大規(guī)模搜集和分類數(shù)據(jù)的能力。

以人口普查為例。據(jù)說古代埃及曾進(jìn)行過人口普查,《舊約》和《新約》中對(duì)此都有所提及。那次由奧古斯都愷撒(見圖1-6)主導(dǎo)實(shí)施的人口普查,提出了“每個(gè)人都必須納稅”。

圖1-6 奧古斯都愷撒

1086年的《末日審判書》對(duì)當(dāng)時(shí)英國(guó)的人口、土地和財(cái)產(chǎn)做了一個(gè)前所未有的全面記載。皇家委員穿越整個(gè)國(guó)家對(duì)每個(gè)人、每件事都做了記載,然而,人口普查是一項(xiàng)耗資且費(fèi)時(shí)的事情,盡管如此,當(dāng)時(shí)搜集的信息也只是一個(gè)大概情況,實(shí)施人口普查的人也知道他們不可能準(zhǔn)確地記錄下每個(gè)人的信息。實(shí)際上,“人口普查”這個(gè)詞來源于拉丁語的“censere”,本意就是推測(cè)、估算。

三百多年前,一個(gè)名叫約翰·格朗特的英國(guó)縫紉用品商提出了一個(gè)很有新意的方法,來推算出鼠疫時(shí)期倫敦的人口數(shù),這種方法就是后來的統(tǒng)計(jì)學(xué)。這個(gè)方法不需要一個(gè)人一個(gè)人地計(jì)算,也比較粗糙,但采用這個(gè)方法,人們可以利用少量有用的樣本信息來獲取人口的整體情況。雖然后來證實(shí)他能夠得出正確的數(shù)據(jù)僅僅是因?yàn)檫\(yùn)氣好,但在當(dāng)時(shí)他的方法大受歡迎。樣本分析法一直都有較大的漏洞,因此,無論是進(jìn)行人口普查還是其他大數(shù)據(jù)類的任務(wù),人們還是一直使用清點(diǎn)這種“野蠻”的方法。

考慮到人口普查的復(fù)雜性以及耗時(shí)耗費(fèi)的特點(diǎn),政府極少進(jìn)行普查。古羅馬在擁有數(shù)十萬人口時(shí)每5年普查一次。美國(guó)憲法規(guī)定每10年進(jìn)行一次人口普查,而隨著國(guó)家人口越來越多,只能以百萬計(jì)數(shù)。直到19世紀(jì),這樣不頻繁的人口普查依然很困難,因?yàn)閿?shù)據(jù)變化的速度超過了人口普查局統(tǒng)計(jì)分析的能力。

新中國(guó)成立后,先后于1953、1964和1982年舉行過3次人口普查。前3次人口普查是不定期進(jìn)行的,自1990年第4次全國(guó)人口普查開始改為定期進(jìn)行。根據(jù)《中華人民共和國(guó)統(tǒng)計(jì)法實(shí)施細(xì)則》和國(guó)務(wù)院的決定以及國(guó)務(wù)院2010年頒布的《全國(guó)人口普查條例》規(guī)定,人口普查每10年進(jìn)行一次,尾數(shù)逢0的年份為普查年度。兩次普查之間,進(jìn)行一次簡(jiǎn)易人口普查。2020年為第七次全國(guó)人口普查時(shí)間。

新中國(guó)第一次人口普查的標(biāo)準(zhǔn)時(shí)間是1953年6月30日24時(shí),所謂人口普查的標(biāo)準(zhǔn)時(shí)間,就是規(guī)定一個(gè)時(shí)間點(diǎn),無論普查員入戶登記在哪一天進(jìn)行,登記的人口及其各種特征都是反映那個(gè)時(shí)間點(diǎn)上的情況。根據(jù)上述規(guī)定,不管普查員在哪天進(jìn)行入戶登記,普查對(duì)象所申報(bào)的都應(yīng)該是標(biāo)準(zhǔn)時(shí)間的情況。通過這個(gè)標(biāo)準(zhǔn)時(shí)間,所有普查員普查登記完成后,經(jīng)過匯總就可以得到全國(guó)人口的總數(shù)和各種人口狀況的數(shù)據(jù)。1953年11月1日發(fā)布了人口普查的主要數(shù)據(jù),當(dāng)時(shí)全國(guó)人口總數(shù)為601938035人。

第六次人口普查的標(biāo)準(zhǔn)時(shí)間是2010年11月1日零時(shí)。2011年4月,發(fā)布了第六次全國(guó)人口普查主要數(shù)據(jù)。此次人口普查登記的全國(guó)總?cè)丝跒?339724852人。與2000年第五次人口普查相比,10年增加7390萬人,增長(zhǎng)5.84%,年平均增長(zhǎng)0.57%,比1990年到2000年年均1.07%的長(zhǎng)率下降了0.5個(gè)百分點(diǎn)。

美國(guó)在1880年進(jìn)行的人口普查,耗時(shí)8年才完成數(shù)據(jù)匯總。因此,他們獲得的很多數(shù)據(jù)都是過時(shí)的。1890年進(jìn)行的人口普查,預(yù)計(jì)要花費(fèi)13年的時(shí)間來匯總數(shù)據(jù)。然而,稅收分?jǐn)偤蛧?guó)會(huì)代表人數(shù)確定都是建立在人口的基礎(chǔ)上的,這些必須獲得正確且及時(shí)的數(shù)據(jù),很明顯,人們已有的數(shù)據(jù)處理工具已經(jīng)不適用當(dāng)時(shí)的情況。后來,美國(guó)人口普查局就委托發(fā)明家赫爾曼·霍爾瑞斯(被稱為現(xiàn)代自動(dòng)計(jì)算之父)用他的穿孔卡片制表機(jī)(見圖1-7)來完成1890年的人口普查。

圖1-7 霍爾瑞斯普查機(jī)

經(jīng)過大量的努力,霍爾瑞斯成功地在1年時(shí)間內(nèi)完成了人口普查的數(shù)據(jù)匯總工作。這在當(dāng)時(shí)簡(jiǎn)直就是一個(gè)奇跡,它標(biāo)志著自動(dòng)處理數(shù)據(jù)的開端,也為后來IBM公司的成立奠定了基礎(chǔ)。但是,將其作為搜集處理大數(shù)據(jù)的方法依然過于昂貴。畢竟,每個(gè)美國(guó)人都必須填一張可制成穿孔卡片的表格,然后再進(jìn)行統(tǒng)計(jì)。對(duì)于一個(gè)跨越式發(fā)展的國(guó)家而言,十年一次的人口普查的滯后性已經(jīng)讓普查失去了大部分意義。

這就是問題所在,是利用所有的數(shù)據(jù)還是僅僅采用一部分呢?最明智的自然是得到有關(guān)被分析事物的所有數(shù)據(jù),但是,當(dāng)數(shù)量無比龐大時(shí),這又不太現(xiàn)實(shí)。如何選擇樣本?事實(shí)證明,問題的關(guān)鍵是選擇樣本時(shí)的隨機(jī)性。統(tǒng)計(jì)學(xué)家們證明:采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。雖然聽起來很不可思議,但事實(shí)上,研究表明,當(dāng)樣本數(shù)量達(dá)到某個(gè)值之后,從新個(gè)體身上得到的信息會(huì)越來越少,就如同經(jīng)濟(jì)學(xué)中的邊際效應(yīng)遞減一樣。

在商業(yè)領(lǐng)域,隨機(jī)采樣被用來監(jiān)管商品質(zhì)量。這使得監(jiān)管商品質(zhì)量和提升商品品質(zhì)變得更容易,花費(fèi)也更少。以前,全面的質(zhì)量監(jiān)管要求對(duì)生產(chǎn)出來的每個(gè)產(chǎn)品進(jìn)行檢查,而現(xiàn)在只需從一批商品中隨機(jī)抽取部分樣品進(jìn)行檢查即可。本質(zhì)上來說,隨機(jī)采樣讓大數(shù)據(jù)問題變得更加切實(shí)可行。同理,它將客戶調(diào)查引進(jìn)了零售行業(yè),將焦點(diǎn)討論引進(jìn)了政治界,也將許多人文問題變成了社會(huì)科學(xué)問題。

隨機(jī)采樣取得了巨大的成功,成為現(xiàn)代社會(huì)、現(xiàn)代測(cè)量領(lǐng)域的主心骨。但這只是一條捷徑,是在不可搜集和分析全部數(shù)據(jù)的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴于采樣的絕對(duì)隨機(jī)性,但是實(shí)現(xiàn)采樣的隨機(jī)性非常困難。一旦采樣過程中存在任何偏見,分析結(jié)果就會(huì)相去甚遠(yuǎn)。此外,隨機(jī)采樣不適合考察子類別的情況。因?yàn)橐坏├^續(xù)細(xì)分,隨機(jī)采樣結(jié)果的錯(cuò)誤率會(huì)大大增加。因此,在宏觀領(lǐng)域起作用的方法在微觀領(lǐng)域卻失去了作用。

主站蜘蛛池模板: 高雄县| 永靖县| 吉首市| 老河口市| 怀来县| 神木县| 丰顺县| 昆山市| 中宁县| 澄迈县| 师宗县| 中阳县| 泸州市| 临沂市| 平利县| 乌拉特中旗| 昌江| 泾川县| 深泽县| 双城市| 武平县| 云浮市| 大同市| 鹤山市| 舞钢市| 上虞市| 灌云县| 洮南市| 彰化县| 钦州市| 沈丘县| 望奎县| 古蔺县| 镇坪县| 密云县| 乡宁县| 古交市| 宁国市| 沽源县| 涿鹿县| 留坝县|