- 大數據:挖掘數據背后的真相
- (日)松本健太郎
- 1178字
- 2020-07-22 18:43:20
·從總體中抽取樣本的規則
雖然剛才打比方說對大醬湯進行簡單的攪拌即可,但實際上樣本的抽取很復雜,有著各種各樣的詳細規則。
首先,從總體中抽取樣本必須是隨機的,不能有意只舀出大醬湯上面澄清的部分就得出“味道太淡了”的結論。如果樣本取偏了,即使從樣本比例求出總體比例,也極有可能得到失真的結果。
NHK(日本放送協會)開展輿情調查時,根據統計學理論,采取“分層隨機兩步驟抽取法”,先把全國分成幾大塊,再將各市、區、町、村按照規模和各產業就業人口占比進行排序,并且根據各大塊的人口數量按比例抽取調查地點,然后從抽出的調查地點的市、區、町、村居民基本臺賬(流水賬)中,以相同間距抽取一定數量的調查對象。
關鍵是經過上述極其煩瑣的作業,要確保抽樣的隨機性(不能有意抽取某一層次的某塊)。
調查既可以采取訪問的方式,也可以采取打電話的方式。在打電話的情況下,常采用一種被稱為RDD(Random Digit Dialing,隨機數字撥號)的方法,即對數字進行隨機排列組合得到號碼,再打電話調查。《朝日新聞》等媒體不僅打固定電話,還要撥打手機號碼調查對象,并且不只在平時的工作時間打,在休息日也打電話,如果白天沒有聯系上,等到晚上會再打一次。
其次,關于提問,各家媒體也存在著微妙的差別。如圖3-5所示。例如,《日本經濟新聞》開展的輿情調查,在提問是否支持內閣時,對沒有回答是支持還是不支持的人,還要重復提問“與你的心理接受程度更接近的是哪個選項”。這樣一來,“不清楚”等不表明態度的比例就會大大降低。

圖3-5 因提問方法不同而發生變化的支持率
《每日新聞》準備了“支持”“不支持”“不關心”三個選項進行提問,所以,與《日本經濟新聞》的調查結果相比,在變動趨勢方面兩者會有很大的不同。
因為提問方法的不同,對于各家大眾傳媒的輿情調查結果,比較支持率的高低并沒有意義,各自的支持率變動才有意義。
提問場所和提問方法都會對結果產生影響。照此推理,日本維新會浦野靖人議員利用Twitter進行的問卷調查,可以說是避免了失真嗎?從調查研究行業發出的強烈批評的聲音不斷高漲,但那些聲音如果能夠傳到浦野靖人議員的耳朵里就好了。
至于“面帶微笑問卷調查”,它是一種想回答的人才能給出回答的問卷設計,所以,很難說它達到了輿情調查要求的避免失真的那種程度。
不過,大眾傳媒采用的那些方法也并非十全十美,就拿RDD來看也有其不足之處。
如果不說出大眾傳媒的缺點,Twitter上也許天天會有人冒出來抓住這一點不放,說出“松本竟敢不觸及這個缺點!”的話來。
不過,正因為這樣,我才要反過來問,一點點失真也沒有,真正做到了精密細致的輿情調查在哪里呢?做到那種程度的調查在哪里也找不到,但為了盡量收集公平公正的數據,大家也都為此煞費苦心。這就是輿情調查的實際情況。
與“面帶微笑問卷調查”及Twitter隨意提問得到的支持率相比,各家大眾傳媒的支持率經過了統計上的處理,可以認為是比較接近“真正的精密細致的數字”了。