- 數據可視化:從小白到數據工程師的成長之路
- 劉英華
- 501字
- 2020-07-24 10:01:19
第2章 數據獲取
數據最常見的獲取方式是通過網絡搜索,如使用特定的搜索指令快速獲取個性化數據。這類可搜索到的數據屬于主動公開的范疇,若熟悉獲取數據的領域,可以到其主動公開的網站查詢。例如,在國家統計局的網站上可以快速、準確地按月查詢“價格指數”,按季度查詢“國內生產總值_當季值(億元)”,按年度查詢工業農業基礎數據等,也可以使用搜索指令快速、準確地得到搜索結果。若數據沒有主動公開,則可以依據《中華人民共和國政府數據公開條例》申請數據公開。若申請的數據不符合公開原則,或者不存在,則可以自己手動獲取數據。比較常見的方法是使用網絡問卷或者調查主動搜集數據,可以運用眾包的方法,通過群眾的智慧和力量搜集或獲取數據。
很多時候需要獲取的數據保存在網頁上,需要使用一定的工具,如import.io、Octoparse抓取數據后,才可以進行再處理和再利用,對工具無法抓取的網頁數據,可以自己編寫代碼抓取(如Python)。抓取的數字圖片、數字音頻和視頻需要專門的軟件進行編輯。注意,保存的文件類型對數據的質量有重要影響。
任何已經抓取并保存的數據,因為文件格式種類繁多,為方便再次編輯和再次使用,需要對已經獲取的數據進行格式轉換,使其達到用戶或發布平臺的需求。