官术网_书友最值得收藏!

第2章 數據獲取

數據最常見的獲取方式是通過網絡搜索,如使用特定的搜索指令快速獲取個性化數據。這類可搜索到的數據屬于主動公開的范疇,若熟悉獲取數據的領域,可以到其主動公開的網站查詢。例如,在國家統計局的網站上可以快速、準確地按月查詢“價格指數”,按季度查詢“國內生產總值_當季值(億元)”,按年度查詢工業農業基礎數據等,也可以使用搜索指令快速、準確地得到搜索結果。若數據沒有主動公開,則可以依據《中華人民共和國政府數據公開條例》申請數據公開。若申請的數據不符合公開原則,或者不存在,則可以自己手動獲取數據。比較常見的方法是使用網絡問卷或者調查主動搜集數據,可以運用眾包的方法,通過群眾的智慧和力量搜集或獲取數據。

很多時候需要獲取的數據保存在網頁上,需要使用一定的工具,如import.io、Octoparse抓取數據后,才可以進行再處理和再利用,對工具無法抓取的網頁數據,可以自己編寫代碼抓取(如Python)。抓取的數字圖片、數字音頻和視頻需要專門的軟件進行編輯。注意,保存的文件類型對數據的質量有重要影響。

任何已經抓取并保存的數據,因為文件格式種類繁多,為方便再次編輯和再次使用,需要對已經獲取的數據進行格式轉換,使其達到用戶或發布平臺的需求。

主站蜘蛛池模板: 长泰县| 景德镇市| 界首市| 建阳市| 莎车县| 石台县| 酒泉市| 威宁| 德安县| 云浮市| 台东市| 和林格尔县| 乃东县| 桐乡市| 颍上县| 富阳市| 寻乌县| 张家界市| 阿合奇县| 靖远县| 贡山| 太原市| 青铜峡市| 察雅县| 广元市| 竹山县| 乌苏市| 甘谷县| 英山县| 济阳县| 昭苏县| 徐州市| 洛隆县| 邳州市| 佛坪县| 富锦市| 嘉义市| 吉安县| 酒泉市| 青冈县| 新津县|