官术网_书友最值得收藏!

1.3 數(shù)據(jù)獲取

掌握了初步的數(shù)據(jù)分析后,你會(huì)發(fā)現(xiàn)自己變成了“數(shù)據(jù)饑渴癥患者”。如果沒(méi)有數(shù)據(jù),你就無(wú)法思考、解答現(xiàn)實(shí)問(wèn)題。

如何獲取數(shù)據(jù)呢?我們先要區(qū)分?jǐn)?shù)據(jù)的來(lái)源。數(shù)據(jù)的來(lái)源很多,但是對(duì)于研究者來(lái)說(shuō),來(lái)自網(wǎng)絡(luò)和文獻(xiàn)的數(shù)據(jù)比較常用。目前主流(合法)的網(wǎng)絡(luò)數(shù)據(jù)獲取方法主要分為3類:

開(kāi)放數(shù)據(jù)集下載;

應(yīng)用程序接口(Application Programming Interface,API)讀取;

爬蟲抓取(Crawling)。

在第4章,我們講解了如何把開(kāi)放數(shù)據(jù)集下載到本地,并且在Python中使用,還介紹了常見(jiàn)的CSV、JSON和XML等格式的開(kāi)放數(shù)據(jù)文件的讀取、初步處理和可視化方法與流程。

如果沒(méi)有開(kāi)放數(shù)據(jù)集可供下載,網(wǎng)站只提供API,該怎么辦呢?在4.2節(jié)中,我們使用Python讀取阿里云云市場(chǎng)的一款天氣數(shù)據(jù)API,獲得指定城市的天氣變化記錄,并且做可視化分析。

如果沒(méi)有開(kāi)放數(shù)據(jù)集,網(wǎng)站也沒(méi)有提供API,那就得“直接上大錘”了。4.3節(jié)介紹了非常人性化、易用的網(wǎng)頁(yè)抓取軟件包requests_html,你可以用它嘗試抓取網(wǎng)頁(yè)內(nèi)的指定類型的鏈接。

希望這些內(nèi)容可以幫助你高效地獲得優(yōu)質(zhì)數(shù)據(jù),支撐起你的思考和探索。

主站蜘蛛池模板: 冕宁县| 平阴县| 依安县| 明溪县| 巴彦县| 荔浦县| 武胜县| 定兴县| 孝昌县| 威远县| 安西县| 宝应县| 垦利县| 禄丰县| 大姚县| 柏乡县| 濮阳县| 浦县| 汝阳县| 襄城县| 安吉县| 宿松县| 和平区| 越西县| 云龙县| 广西| 涿鹿县| 苍梧县| 汉沽区| 成都市| 大冶市| 临城县| 新乡市| 凤山市| 荆门市| 罗平县| 南城县| 青龙| 巴中市| 历史| 松阳县|