- 數(shù)亦有道:Python數(shù)據(jù)科學(xué)指南
- 王樹(shù)義 翟羽佳
- 420字
- 2021-09-28 15:24:01
1.3 數(shù)據(jù)獲取
掌握了初步的數(shù)據(jù)分析后,你會(huì)發(fā)現(xiàn)自己變成了“數(shù)據(jù)饑渴癥患者”。如果沒(méi)有數(shù)據(jù),你就無(wú)法思考、解答現(xiàn)實(shí)問(wèn)題。
如何獲取數(shù)據(jù)呢?我們先要區(qū)分?jǐn)?shù)據(jù)的來(lái)源。數(shù)據(jù)的來(lái)源很多,但是對(duì)于研究者來(lái)說(shuō),來(lái)自網(wǎng)絡(luò)和文獻(xiàn)的數(shù)據(jù)比較常用。目前主流(合法)的網(wǎng)絡(luò)數(shù)據(jù)獲取方法主要分為3類:
開(kāi)放數(shù)據(jù)集下載;
應(yīng)用程序接口(Application Programming Interface,API)讀取;
爬蟲抓取(Crawling)。
在第4章,我們講解了如何把開(kāi)放數(shù)據(jù)集下載到本地,并且在Python中使用,還介紹了常見(jiàn)的CSV、JSON和XML等格式的開(kāi)放數(shù)據(jù)文件的讀取、初步處理和可視化方法與流程。
如果沒(méi)有開(kāi)放數(shù)據(jù)集可供下載,網(wǎng)站只提供API,該怎么辦呢?在4.2節(jié)中,我們使用Python讀取阿里云云市場(chǎng)的一款天氣數(shù)據(jù)API,獲得指定城市的天氣變化記錄,并且做可視化分析。
如果沒(méi)有開(kāi)放數(shù)據(jù)集,網(wǎng)站也沒(méi)有提供API,那就得“直接上大錘”了。4.3節(jié)介紹了非常人性化、易用的網(wǎng)頁(yè)抓取軟件包requests_html,你可以用它嘗試抓取網(wǎng)頁(yè)內(nèi)的指定類型的鏈接。
希望這些內(nèi)容可以幫助你高效地獲得優(yōu)質(zhì)數(shù)據(jù),支撐起你的思考和探索。
- Redis使用手冊(cè)
- 算法競(jìng)賽入門經(jīng)典:習(xí)題與解答
- 數(shù)據(jù)化網(wǎng)站運(yùn)營(yíng)深度剖析
- 大數(shù)據(jù)Hadoop 3.X分布式處理實(shí)戰(zhàn)
- Ceph源碼分析
- OracleDBA實(shí)戰(zhàn)攻略:運(yùn)維管理、診斷優(yōu)化、高可用與最佳實(shí)踐
- Scratch 3.0 藝術(shù)進(jìn)階
- 企業(yè)級(jí)數(shù)據(jù)與AI項(xiàng)目成功之道
- Hadoop大數(shù)據(jù)開(kāi)發(fā)案例教程與項(xiàng)目實(shí)戰(zhàn)(在線實(shí)驗(yàn)+在線自測(cè))
- TextMate How-to
- SQL Server 2012實(shí)施與管理實(shí)戰(zhàn)指南
- Mastering ROS for Robotics Programming(Second Edition)
- openGauss數(shù)據(jù)庫(kù)核心技術(shù)
- 數(shù)據(jù)產(chǎn)品經(jīng)理寶典:大數(shù)據(jù)時(shí)代如何創(chuàng)造卓越產(chǎn)品
- Learn Selenium