官术网_书友最值得收藏!

1.5 數(shù)據(jù)分析工具

1.5.1 Excel與SQL

一般的數(shù)據(jù)分析都是圍繞常規(guī)數(shù)據(jù)分析流程進(jìn)行的,在這個流程中,我們需要選擇合適的工具對數(shù)據(jù)進(jìn)行分析。

如果讀者對數(shù)據(jù)庫有一些了解,可能覺得數(shù)據(jù)庫是用來存儲數(shù)據(jù)的,而Excel可能是用來進(jìn)行數(shù)據(jù)處理的。這兩個怎么區(qū)分呢?

數(shù)據(jù)庫本身是存儲數(shù)據(jù)的,這個是沒有問題的,但是存儲的數(shù)據(jù)一般都是明細(xì)類的,或者是雜亂的數(shù)據(jù),我們在從數(shù)據(jù)庫獲取數(shù)據(jù)的時候需要對數(shù)據(jù)進(jìn)行一系列處理,最后得到我們真正需要的結(jié)果數(shù)據(jù)。

Excel是用來進(jìn)行數(shù)據(jù)處理的,這個也是沒有問題的,比如,我們在Excel表中對某一列去除重復(fù)值,對某兩列相加減,這些都是屬于數(shù)據(jù)處理。但是在數(shù)據(jù)處理之前,Excel中的數(shù)據(jù)其實也是存儲在Excel這個數(shù)據(jù)庫中的。我們可以把一個Excel工作簿本身當(dāng)作一個數(shù)據(jù)庫,一個Excel工作簿會包含多個Sheet,一個Sheet對應(yīng)數(shù)據(jù)庫中的一張表,而一個數(shù)據(jù)庫也會包含多張表。

在對數(shù)據(jù)進(jìn)行處理之前,數(shù)據(jù)庫和Excel都是用來存儲數(shù)據(jù)的,只不過現(xiàn)在很多互聯(lián)網(wǎng)公司的數(shù)據(jù)量太大,使用本地的Excel存儲數(shù)據(jù)已經(jīng)不能滿足日常業(yè)務(wù)需求,所以數(shù)據(jù)一般都會存儲在數(shù)據(jù)庫中。但是本質(zhì)原理還是一樣的。

在平時工作中,我們一般從數(shù)據(jù)庫中獲取數(shù)據(jù),對數(shù)據(jù)進(jìn)行一些處理變換以后導(dǎo)出到本地,然后在Excel或Python中進(jìn)行進(jìn)一步處理。

1.5.2 SQL與Python

雖然SQL可以實現(xiàn)我們在數(shù)據(jù)分析過程中需要的大部分操作,但是有些操作在SQL中實現(xiàn)起來還是比較煩瑣的,這個時候我們就可以使用SQL將數(shù)據(jù)提取出來,然后導(dǎo)入Python中進(jìn)行處理。

當(dāng)然,也可以直接用Python連接SQL,這就省去了導(dǎo)出數(shù)據(jù)到本地這個過程了,但是一般公司出于安全考慮,是不會直接用Python去連接數(shù)據(jù)庫的。

主站蜘蛛池模板: 焦作市| 拜城县| 邻水| 赫章县| 临澧县| 志丹县| 衢州市| 西乌珠穆沁旗| 武鸣县| 上犹县| 翁源县| 永福县| 鹤庆县| 河池市| 凌云县| 拜城县| 云浮市| 甘南县| 阿城市| 竹北市| 中江县| 繁峙县| 丰县| 巢湖市| 贺州市| 南溪县| 宽城| 天气| 信宜市| 玛多县| 东莞市| 苍梧县| 莱阳市| 德安县| 合水县| 洪雅县| 朝阳市| 育儿| 鹤庆县| 义马市| 山西省|