- Power Query從入門到精通
- 徐鵬
- 2519字
- 2025-03-28 15:22:23
2.1 Power Query的CSV/TXT 數據集成
目前在數據分析行業內CSV(逗號分隔值文件格式)數據是最簡單的數據保存方式,不同于其他的Excel或數據庫類型的數據保存形式。CSV是基于逗號實現數據分隔的一類數據,是不需要通過任何其他的數據驅動加載就可以使用的數據,它的數據格式如圖2.1所示。

圖2.1? CSV數據格式
如圖2.1所示的數據之間以“,”作為分隔符,但是在實際場景的數據導入過程中有可能不是以“,”作為分隔符,在這種場景下,也可以使用與CSV格式相近的數據類型TSV導入。TSV是以制表符作為分隔符的一種數據保存形式,如圖2.2所示。

圖2.2? TSV格式的制表位分隔符
除此之外,文件的格式可能不是CSV,也不是TSV,而是TXT文本格式。這些TXT格式的數據也是以各類不同的分隔符進行分隔,與CSV格式類似,如圖2.3和圖2.4所示分別是以分號和冒號作為分隔符。

圖2.3? 分號為分隔符

圖2.4? 冒號為分隔符
Office 中的Excel和Power BI都支持上面提到的數據格式導入,接下來從兩個產品使用的不同角度來實現文本數據格式的導入,并且探討兩種不同產品在進行數據集成方面的異同點。
2.1.1 Excel 導入CSV數據
前面提到,早期的Office版本(2010和2013)必須安裝Power Query組件進行數據的導入,而Office 2016之后的版本則不需要通過安裝Power Query插件的方式進行外部數據的導入。接下來以Office 365版本來演示Excel利用Power Query導入CSV數據,首先需要新建一個空白的Excel文件,在“開始”選項卡下選擇“空白工作薄”,如圖2.5所示。

圖2.5? 開啟Excel 新文檔
在Excel的標準文檔界面中選擇“數據”選項卡,單擊“獲取數據”下拉按鈕,在下拉列表中選擇“來自文件”→“從文本/CSV文件”命令,即可獲取CSV文件,如圖2.6所示。

圖2.6? 導入符合條件的CSV/TXT文件
在導入過程中需要注意,如果項目選擇不正確,則導入的結果將不是我們希望獲取的內容。
■ 編碼問題:不正確的編碼會導致導入過程中出現亂碼。
■ 數據分隔符問題:雖然文件是TXT或CSV,但是如果是固定的分隔符,我們必須選擇正確的分隔符才能獲取正確的數據。
■ 采樣數據容量問題:采樣數據默認為200行,如果數據采樣復雜,可能存在容量不夠的情況,這里可以選擇更多的數據作為采樣數據。
這個取決于在實際數據分析時的需求,在完成上面三個條件后,就可以開始進行數據的導入了,導入的界面如圖2.7所示。

圖2.7? CSV/TXT數據導入的預覽界面
選擇正確的編碼和分隔符之后,就可進入數據的載入界面,這里數據載入中有兩個不同的按鈕,如圖2.8所示。這兩個按鈕在具體操作中面對的是不同的場景,需要根據實際的需求選擇不同的按鈕進行不同的操作。

圖2.8? 數據加載和處理
1. 數據直接加載到Excel中
選擇“加載”選項,即不需要進行數據格式的處理和清洗,直接將所有數據加載到當前的Excel中。如果確定載入的數據不需要進行預處理和清洗,則可以直接使用“加載”選項進行數據的載入。
2.數據加載到選項
如果數據不需要進行再處理,但是需要設定數據導入后與當前的Excel之間的關系,就需要使用“加載到”選項進行當前數據關系的設置。通常這個選項不會直接在數據導入過程中進行操作,而會在數據集成和清洗之后選擇這個操作。這些選項可以由多個選項組合而成,也可以只選擇其中一個選項,圖2.9所示為Excel中“加載到”的選項所提供的操作。

圖2.9? 選擇“加載到”選項后的操作
■ 加載到表:將導入的數據加載到表中。
■ 加載到數據透視表:將導入后的數據加載到數據透視表,這些數據經過處理之后可以直接進行數據透視表字段的調用,在實際應用中,不經過數據集成和清洗而加載到數據透視表的場景非常之少。
■ 加載到數據透視圖:將導入后的數據作為數據源,基于導入后的數據建立相應的數據透視表。在實際應用場景中,數據需要經過清洗和集成,不進行數據清洗和集成而直接加載到數據透視圖的場景非常少。
■ 僅創建連接:當數據量比較大,超過了Excel存儲的最大數據量,如果希望針對這些數據進行再次處理,而不要導入Excel中進行再處理,可以選擇“僅創建連接”方式進行數據訪問的連接。在實際的應用場景中,這種情況出現的比較多,當希望進行大量數據的訪問和集成,必須通過“僅創建連接”方式進行。
■ 將數據加載到模型:如果需要基于導入、清洗和集成后的數據進行數據建模,則需選擇這個選項將數據導入Power Pivot 模型中。導入Power Pivot 之后的數據可以按照建模的需求進行數據的再處理。
3. 轉換數據進行數據再處理
如果單擊“轉換數據”按鈕將進入Power Query的核心數據處理界面,在這個界面中可以實現數據的類型轉換、清洗和內容的轉換等操作,在圖2.8中單擊“轉換數據”后將進入Power Query編輯和數據處理界面,如圖2.10所示。
在Excel中完成Power Query編輯和處理的數據可以進行存儲和再次處理,這是Excel與Power BI 在進行數據處理時最大的差別。

圖2.10? Power Query編輯和數據處理界面
到此為止,我們就可以順利通過Excel中的Power Query界面將數據導入Excel中了,接下來是數據的再處理。
●Tips
如果加載的數據超過1048576行,則無法將數據加載到Excel文件中。
2.1.2 Power BI導入CSV數據
在Power BI中不能保存數據,因此導入CSV數據比Excel更加簡單。接下來我們來了解下如何通過Power BI導入CSV數據,在默認的Power BI界面中的“主頁”選項卡下單擊“獲取數據”下拉按鈕,在下拉列表中選擇“文件/CSV”命令,如圖2.11所示。

圖2.11? Power BI導入CSV/TXT數據
在Power BI中選擇符合條件的TXT/CSV數據,并且導入之后把數據按照需求進行再處理。與Excel導入數據操作相同,這里有三個不同的項目需要設定,如果設定不正確可能會得到錯誤的數據結果。
■ 編碼問題:不正確的編碼會導致導入過程中出現亂碼。
■ 分隔符問題:雖然文件是TXT或CSV,但是分隔符如果是固定的,我們必須選擇正確的分隔符,才能獲取正確的數據。
■ 采樣數據:采樣數據默認為200行,在數據較為復雜的條件下容量可能不夠。可以依據自己的需求選擇更多的數據作為采樣數據。
完成了文件編碼的選擇之后,確定了數據之間的分隔符和采樣數據的數量,我們就可以使用Power BI來完成相應的數據導入操作了,圖2.12所示為導入數據的參數選擇和數據操作界面。

圖2.12? 數據的參數選擇和數據導入
這里需要注意“加載”和“轉換數據”的差別。Power BI不同于Excel,Excel的“加載”會將數據導入表格中,而Power BI只能將數據保存在緩存當中。而“轉換數據”的功能能夠將數據在Power Query界面中進行再處理,在Power BI中的Power Query的處理比Excel的更加完整。
在Power BI中進行CSV處理之后,數據將只能保存在緩存中,在數據表格處理界面可以設置數據的格式和類型。圖2.13所示為在Power BI中處理之后的數據保存的位置。

圖2.13? Power BI保存處理后的數據
- Excel圖表與表格實戰技巧精粹
- 中文版After Effects CC 2020完全自學一本通
- VMware虛擬化與云計算:vSphere運維卷
- Oracle Siebel CRM 8 User Management: LITE
- 中文版AutoCAD 2022基礎教程
- Word 2010實戰技巧精粹
- Procreate+ SketchUp +Photoshop建筑設計手繪表現技法
- Photoshop網店美工實例教程(第2版 全彩微課版)
- 深入理解OpenCV:實用計算機視覺項目解析(原書第3版)
- SolidWorks 2018有限元:運動仿真與流場分析自學手冊
- MATLAB 2022a從入門到精通
- Premiere pro CC中文版自學視頻教程
- Seam 2 Web Development: LITE
- IBM WebSphere eXtreme Scale 6
- UG NX 11中文版從入門到精通