- 洞察大數(shù)據(jù)價(jià)值:SAS編程與數(shù)據(jù)挖掘
- 楊池然 劉璐
- 676字
- 2020-06-04 15:26:51
4.3 數(shù)據(jù)步讀Excel格式文件建立數(shù)據(jù)集
對于Excel生成的外部數(shù)據(jù)文件,通過數(shù)據(jù)步建立數(shù)據(jù)集時(shí)需要先通過SAS過程步中的IMPORT過程生成SAS可以識別的數(shù)據(jù)集,然后再根據(jù)需求對生成的數(shù)據(jù)集進(jìn)行處理,這樣過渡到數(shù)據(jù)步,就可以運(yùn)用SAS函數(shù)對字段進(jìn)行處理,以滿足業(yè)務(wù)需求了。
4.3.1 Excel格式文件建立數(shù)據(jù)集
對于Excel格式外部數(shù)據(jù)文件,SAS建立數(shù)據(jù)集時(shí)分兩步來處理,第一步先通過過程步SAS內(nèi)部過程IMPORT把Excel格式外部文件不做任何處理生成SAS數(shù)據(jù)集;第二步根據(jù)業(yè)務(wù)需求再對已經(jīng)生成的Excel數(shù)據(jù)集進(jìn)行處理。這類文件存儲形式如圖4-18所示。

圖4-18 Excel文件
●通過SAS內(nèi)部IMPORT過程,先把Excel文件讀取出來,轉(zhuǎn)換成SAS數(shù)據(jù)集。
導(dǎo)入程序如下。

【例4.35】為調(diào)控樓市,國家對樓市進(jìn)行摸底調(diào)查,調(diào)查數(shù)據(jù)文件存儲路徑為“d:\sastest\yxy\cecus_hous.xls”,生成的數(shù)據(jù)集名為cecus_hous,保留里面的Area、Name、Floor、Size、Bedroom和dininng等字段。
1)通過IMPORT過程生成數(shù)據(jù)集cecus_h。

【程序解讀】
讀取Excel文件時(shí),如果第一行記錄是字段名,則GETNAMES=YES;如果第一行記錄不是字段名,則GETNAME=NO。
2)對已經(jīng)生成的數(shù)據(jù)集,根據(jù)業(yè)務(wù)需求再用DATA步進(jìn)行處理。

4.3.2 Excel格式文件數(shù)據(jù)集處理
對于Excel格式文件,根據(jù)業(yè)務(wù)需求,如果里面有字段需要處理,才能滿足過程步對數(shù)據(jù)集的分析處理或作為數(shù)據(jù)挖掘的抽樣數(shù)據(jù),這需要借助于SAS系統(tǒng)內(nèi)部的函數(shù)或連接字符來進(jìn)行。SAS功能強(qiáng)大之處還在于它對數(shù)據(jù)集的強(qiáng)大處理能力,SAS內(nèi)部函數(shù)眾多,根據(jù)需求靈活運(yùn)用這些函數(shù)就可以滿足業(yè)務(wù)需求生成所需要的數(shù)據(jù)。
【例4.36】在【例4.35】生成的數(shù)據(jù)集名cecus_hous里變量name的內(nèi)容要求前面加上“中國”兩個(gè)字,過濾掉name里的空格,生成數(shù)據(jù)集cescus_hous2。

程序運(yùn)行后輸出窗口顯示c_name列變量前面都加上了“中國”兩個(gè)字,結(jié)果如圖4-19所示。

圖4-19 cescus_hous2數(shù)據(jù)集輸出顯示窗口
- 大數(shù)據(jù)戰(zhàn)爭:人工智能時(shí)代不能不說的事
- Deep Learning Quick Reference
- 精通Windows Vista必讀
- 大數(shù)據(jù)技術(shù)入門(第2版)
- Docker Quick Start Guide
- VB語言程序設(shè)計(jì)
- 21天學(xué)通Visual C++
- Moodle Course Design Best Practices
- 空間站多臂機(jī)器人運(yùn)動(dòng)控制研究
- 單片機(jī)C語言程序設(shè)計(jì)完全自學(xué)手冊
- Visual C++項(xiàng)目開發(fā)案例精粹
- Java組件設(shè)計(jì)
- 貫通Java Web輕量級應(yīng)用開發(fā)
- Generative Adversarial Networks Projects
- 工業(yè)機(jī)器人應(yīng)用系統(tǒng)三維建模