- 大數據分析處理(慕課版)
- 郭永洪 賀萌主編
- 1359字
- 2024-04-23 17:42:56
任務實現
任務1.1 根據業務需求選擇合適的大數據分析技術
本任務的主要內容:
●對大數據分析案例進行業務需求分析;
●為大數據分析案例選擇合適的大數據分析技術。
1.1.1 業務需求分析
在前面的相關知識中,我們介紹了大數據分析的概念、發展過程、應用場景、流程等。那么,當我們在現實中遇到需要使用大數據分析技術來進行分析、得出結論、給出建議的案例時,我們應該怎么做呢?
國內某電信運營商,業務覆蓋全國,客戶量極其龐大。但這些年來,隨著其他運營商的發展,移動通信業務競爭非常激烈,該運營商的客戶也出現了嚴重的流失。是什么因素導致客戶流失呢?怎么做才能減少這樣的流失?這是該運營商目前亟待解決的問題。
那么,我們就來討論一下,類似這樣的對運營商客戶流失因素進行分析的案例應該如何解決。
運營商客戶流失因素,一定會涉及多個方面,我們拿到一份關于運營商客戶的數據,其中包括以下特征:
●信用等級;
●VIP等級;
●本月話費;
●通話時長;
●通話次數;
●短信發送數;
●上網流量;
●性別;
●年齡。
接下來,我們需要做以下工作:
(1)數據導入;
(2)數據探索與預處理;
(3)數據特征分析;
(4)數據分析與建模;
(5)模型評估;
(6)分析結果的可視化展示。
要想完成這些工作,我們需要選擇哪些大數據分析技術呢?
1.1.2 選擇大數據分析技術
隨著大數據分析技術的發展,大數據分析工具也層出不窮。正如前面相關知識中所講到的,從傳統的統計分析軟件,到大數據分析編程語言,再到大數據可視化分析工具,大數據分析工具的使用越來越方便,分析結果的展示方式也越來越多樣化。
在本次任務一開始,我們就提出了關于運營商客戶流失因素分析的案例,在1.1.1小節我們已經提出了該案例的業務需求。那么應該為這個案例選擇什么樣的大數據分析技術呢?
在當今大數據及人工智能領域中,Python語言憑借自身的優勢脫穎而出,成為使用非常廣泛的程序設計語言。說到Python,就不得不提創造這個語言的人,也就是被稱為Python之父的吉多·范羅蘇姆。1989年,范羅蘇姆為了打發時間,決心開發一個新的腳本解釋程序,作為ABC語言的一種繼承。Python這個單詞的意思是蟒蛇,所以它的logo是由兩條蟒蛇組成的,如圖1-4所示。

圖1-4 Python的logo
Python具有以下特點。
第一,開源。Python是一種開源編程語言,使用基于社區的模型開發。它可以在Windows和Linux平臺中運行。除此之外,也可以將其移植到其他平臺,因為它支持多個平臺。
第二,速度快。Python是一種高級語言,它契合原型設計思想,開發者可以使用它快速編碼,同時保持代碼與執行過程之間的高度透明性。由于這種透明性,代碼的維護以及將其添加到多用戶開發環境中的代碼庫變得容易。
第三,支持多種數據處理。Python提供了對文本、圖像和多媒體數據的高級支持,它支持對非結構化數據和非常規數據的數據處理,這是分析社交媒體數據時的常見大數據需求。這是Python能夠與大數據分析相結合的另一個原因。
第四,也是非常重要的一點,就是Python語言支持多種庫。Python廣泛應用于各個行業領域的科學計算,它包含大量經過良好測試的第三方庫,主要包括以下幾類:
(1)數值計算;
(2)數據預處理;
(3)統計分析;
(4)機器學習;
(5)可視化。
這些第三方庫里面有很多函數,完全可以用來解決運營商客戶流失因素分析案例中需要解決的問題。因此,在本教材中,我們將使用Python語言的庫來完成每一個任務。那么使用Python語言的庫需要哪些準備呢?在任務1.2中,我們將詳細地進行介紹。