- 工業大數據分析算法實戰
- 田春華
- 283字
- 2023-05-06 17:52:32
2.1 數據操作基礎
數據框(Data Frame)是機器學習中用得最多的一種數據結構,數據框由多行多列組成,每列是同一種數據類型,但不同列的數據類型可以不同(與矩陣類型的區別),類似JDBC編程中數據集對象RecordSet。機器學習很多算法和數據預處理函數都是圍繞Data Frame展開,R語言和Python Pandas有深入的支持,就如同MATLAB等科學計算軟件以向量/矩陣為中心。在R語言中,既支持向量、矩陣、字符串、列表(List)等常見數據類型,也提供了因子(Factor)數據類型,解決名義變量(例如性別)和有序變量(例如報警等級)在機器學習中的特別處理要求,例如,因子量不能像連續變量那樣參與四則運算,在存儲效率上Factor比原始的變量類型(特別是字符串)更高。
推薦閱讀
- SQL Server入門經典
- Python金融實戰
- 數據庫技術實用教程
- 新基建:數據中心創新之路
- 企業級容器云架構開發指南
- SQL Server 2012數據庫管理教程
- 大數據分析:數據倉庫項目實戰
- Augmented Reality using Appcelerator Titanium Starter
- 爬蟲實戰:從數據到產品
- Oracle 11g+ASP.NET數據庫系統開發案例教程
- 實現領域驅動設計
- Hands-On System Programming with C++
- Google Cloud Platform for Architects
- 數據之美:一本書學會可視化設計
- 標簽類目體系:面向業務的數據資產設計方法論