官术网_书友最值得收藏!

2.1 數據操作基礎

數據框(Data Frame)是機器學習中用得最多的一種數據結構,數據框由多行多列組成,每列是同一種數據類型,但不同列的數據類型可以不同(與矩陣類型的區別),類似JDBC編程中數據集對象RecordSet。機器學習很多算法和數據預處理函數都是圍繞Data Frame展開,R語言和Python Pandas有深入的支持,就如同MATLAB等科學計算軟件以向量/矩陣為中心。在R語言中,既支持向量、矩陣、字符串、列表(List)等常見數據類型,也提供了因子(Factor)數據類型,解決名義變量(例如性別)和有序變量(例如報警等級)在機器學習中的特別處理要求,例如,因子量不能像連續變量那樣參與四則運算,在存儲效率上Factor比原始的變量類型(特別是字符串)更高。

主站蜘蛛池模板: 礼泉县| 宝坻区| 蛟河市| 红桥区| 绵竹市| 平陆县| 双牌县| 阿鲁科尔沁旗| 哈密市| 庆城县| 广宗县| 武安市| 哈巴河县| 眉山市| 仪陇县| 大竹县| 漠河县| 米林县| 清新县| 政和县| 洛南县| 蒙山县| 冀州市| 阿坝县| 专栏| 南康市| 中西区| 兴城市| 浠水县| 永德县| 洛川县| 正蓝旗| 潜江市| 海口市| 临沂市| 阳东县| 会理县| 绵阳市| 泸溪县| 罗江县| 台前县|