官术网_书友最值得收藏!

5.1 數據集的獲取與描述

本節我們使用由威斯康星州臨床科學中心開源的乳腺癌腫瘤數據集(鏈接5-2)來測試橫向聯邦模型,數據集已經內置在sklearn庫中,可以直接加載查看。

執行代碼后顯示前5行的數據如圖5-1所示。可以看到,數據一共由569個樣本構成,每一個樣本數據一共有31列,其中第1~30列表示30維的特征數據,第31列表示標簽數據(用1表示良性腫瘤,0表示惡性腫瘤)。進一步分析,我們會發現數據中只包含了10個屬性,但是每一個屬性值分別以均值(mean)、標準差(standard error)、最差值(worst)出現了三次,所以總共有30個特征。在這569個樣本中,惡性腫瘤樣本有212個,良性腫瘤樣本有357個。

圖5-1 乳腺癌腫瘤數據集示例

主站蜘蛛池模板: 古丈县| 阿瓦提县| 鲜城| 绥宁县| 霍邱县| 故城县| 衡水市| 额敏县| 班戈县| 时尚| 玉林市| 凉城县| 河源市| 沧州市| 绿春县| 察隅县| 津南区| 承德市| 龙川县| 牡丹江市| 泸水县| 新乐市| 建德市| 凉城县| 恩施市| 斗六市| 大理市| 乌什县| 莲花县| 中山市| 藁城市| 水城县| 昭苏县| 广河县| 岳池县| 洛隆县| 肃宁县| 德格县| 织金县| 南华县| 泰宁县|