5.1 數據集的獲取與描述
本節我們使用由威斯康星州臨床科學中心開源的乳腺癌腫瘤數據集(鏈接5-2)來測試橫向聯邦模型,數據集已經內置在sklearn庫中,可以直接加載查看。

執行代碼后顯示前5行的數據如圖5-1所示。可以看到,數據一共由569個樣本構成,每一個樣本數據一共有31列,其中第1~30列表示30維的特征數據,第31列表示標簽數據(用1表示良性腫瘤,0表示惡性腫瘤)。進一步分析,我們會發現數據中只包含了10個屬性,但是每一個屬性值分別以均值(mean)、標準差(standard error)、最差值(worst)出現了三次,所以總共有30個特征。在這569個樣本中,惡性腫瘤樣本有212個,良性腫瘤樣本有357個。

圖5-1 乳腺癌腫瘤數據集示例