捕鱼机怎么才能戒掉

書名：聯邦學習實戰
作者名：楊強等
本章字數： 279字
更新時間： 2021-05-19 18:07:05

5.1 數據集的獲取與描述

本節我們使用由威斯康星州臨床科學中心開源的乳腺癌腫瘤數據集（鏈接5-2）來測試橫向聯邦模型，數據集已經內置在sklearn庫中，可以直接加載查看。

執行代碼后顯示前5行的數據如圖5-1所示。可以看到，數據一共由569個樣本構成，每一個樣本數據一共有31列，其中第1～30列表示30維的特征數據，第31列表示標簽數據（用1表示良性腫瘤，0表示惡性腫瘤）。進一步分析，我們會發現數據中只包含了10個屬性，但是每一個屬性值分別以均值（mean）、標準差（standard error）、最差值（worst）出現了三次，所以總共有30個特征。在這569個樣本中，惡性腫瘤樣本有212個，良性腫瘤樣本有357個。

圖5-1 乳腺癌腫瘤數據集示例

官术网_书友最值得收藏!

聯邦學習實戰

5.1 數據集的獲取與描述