- 機器學習系統:設計和實現
- 麥絡 董豪編著
- 319字
- 2024-12-27 20:30:17
2.2.2 數據處理
配置好運行信息后,首先討論數據處理API的設計。這些API提供了大量Python函數,支持用戶用一行命令即可讀入常見的訓練數據集,如MNIST(Mixed National Institute of Standards and Technology Database)、CIFAR(Canadian Institute For Advanced Research)、COCO(Microsoft Common Objects in Context)等。在加載之前需要下載數據集存放在./datasets/MNIST_Data路徑中;MindSpore提供了用于數據處理的API模塊mindspore.dataset,用于存儲樣本和標簽。在加載數據集前,通常會對數據集進行一些處理,mindspore.dataset也集成了常見的數據處理方法。代碼2.2讀取了MNIST的訓練數據,其包含大小為28×28的6萬張圖片,返回DataSet對象。
代碼2.2 讀取MNIST訓練數據

有了DataSet對象后,通常需要對數據進行增強,常用的數據增強包括翻轉、旋轉、剪裁、縮放等;在MindSpore中使用map映射函數將數據增強的操作映射到數據集中,之后進行打亂(Shuffle)和批處理(Batch),如代碼2.3所示。
代碼2.3 數據處理

推薦閱讀
- C++ Primer習題集(第5版)
- ASP.NET Core 2 and Vue.js
- oreilly精品圖書:軟件開發者路線圖叢書(共8冊)
- PHP網絡編程學習筆記
- RSpec Essentials
- Statistical Application Development with R and Python(Second Edition)
- Node.js 12實戰
- Scratch·愛編程的藝術家
- R的極客理想:量化投資篇
- Building Clouds with Windows Azure Pack
- Mastering Unity 2017 Game Development with C#(Second Edition)
- 打造流暢的Android App
- 流程讓管理更高效:流程管理全套方案制作、設計與優化
- ASP.NET開發技巧精講
- 零基礎Linux從入門到精通