- 構(gòu)建可靠的機器學(xué)習(xí)系統(tǒng)
- (美)凱茜·陳 (愛爾蘭)尼爾·理查德·墨菲 (美)克蘭蒂·帕里薩 (美)D.斯卡利 (美)托德·安德伍德
- 3072字
- 2025-06-26 18:00:41
2.5 數(shù)據(jù)完整性
有價值的數(shù)據(jù)應(yīng)該被當(dāng)作有價值的來對待。這意味著要尊重起源、安全性和完整性[10]。我們的數(shù)據(jù)管理系統(tǒng)從一開始就需要針對這些屬性進行設(shè)計,以便保證我們能夠提供適當(dāng)?shù)脑L問控制以及數(shù)據(jù)完整性。
數(shù)據(jù)完整性除了安全性和完整性之外,還有另外三個大主題:隱私、政策合規(guī)和公平性。值得花點時間從整體的角度來考慮這些主題。我們需要保證了解這些領(lǐng)域提出的要求,這樣才能確保我們建立的存儲系統(tǒng)和API可以提供所需的各種憑證。
2.5.1 安全性
有價值的機器學(xué)習(xí)數(shù)據(jù)通常從私人數(shù)據(jù)開始。一些組織選擇建立流程來簡單地將所有PII(個人身份信息)排除在數(shù)據(jù)存儲之外。這是一個非常好的方法,原因主要有以下幾個方面。首先它簡化了訪問控制的問題,其次它消除了數(shù)據(jù)刪除請求的操作負(fù)擔(dān)[11]。而且,它還消除了存儲隱私信息帶來的相關(guān)風(fēng)險。正如我們所討論的,準(zhǔn)確來說,數(shù)據(jù)不僅應(yīng)被視為一種資產(chǎn),還應(yīng)被視為一種責(zé)任。
我們可能已經(jīng)成功地從機器學(xué)習(xí)數(shù)據(jù)存儲中排除了PII。但我們也許不應(yīng)該指望這一點,原因有二。一方面,我們可能沒有像我們認(rèn)為的那樣有效地排除PII。正如前面提到的,如果沒有經(jīng)過深思熟慮的分析,識別PII是出了名地困難,所以除非對所有添加到特征庫的數(shù)據(jù)進行仔細(xì)耗時的人工審查,否則在一些數(shù)據(jù)與其他數(shù)據(jù)的組合中極有可能含有PII。另一方面,對于許多組織來說,從數(shù)據(jù)存儲中合理地排除所有的PII也許根本不可行。因此,這些組織有義務(wù)與責(zé)任嚴(yán)格保護其數(shù)據(jù)存儲。
除了對PII的關(guān)注,團隊可能會發(fā)展出對于特定類型數(shù)據(jù)的特殊用途。對數(shù)據(jù)存儲的合理使用將限制最可能需要和使用該數(shù)據(jù)的團隊對某些數(shù)據(jù)的訪問。如果模型開發(fā)者可以很容易地訪問(并且只訪問)他們最有可能用來構(gòu)建模型的數(shù)據(jù),那么對訪問的縝密限制實際上會提高生產(chǎn)力。
在所有情況下,系統(tǒng)工程師都應(yīng)該跟蹤元數(shù)據(jù),了解哪些開發(fā)團隊構(gòu)建了哪些模型,哪些模型依賴于特征庫中的哪些特征,這實際上是一種審計跟蹤。這種元數(shù)據(jù)對于操作和安全性相關(guān)的目的來說,即使不是必需的,也是有用的。
2.5.2 隱私
如果機器學(xué)習(xí)數(shù)據(jù)是關(guān)于個人的,那么存儲系統(tǒng)需要有保護隱私的特性。將數(shù)據(jù)從資產(chǎn)轉(zhuǎn)化為負(fù)債的最快方式之一是泄露客戶或合作伙伴的私人信息。
對于私人數(shù)據(jù)的處理,在架構(gòu)上有兩種方案供我們選擇:消除它或鎖定它。當(dāng)我們在沒有私人數(shù)據(jù)時仍能獲得出色結(jié)果的情況下,消除私人數(shù)據(jù)是一個極其健全的策略。如果我們防止PII數(shù)據(jù)被存儲在數(shù)據(jù)存儲系統(tǒng)中,我們就消除了持有私人數(shù)據(jù)的大部分風(fēng)險。
這可能是十分困難的——不僅因為識別私人數(shù)據(jù)并不總是容易的,而且還因為如果沒有私人數(shù)據(jù),那么不一定能得到很好的結(jié)果。
YarnIt推薦的隱私選項
讓我們考慮一下YarnIt的推薦或發(fā)現(xiàn)系統(tǒng)。一般的想法是,我們希望在客戶訪問 yarnit.ai 網(wǎng)站的不同階段向他們展示其可能有興趣購買的商品。這可能包括他們登錄頁面、他們搜索某種類型的紗線或某種品牌的織針、他們把東西放入購物車,以及他們結(jié)賬等階段。理想情況下,我們會向他們提出其認(rèn)為有吸引力的建議。那么,我們需要哪些信息作為系統(tǒng)的輸入來確定他們可能也會考慮的產(chǎn)品呢?
歷史悠久的方法之一是”購買 X 的人也購買 Y ”。這是有道理的,它允許我們對客戶之間存在共性或同質(zhì)性的大范圍內(nèi)的產(chǎn)品進行合理的推薦。如果每個購買特定類型馬海毛紗線的人也購買特定類型的針,我們現(xiàn)在應(yīng)該可以在沒有任何關(guān)于單個用戶的私人信息的情況下推薦它們。但是,如果我們的客戶中存在一些多樣性,事情就會變得更加有趣。
例如,如果一個客戶對價格的敏感度比其他客戶高得多或低得多怎么辦?如果他們的預(yù)算比典型的馬海毛紗線購買者少得多,他們可能選擇不購買額外的針,或者只購買低于某個價格的針。或者,如果系統(tǒng)知道這個顧客在以前的交易中已經(jīng)購買了這些針,那該怎么辦?在這種情況下,推薦更多的針可能是在浪費屏幕空間和寶貴的注意力。應(yīng)該推薦一些我們更有理由相信顧客實際上會有興趣購買的東西。
然而,要做出這樣的推薦,需要私人數(shù)據(jù)。具體而言,需要個人用戶的購買歷史。有了這些數(shù)據(jù),我們可以很容易地確定某些東西,如大概的預(yù)算和以前購買的物品類型,包括已經(jīng)購買的具體物品。如果我們斷定自己的模型只有通過訪問私人數(shù)據(jù)才能實現(xiàn)目標(biāo),那么我們將需要認(rèn)真討論存儲、使用和最終刪除這些私人數(shù)據(jù)的架構(gòu)。最徹底的結(jié)構(gòu)方法通常需要創(chuàng)建每個用戶的數(shù)據(jù)存儲,這些數(shù)據(jù)存儲在靜止?fàn)顟B(tài)下是加密的,并且通過僅由客戶控制的密鑰解鎖。這在處理其他組織的數(shù)據(jù)時是最常見的,但對于運行自己訓(xùn)練系統(tǒng)的個人來說則不太常見。此外,使用這樣的數(shù)據(jù),需要再加上具有多個用戶數(shù)據(jù)的一般數(shù)據(jù)集來進行聯(lián)邦學(xué)習(xí)——這是一個高級話題,超出了本書的范圍[12]。(參見圖2-5,了解數(shù)據(jù)的類型和訪問控制的含義)。

圖2-5:數(shù)據(jù)在機器學(xué)習(xí)系統(tǒng)中流動時的選擇和處理
鑒于所有這些內(nèi)容的復(fù)雜性,在提取數(shù)據(jù)時對其進行匿名化處理會大大改善,也更容易。如前所述,匿名化的主題在技術(shù)上很復(fù)雜,但每個構(gòu)建機器學(xué)習(xí)系統(tǒng)的人都需要知道以下兩個關(guān)鍵事實:
匿名化是困難的
這是一個正在研究和發(fā)展的主題。不要試圖蒙混過關(guān),應(yīng)認(rèn)真對待并正確處理它。
匿名化與上下文有關(guān)
如果不知道還有什么其他數(shù)據(jù)存在,以及這兩塊數(shù)據(jù)之間的關(guān)系如何,就無法保證能將數(shù)據(jù)匿名化。
匿名化是困難的,但并非完全不可能,如果做得好,它可以避免一系列相關(guān)問題。請注意,要持久地做到這一點,需要定期審查,以確保當(dāng)前的匿名化仍然符合實施時對數(shù)據(jù)和訪問權(quán)限的假設(shè),還需要每次添加新數(shù)據(jù)源時的審查,以確保數(shù)據(jù)源之間的連接不會破壞匿名化。這個主題在第6章會有更廣泛的論述。
2.5.3 政策與合規(guī)
政策與合規(guī)通常來自組織外的要求。在某些情況下,“組織外”實際上是指為YarnIt工作的老板或律師,執(zhí)行某種外部法律要求,但在其他情況下,其便意味著國家政府的直接干預(yù)了。這些需求背后往往有強有力的原因,而在查看需求本身時,這些背后的故事通常并不明顯。
這里有一個煩人但卻有力的示例。歐洲關(guān)于在瀏覽器中發(fā)送cookie的規(guī)定,對于網(wǎng)絡(luò)用戶來說,往往顯得很霸道、很粗暴,或者很愚蠢。網(wǎng)站在用戶的機器上存儲標(biāo)識符應(yīng)該得到明確的同意,這個想法可能看起來沒有必要。但任何了解第三方廣告cookie侵犯隱私的力量的人都可以證明,至少在對cookie的一些限制背后有一個真正強有力的理由。雖然“為每個網(wǎng)站詢問每個用戶”的方法可能不是最優(yōu)雅和可擴展的,但當(dāng)我們知道更多關(guān)于這些cookie被如何使用,以及防止它們的不良使用有多難時,它就更易于理解了。
應(yīng)該認(rèn)真對待數(shù)據(jù)存儲的政策與合規(guī)要求。但如果只看要求或標(biāo)準(zhǔn)的文字而不了解其背后的意圖,那就錯了。通常情況下,簡單的方法也可能是合規(guī)的,整個行業(yè)的顧問都制定了更復(fù)雜的合規(guī)實踐。
如前所述,匿名化是一個潛在的合規(guī)捷徑。如果數(shù)據(jù)需要優(yōu)先特殊處理,可能有一種方法可以避免這些要求,只需確定(和記錄)我們不存儲任何私人數(shù)據(jù)。
關(guān)于政策和治理要求,還有兩件事需要注意:管轄權(quán)和報告。
管轄權(quán)規(guī)則
世界上越來越多的政府主張對存儲在其地理位置或來自其地理位置的數(shù)據(jù)的處理進行控制。雖然這在原則上似乎是合理的,但它與過去幾十年來世界上建立網(wǎng)絡(luò)計算機系統(tǒng)的方式完全不一致。對于一些云計算提供商來說,甚至不可能確保在一個國家產(chǎn)生的數(shù)據(jù)會在該國得到處理。YarnIt計劃在全球范圍內(nèi)銷售,盡管我們可能在開始時只推出幾個支持的國家。所以我們將不得不仔細(xì)考慮需要遵守哪些數(shù)據(jù)存儲和處理的要求。
報告要求
請記住,合規(guī)工作需要報告。在許多情況下,報告可以被整合到我們監(jiān)控服務(wù)的方式中。合規(guī)性要求是SLO(服務(wù)等級目標(biāo)),報告包括建立實現(xiàn)狀態(tài)的SLI(服務(wù)等級指標(biāo)),這些SLI與合規(guī)性SLO有關(guān)。這樣想可以使這項工作與我們需要做的其他可靠性的工作與實踐一起標(biāo)準(zhǔn)化。
- 機器視覺與人工智能應(yīng)用開發(fā)技術(shù)
- 智能算法理論與實踐
- AI源碼解讀:數(shù)字圖像處理案例(Python版)
- 空間智能原理與應(yīng)用
- TensorFlow知識圖譜實戰(zhàn)
- 21世紀(jì)機器人
- 解碼智能時代2021:來自未來的數(shù)智圖譜
- IBM商業(yè)價值報告:認(rèn)知計算與人工智能
- AI會取代我們嗎?(The Big Idea 21世紀(jì)讀本)
- 中國人工智能創(chuàng)新鏈產(chǎn)業(yè)鏈技術(shù)專利發(fā)展研究
- 信息流推薦算法
- 人工智能
- 未來之地
- ChatGPT手冊:初學(xué)者指南與應(yīng)用實戰(zhàn)
- AI速成課:從AI編程到構(gòu)建智能軟件