- 大模型應用開發:核心技術與領域實踐
- 于俊 劉淇 程禮磊 程明月
- 473字
- 2025-02-10 15:44:15
1.3.3 選擇錯誤目標
在選擇目標時,人們可能無意中或出于惡意選擇了錯誤的方向。要從人群中挑選出具有代表性并能提供高質量反饋的個體是困難的。實施大規模RLHF(基于人類反饋的強化學習)時,需要精心挑選和指導參與的人類評估者,但這可能導致樣本偏差問題。
研究指出,在應用RLHF后,大模型在政治傾向上會系統性地偏離中立。盡管這種偏見的確切原因尚不清楚,但數據收集過程表明評估者的選擇與研究員的判斷相一致,這暗示了在偏好數據收集過程中存在明顯的選擇效應。不同大模型所招募的評估者的構成與一般人口結構存在差異。例如,OpenAI報告其初始的評估者群體中約50%來自菲律賓和孟加拉國,年齡為25~34歲,而Anthropic則稱其評估者中有68%為白人。這些評估者的人口統計特征可能會帶來難以預測的潛在偏見,進而在模型訓練過程中被放大。
一些評估者會持有有害的偏見和觀點。由于人類的看法并非總是理想化和道德化的,這個問題可能會因RLHF訓練的大模型引入了評估者的偏見而進一步惡化。通常通過與人類互動來收集反饋,如果評估者試圖破壞模型,可能會帶來嚴重后果。同時,研究已經表明,使用少量示例對指令進行“投毒”的攻擊是能夠成功的。