官术网_书友最值得收藏!

1.3.3 選擇錯誤目標

在選擇目標時,人們可能無意中或出于惡意選擇了錯誤的方向。要從人群中挑選出具有代表性并能提供高質量反饋的個體是困難的。實施大規模RLHF(基于人類反饋的強化學習)時,需要精心挑選和指導參與的人類評估者,但這可能導致樣本偏差問題。

研究指出,在應用RLHF后,大模型在政治傾向上會系統性地偏離中立。盡管這種偏見的確切原因尚不清楚,但數據收集過程表明評估者的選擇與研究員的判斷相一致,這暗示了在偏好數據收集過程中存在明顯的選擇效應。不同大模型所招募的評估者的構成與一般人口結構存在差異。例如,OpenAI報告其初始的評估者群體中約50%來自菲律賓和孟加拉國,年齡為25~34歲,而Anthropic則稱其評估者中有68%為白人。這些評估者的人口統計特征可能會帶來難以預測的潛在偏見,進而在模型訓練過程中被放大。

一些評估者會持有有害的偏見和觀點。由于人類的看法并非總是理想化和道德化的,這個問題可能會因RLHF訓練的大模型引入了評估者的偏見而進一步惡化。通常通過與人類互動來收集反饋,如果評估者試圖破壞模型,可能會帶來嚴重后果。同時,研究已經表明,使用少量示例對指令進行“投毒”的攻擊是能夠成功的。

主站蜘蛛池模板: 岗巴县| 玉林市| 开化县| 宝鸡市| 闵行区| 连江县| 辽宁省| 汝阳县| 汝南县| 南开区| 呼和浩特市| 张家口市| 搜索| 武宣县| 明光市| 华安县| 岑溪市| 江油市| 湖州市| 深州市| 凤翔县| 上林县| 页游| 乐山市| 姚安县| 昌黎县| 元谋县| 鄱阳县| 博白县| 德化县| 怀柔区| 德安县| 卢氏县| 靖西县| 环江| 迁西县| 涡阳县| 湖南省| 新宁县| 辛集市| 洛阳市|