官术网_书友最值得收藏!

1.2.3 大模型的數(shù)據(jù)泄露問題

早在2020年,谷歌的科學(xué)家就進行了一項關(guān)于從大模型中挖掘隱私問題的研究——“Extracting Training Data from Large Language Models”。在這項研究中,他們以GPT-2為例探討了如何通過數(shù)據(jù)提取攻擊大模型,獲取電話、身份信息、電子郵件地址等敏感數(shù)據(jù)。如圖1-5所示,通過一定的查詢引導(dǎo),可以讓模型泄露出訓(xùn)練數(shù)據(jù)中的敏感信息。

圖1-5 通過提示詞誘導(dǎo)GPT-2輸出隱私信息

然而,在使用RAG系統(tǒng)之后,由于模型組織答案所用到的知識來源于預(yù)先提供的知識庫信息,利用個人私有數(shù)據(jù)不僅可以使模型的答案更具個性化,還能讓整個系統(tǒng)變得更加安全,降低被誘導(dǎo)輸出敏感信息的風(fēng)險。

主站蜘蛛池模板: 行唐县| 香港| 星子县| 吴忠市| 崇文区| 吉木萨尔县| 阳曲县| 永寿县| 广昌县| 文化| 永仁县| 邻水| 泌阳县| 丹寨县| 禹城市| 专栏| 无锡市| 天峻县| 万安县| 宁晋县| 天峨县| 西城区| 绥滨县| 阳东县| 孝昌县| 中西区| 读书| 利辛县| 铜川市| 长葛市| 米易县| 新和县| 河间市| 南投市| 八宿县| 台湾省| 湟中县| 苍溪县| 南充市| 象州县| 英山县|