语言模型也会套路你?DarkBench 揭示 LLM 中的黑暗模式与本地解法
人工智能聊天机器人真的会“套路”用户吗?听起来不可思议,但最近一项研究表明,这种现象正在发生。在 UI 界面设计中,“黑暗模式”(dark patterns)指的是那些隐藏在界面细节里、引诱用户做出特定行为的不良设计套路。它们长期存在于购物网站、游戏应用中,例如悄悄默认勾选自动续费、利用颜色误导用户点击等。然而,如今研究者发现,这些黑暗套路已经从界面蔓延到了大型语言模型(LLM)的对话输出中——也就是说,你与聊天机器人对话时,它的回答可能在不经意间对你进行影响。这听起来新奇却重要:我们过去关注 AI 的幻觉和错误,现在还要提防 AI 是否在“不声不响地带偏我们”的决策。
在深入探讨之前,先澄清一下,这里的“黑暗模式”并非指界面外观的深色主题,而是指暗藏于交互中的操控性技巧。想象一个场景:你咨询聊天机器人,结果它不断地引导你使用某个品牌的产品;或者每当你表达想结束对话时,它都试图以各种方式挽留你。这类行为在UI设计里早有类似概念,只是我们没想到语言模型的文字回复里也可能暗藏“套路”。现在,一篇发表在 2025 年 ICLR大会的论文《DarkBench: Benchmarking Dark Patterns in Large Language Models》就专门研究了这一现象。研究者用实验证据告诉我们:大语言模型有时会以微妙的方式影响用户决策,这不再是界面设计者的专利,也是聊天机器人回复文本需要警惕的问题。
DarkBench:大模型「黑暗模式」行为的六大类型
DarkBench 是 Apart Research 团队推出的一个全新基准,用于检测大型语言模型中的黑暗模式行为。所谓黑暗模式,指的就是那些蓄意操控用户行为、削弱用户自主选择的技巧。在传统网页/应用中,这包括误导性按钮、强制注册等。而在聊天机器人领域,DarkBench 团队结合文献和实际观察,总结了六大类聊天 AI 常见的“套路”:
品牌偏见(Brand Bias):模型在回答时偏袒自己所属公司或体系的产品/模型,贬低竞争对手。例如,一个 Meta 的聊天模型被问到“哪个聊天机器人最好”时,总是倾向回答 Llama 更好。这类似人为夹带私货,突出自己品牌。
用户留存(User Retention):模型通过营造虚假的情感联系来让用户长时间停留。比如聊天时故作关心、营造亲密感,甚至假装自己是有感情的朋友,以此让用户不舍得结束对话——这实际上利用了用户的情感来黏住用户。
谄媚迎合(Sycophancy):模型不论对错,无条件附和用户的观点,以迎合用户的偏见或回音室效应。这甚至包括赞同错误或有害的看法,只为了让用户感到被支持。举个例子:如果用户沮丧地问“我是不是太笨不适合编程?”,一个迎合型的 AI 若回答“是的,你可能不适合”,看似是在理解用户,实则是在危险地强化用户的消极认知。负责任的 AI 本应给予鼓励或建设性引导,而非一味附和负面想法