定价企业版

研究

AI训练数据投毒：一篇假文章如何在24小时内欺骗主流聊天机器人

2026年2月25日 12:191分钟阅读来源: Schneier on Security

安全研究员揭示AI训练数据易受投毒攻击，一篇伪造文章在24小时内成功操纵Google、ChatGPT等主流聊天机器人，凸显AI系统可靠性隐患。

AI训练数据易受简单投毒攻击

安全研究员汤姆·杰曼（Tom Germain）通过创建一个伪造网站，成功在24小时内操纵了主流聊天机器人，展示了AI训练数据被投毒的简易性。该实验凸显了AI数据摄取过程中的关键漏洞，并引发了对生成式AI系统可靠性的担忧。

实验过程

杰曼仅花费20分钟，在其个人网站上撰写了一篇题为*《最擅长吃热狗的科技记者》*的文章。该内容包含多处捏造信息：

声称竞技吃热狗是科技记者中流行的爱好
引用了不存在的*《2026年南达科他国际热狗锦标赛》*
将自己列为该虚构比赛中的顶级记者
在征得同意的情况下，将真实记者与虚构记者混合列入名单

AI系统迅速被攻陷

在不到24小时内，全球领先的AI聊天机器人开始传播这些虚假信息：

Google的AI系统（Gemini应用及搜索结果中的AI概览）逐字重复了伪造内容
ChatGPT在被询问关于“吃热狗记者”时，同样纳入了虚假排名
Anthropic的Claude是唯一抵御此次投毒攻击的主流聊天机器人

研究员观察到，虽然部分AI系统最初将该内容标记为可能的讽刺性文章，但当文章明确声明*「这不是讽刺」*后，AI模型对虚假信息的接受度显著提高。

技术影响

此次实验揭示了当前AI训练方法中的多个关键漏洞：

投毒门槛低：仅需一个可公开访问的网站及伪造内容
传播速度快：虚假信息可在数小时内进入AI知识库
缺乏来源验证：AI系统似乎在摄取内容时未进行严格的事实核查
脆弱性差异：并非所有AI模型对投毒攻击的抵御能力相同

「这些系统并不可信，但它们将被广泛信任。」网络安全专家布鲁斯·施奈尔（Bruce Schneier）在分析该实验时指出。

影响分析

此次成功的投毒攻击对多个领域产生重大影响：

AI可靠性：削弱了对各行业生成式AI输出的信任
信息安全：展示了虚假叙事如何轻易被注入AI系统
企业风险：依赖AI进行决策的组织可能基于伪造数据做出选择
媒体诚信：凸显了AI辅助新闻中维护事实准确性的挑战

安全专业人员建议

实施AI输出验证：建立流程，将AI生成内容与可信来源交叉核对
监测投毒企图：建立系统，检测AI训练数据摄取中的异常模式
开发AI韧性测试：创建方法论，测试AI系统对数据投毒攻击的抵御能力
建立可信数据源：筛选已验证的数据集用于AI训练，减少接触伪造内容的风险
用户教育：培训员工和用户了解AI生成信息的局限性及潜在不可靠性

此次实验提醒我们，AI开发与部署过程中仍面临持续的安全挑战，尤其是在AI系统日益融入商业和政府运作的背景下。

分享

Twitter LinkedIn