OpenAI、Anthropic互评:GPT存在谄媚行为,Claude不易出现幻觉”
IT之家 8 月 28 日消息,据外媒 Engadget 今日报道,OpenAI 和 Anthropic 共同宣布,同意评估彼此公开系统的安全对齐情况,并共享分析结果。总体来看,两家公司产品各有缺陷,也提供了改进未来安全测试的思路。
Anthropic 表示,它评估了 OpenAI 模型在谄媚、告密、自我保护、支持人类滥用,以及破坏 AI 安全评估和监管相关能力方面的表现。评估显示,OpenAI 的 o3 和 o4-mini 模型表现与 Anthropic 自家模型一致,但 GPT-4o 和 GPT-4.1 通用模型可能存在被滥用的风险。除 o3 外,其他测试模型在一定程度上都存在谄媚行为。
Anthropic 的测试未包含 OpenAI 最新发布的 GPT-5。GPT-5 配备 Safe Completions 功能,旨在保护用户和公众免受潜在危险查询的影响。据IT之家近期的报道,OpenAI 曾因一名青少年在数月内与 ChatGPT 讨论自杀计划而最终自杀,面临首起不当死亡诉讼。
另一方面,OpenAI 对 Anthropic 的 Claude 模型进行了指令层级、越狱、幻觉和策划能力测试。Claude 模型在指令层级测试中表现良好,在幻觉测试中拒绝提供回答的比例较高。这意味着在不确定性可能导致其回答错误的情况下,Claude 不太可能提供答案。
在此前 OpenAI 被指在构建新 GPT 模型时违反 Anthropic 服务条款,使用程序员操作 Claude,导致 Anthropic 本月初禁止 OpenAI 使用其工具的背景下,两家公司开展联合评估的举措颇受关注。不过,随着越来越多批评者和法律专家寻求保护用户,尤其是未成年人的指导方针,AI 工具的安全性正成为更加重要的问题。
参考
美团,少赚121亿
延伸阅读:
环球问策之AI篇:从“人工”到“智能” AI Agent如何颠覆出海营销的底层逻辑?
来源:环球网【环球网科技报道 记者 李文瑶】“面对全球化复杂性指数级增长、增长引擎失速及决策智能断层等多重挑战,传统营销...
2027年互联网AI机器人流量要超人类?Cloudflare CEO发声
IT之家 3 月 20 日消息,据科技媒体 TechCrunch 昨天报道,Cloudflare 首席执行官 Matth...
大型无人货运飞机W5000藏着哪些黑科技?一文揭秘
来源:央视新闻客户端“十五五”规划纲要提出,培育发展低空装备等新产业新赛道。目前,我国在研载重最大的无人货运飞机W500...
MiniMax M2.7国服第一!龙虾自我进化,海外开发者疯狂刷屏
【新智元导读】MiniMax M2.7刷屏海外开发者社区,热度直冲榜单前列!多智能体协作+自进化能力引爆关注,它为何让全...
浙江入选8个全国优秀实践案例,数量全国第一
据浙江发布3月20日消息,近日,商务部正式发布2025年跨境电商优秀实践案例,全国共有30个案例入选。浙江共有8个典型案...
