Claude Sonnet 4.5 发布,登顶编程测试,可连续工作超 30 小时
Anthropic 发布 Claude Sonnet 4.5,性能大幅提升。在 SWE-bench Verified 测试中,Claude Sonnet 4.5 登顶业界第一,且能连续专注工作超 30 小时。它可一次性敲出约 1.1 万行代码,构建复杂智能体、操作电脑、推理和数学等能力大幅提升。在 OSWorld 测试中拿下 61.4% 的成绩。
Claude Chrome 插件可像真人一样在浏览器里操作任务。Claude Code 新增「检查点」功能,终端界面翻新,发布原生 VS Code 插件。Claude API 增加上下文编辑功能和记忆工具,代码执行和文件创建整合到对话里。Anthropic 还开放了 Claude Agent SDK,供开发者构建自己的产品。
Claude Sonnet 4.5 定价与 Claude Sonnet 4 一致,每百万 tokens 3/15 美元。网友体验后评价其重构代码库表现优雅但结果无法运行。Cursor 认为其在处理长周期任务时提升明显,Dan Shipper 表示新版本响应速度更快、可控性更强、更稳定。
Claude Sonnet 4.5 是 Anthropic 到目前为止对齐度最高的前沿模型,减少了不良行为,在防御提示注入攻击和减少内容误判方面有重大突破。同时推出「Imagine with Claude」临时研究预览功能,但仅对 Max 订阅用户开放五天。
Anthropic 估值达 1830 亿美元,8 月年化营收 50 亿美元,但面临 OpenAI 和 Google Gemini 的竞争压力。此前 Claude 系列模型曾经历「降智」风波,此次发布 Claude Sonnet 4.5 是为挽回用户,其实际表现还需后续观察。
延伸阅读:
AMD AFMF 3 插帧技术曝光,游戏帧数有望再迎飞跃
IT之家 9 月 30 日消息,科技媒体 TechPowerUp 今天(9 月 30 日)发布博文,报道称在 25.20...
传Verizon(VZ.US)正洽谈收购回声星通信(SATS.US)无线频谱资产
智通财经APP获悉,据知情人士透露,Verizon Communications Inc.(VZ.US)正与回声星通信(...
寒武纪已适配DeepSeek-V3.2-Exp,同步开源推理引擎vLLM-MLU
IT之家 9 月 30 日消息,DeepSeek 昨日正式发布了 DeepSeek-V3.2-Exp 模型,这是一个实验...
OpenAI被曝将推出“AI版TikTok”,所有短视频内容均为AI生成
IT之家 9 月 30 日消息,据《连线》杂志 29 日报道,OpenAI 正计划推出一款独立社交应用,其由即将上线的 ...
美国加州里程碑式 AI 透明度法案生效
IT之家 9 月 30 日消息,作为备受关注的人工智能(AI)透明度法案,美国加州参议院第 53 号法案(SB 53)数...