Claude 4.5 刚刚发布,能连肝 30 多个小时,史上最卷 AI 诞生
论卷编程,还得看 Claude。
就在刚刚,Anthropic 正式发布 Claude Sonnet 4.5。
先说 Claude Sonnet 4.5 交出的成绩单,在考察真实编程水平的 SWE-bench Verified 测试里,Claude Sonnet 4.5 直接登顶业界第一。
更离谱的是,它能连续专注干活超过 30 小时。
好好好,AI 取代人类的优势又 +1 了。
比如让它写个类似 Slack 或 Teams 的聊天应用,它能一口气敲出大约 1.1 万行代码。相比之下,之前的 Claude Opus 4 和 Codex,最多也就能独立工作七小时。
用 Anthropic 的话来说,Claude Sonnet 4.5 现在就是全球最强编程模型——构建复杂智能体、操作电脑、推理和数学,各项能力都狠狠提升了一波。
比方说,在 OSWorld 这个专门测试真实计算机任务的基准里,它拿下了 61.4% 的成绩,直接第一。要知道,四个月前 Sonnet 4 还以 42.2% 的成绩遥遥领先,这才多久性能就又往上抬了一大截。
而 Anthropic 的 Claude Chrome 插件甚至能直接在浏览器里自己导航网站、填表格、处理任务,像个真人在操作似的。推理、金融这些测评项目上也都更强了,各项指标都在往上涨。
有了这么强的能力,Anthropic 这次自然不会只发个模型就完事。
具体来看:
Claude Code加了「检查点」功能,能随时保存进度,想回退到之前某个状态一键搞定终端界面翻新,还发布了原生 VS Code 插件Claude API 增加了上下文编辑功能和记忆工具代码执行和文件创建现在直接整合到对话里
甚至,Anthropic 把自己内部用来搭建 Claude Code 的底层基础设施也开放出来了,叫 Claude Agent SDK。
智能体怎么在长时间任务里管理记忆、怎么设计权限系统让自主性和用户控制找到平衡点、怎么让多个子智能体配合着完成目标,这些都是构建和设计 AI 智能体的棘手问题。
而借助 Claude Agent SDK,现在你也能拿去构建自己的产品。
今天起,开发者还可以通过 Claude API 调用 claude-sonnet-4-5。定价还是跟 Claude Sonnet 4 一样,每百万 tokens $3/$15,价格没变能力更强。
网友 @vasumanmoza 体验完直接发帖:
「Claude 4.5 Sonnet 刚在一次调用里重构了我整个代码库,25 次工具调用,新增 3000 多行代码,生成了 12 个全新文件。它把所有东西都模块化了,拆掉了巨石式结构,清理了意大利面条式代码。结果完全跑不通,但天啊真的很优雅。」这评价,属于又爱又恨那种。
Cursor 表示,在 Claude Sonnet 4.5 上看到了最前沿的编程性能,尤其处理长周期任务时提升明显。这也再次说明为什么很多 Cursor 用户会选 Claude 来解决最复杂的问题。
知名测评博主 Dan Shipper 则表示,新版 Sonnet 4.5 在使用体验上响应速度更快,可控性更强,也更稳定。
性能强是一方面,安全性也得跟上。
据介绍,Claude Sonnet 4.5 也是 Anthropic 到目前为止对齐度最高的前沿模型。
靠着 Claude 更强的能力加上完善的安全训练,Anthropic 在模型行为上取得了显著改进,减少了阿谀奉承、欺骗、权力追求、鼓励妄想等行为。此外,Anthropic 在防御提示注入攻击和减少内容误判这块也有了重大突破。
比较让我感兴趣的是,Anthropic 还在 Claude Sonnet 4.5 发布的同时推出了个临时研究预览功能,叫「Imagine with Claude」。
在这个功能里,Claude 会实时生成软件,所有功能不是预设的,所有代码也不是提前写好的。你看到的一切都是 Claude 跟你互动时当场创造和调整出来的。
不过,「Imagine with Claude」接下来五天内只会对 Max 订阅用户开放。
附上传送门 claude.ai/imagine。
毫无疑问,今年的 AI 赛道依旧是卷编程的一年。
目前 Anthropic 估值已经到了 1830 亿美元,8 月还实现了年化营收 50 亿美元,但这其中相当一部分增长靠着来自编程软件的普及。问题是,老对手 OpenAI 和 Google Gemini 也在疯狂推类似工具抢程序员用户。
甚至一周之后就是 OpenAI 年度开发者大会,Anthropic 这个时候抢先发布 Claude Sonnet 4.5,时间卡得够精准,明摆着就是要给对手上一波压力。
此外,Anthropic 联合创始人兼首席科学官 Jared Kaplan 还表示,更先进的 Opus 模型,预计今年晚些时候推出:「Anthropic 在大小模型的使用上都能占优势。」
不过有一说一,Anthropic 自己眼下也有麻烦要解决。
过去两个月,Claude 系列模型刚经历了一场「降智」风波。用户普遍反映模型推理、代码、格式和工具调用质量断崖式下滑,连付费的 Max 用户都没能幸免。
虽然 Anthropic 后来紧急回滚了 Opus 4.1 更新,还承认了两个独立 Bug,声明「绝非为省成本故意降智」,但由于没提供补偿或退款,GitHub 和 X 等平台上还是出现了退订潮,不少用户直接转投 Codex。
这次 Claude Sonnet 4.5 的发布,显然就是 Anthropic 想用实打实的性能提升来挽回流失的用户。至于能不能成功,就看接下来几周的实际表现了。
在数贸会,看见未来生活模样
延伸阅读:
AMD AFMF 3 插帧技术曝光,游戏帧数有望再迎飞跃
IT之家 9 月 30 日消息,科技媒体 TechPowerUp 今天(9 月 30 日)发布博文,报道称在 25.20...
传Verizon(VZ.US)正洽谈收购回声星通信(SATS.US)无线频谱资产
智通财经APP获悉,据知情人士透露,Verizon Communications Inc.(VZ.US)正与回声星通信(...
寒武纪已适配DeepSeek-V3.2-Exp,同步开源推理引擎vLLM-MLU
IT之家 9 月 30 日消息,DeepSeek 昨日正式发布了 DeepSeek-V3.2-Exp 模型,这是一个实验...
OpenAI被曝将推出“AI版TikTok”,所有短视频内容均为AI生成
IT之家 9 月 30 日消息,据《连线》杂志 29 日报道,OpenAI 正计划推出一款独立社交应用,其由即将上线的 ...
美国加州里程碑式 AI 透明度法案生效
IT之家 9 月 30 日消息,作为备受关注的人工智能(AI)透明度法案,美国加州参议院第 53 号法案(SB 53)数...