AI 编码智能体平台化迎来标志性一天。OpenAI 将 Codex 从代码工具扩展为通用工作平台并推出 Codex 专属免费席位,Cursor 发布将自身运行时与 harness 暴露给 CI/CD 与嵌入式智能体的 SDK,Mistral 与 IBM 同日发布稠密 128B 与开源 30B/8B/3B 新模型,harness 工程、推理内核优化与开放科学基础设施同步推进。
编码智能体走向平台化与免费扩张
OpenAI 将 Codex 的能力扩展至研究综述、表格处理、决策追踪等通用知识工作场景,Codex 专属席位免费政策面向 Business 与 Enterprise 客户,6 月底前免收席位费。Codex 还接入 Supabase 集成与 Figma 插件,可将实施计划转化为 FigJam 看板。社区反馈显示,使用场景从纯编码扩展至跨工作区语义索引、会话洞察与 agent 评估等协作场景。
性能优化的重心从模型延迟转向 agent 循环的系统工程。将 Codex 工作流迁移到 Responses API 的 WebSocket 模式后,跨工具调用的状态保持使智能体工作流速度提升 40%。VS Code 同期上线跨工作区语义索引、跨仓库搜索、会话洞察与 prompt/agent 评估扩展,Cursor 推出 Cursor SDK,将 IDE 内的运行时、harness 与模型暴露给 CI/CD、自动化与产品内嵌智能体使用。Cursor SDK 原始推文明确了这一产品战略转变。
Harness 工程成为 AI 编码智能体一等优化层
Agentic Harness Engineering 论文线程通过可回滚组件、压缩执行证据与可证伪预测让 harness 演进可观测,10 轮迭代将 Terminal-Bench 2 的 pass@1 从 69.7% 提升至 77.0%,超过人工设计的 Codex-CLI 基线 71.9%,并在 SWE-bench Verified 上降低 12% 的 token 使用。HALO 自改进 agent 研究则提出基于轨迹分析的递归自改进 agent,在 Sonnet 4.6 上将 AppWorld 分数从 73.7 提升至 89.5。HALO 原始推文展示了这一方法的有效性。
LangChain 的 Deep Agents 推出 Harness Profiles 配置体系,按模型版本管理 prompt、工具与 middleware,内置 OpenAI、Anthropic、Google 模型的预设;同时推出 DeepAgents Deploy 低代码部署路径并接入 LangSmith 追踪。Cloudflare 推进 agent 即软件栈,让智能体可作为 Cloudflare 客户独立创建账户、注册域名、订阅付费计划与获取部署 token,将业务工作流直接暴露给智能体而非将其视为被动副驾驶。
开源模型与定价压力:Mistral、Granite 4.1、Ling-2.6
Mistral Medium 3.5 模型主页显示该模型定位稠密 128B,可在约 64GB 内存上以量化形式本地运行,但 128K 上下文与定价相对中国开源 MoE 模型受到批评。IBM Granite 4.1 推出 30B/8B/3B 三款 Apache 2.0 开源模型,其中 Granite 4.1 8B 在 Artificial Analysis Intelligence Index 上仅消耗 4M 输出 token,对比 Qwen3.5 9B 的 78M,AA Openness Index 得分 61,定位企业与边缘部署。Granite 4.1 推文强调了模型在成本与透明度上的优势。
蚂蚁开源的 Ling-2.6-flash 约 107B MoE,MIT 许可证,SWE-bench Verified 61.2;Ling-2.6-1T 同步获得 vLLM day-0 支持。腾讯混元开源 Hy-MT1.5 翻译模型,440MB,覆盖 33 种语言、1056 个翻译方向,通过 1.25-bit 量化在标准 MT benchmark 上对标商业 API 与 235B 级模型。腾讯混元推文展示了量化技术的突破。
推理内核与系统协同设计:FlashQLA、vLLM、GLM-5
阿里发布 FlashQLA 内核技术线程,基于 TileLang 的高性能线性注意力内核,前向加速 2-3 倍、反向加速 2 倍,针对小模型、长上下文与张量并行场景,明确面向个人设备的智能体应用。FlashQLA 原始推文详细说明了内核设计细节。vLLM 在 Blackwell 上的吞吐报告显示,DeepSeek V3.2 取得 230 tok/s 的 #1 输出速度与 0.96s TTFT,结合 NVFP4 量化、EAGLE3 + MTP 投机解码与逐模型内核融合。vLLM 推文提供了具体性能数据。
智谱发布 GLM-5 服务化复盘,详述 KV 缓存竞态、HiCache 同步问题与 LayerSplit 优化,长上下文编码 agent 服务的 prefill 吞吐最高提升 132%。社区讨论显示,推理优化正在从纯模型层向系统协同设计演进,GPU 库性能表现出显著的路径依赖性,如 torch.linalg.solve_ex 在不同矩阵尺寸间出现 10 倍性能差异。
研究与科学基础设施:知识探针、Odysseys、Hugging Science
Incompressible Knowledge Probes 研究在 1400 道事实题、188 个模型、27 家厂商上拟合出参数量与事实知识准确率的对数线性关系(开源权重模型 R² = 0.917),并据此估算闭源模型规模。这一研究提示黑盒评估仍会泄露架构尺度信息。Odysseys benchmark 公告引入 200 项长程联网任务与轨迹效率指标,最佳模型成功率仅 44.5%,效率 1.15%,反映了长程联网任务评估体系的成熟度。
Hugging Face 推出 Hugging Science 开放科学聚合区,包含 78GB 基因组、11TB PDE 模拟、100M 细胞图谱、9T DNA 碱基对等。Anthropic 发布 BioMysteryBench 基准测试,报告近期 Claude 模型可解决约 30% 难倒专家的生物数据分析问题。Vista4D 引入视频 reshooting 技术,Sakana 的 KAME 提出 speak while thinking 架构用于语音系统。
从平台化、harness 工程到开源模型与推理优化,AI 编码智能体平台化的整体节奏指向智能体应用进入产品化与规模化阶段。模型能力之外的 harness 工程 + 推理基础设施 + 商业化定价三层叠加,正在成为决定下一阶段竞争格局的关键。