当日重点整理
OpenAI推出GPT-5.4系列:首个大一统模型整合推理、编码与智能体,Agent任务成本降47%
GPT-5.4系列(含Thinking和Pro版本)正式登陆ChatGPT、API和Codex,将推理、编码与智能体工作流统一到单一模型中。官方称该模型为最准确且高效的版本,Agent任务成本较前代降低47%。在专业基准上表现突出:OSWorld-Verified(计算机使用)达75.0%成功率超越人类水平,GDPval(专业工作)达83.0%。Arena评测中GPT-5.4-high在文本竞技场与Gemini-3-Pro并列第一。此外原生支持计算机操作(通过Playwright代码操控电脑)和百万级上下文窗口,但长上下文检索性能有所下降。 From ↗
安全研究披露Clinejection攻击链:通过GitHub Issue标题注入提示词操控AI编程工具发布流程
安全研究者披露了针对Cline的提示词注入攻击链Clinejection。攻击者可在GitHub Issue标题中植入恶意提示词,当Cline处理这些Issue时会受到影响,进而可能操控其生产发布流程。这一案例揭示了AI开发工具在供应链安全层面面临的新威胁——当AI编程助手开始自动处理来自外部的数据源时,提示词注入攻击面已从对话场景扩展到整个开发工作流。 From ↗
OpenAI Codex登陆Windows并开源Agent沙盒,用OS级隔离保障任务安全执行
OpenAI Codex应用正式支持Windows平台,同步开源了其原生Agent沙盒实现。该沙盒采用操作系统级控制机制来隔离和约束AI Agent的任务执行环境,而非依赖容器化方案。开源代码已在GitHub发布,供开发者参考和集成。这是OpenAI在Agent安全基础设施层面的重要开放动作,为行业提供了生产级沙盒的参考实现。 From ↗
GPT-5.4同步上线ChatGPT for Excel插件,自然语言驱动建模、公式解释与场景分析
随GPT-5.4同步发布的ChatGPT for Excel插件上线,用户可在Excel内用自然语言直接操控表格——包括创建财务模型、解释复杂公式、运行场景分析等操作,无需掌握函数语法或VBA。这是OpenAI将大模型能力嵌入企业核心生产力工具的又一步,瞄准的是全球数亿Excel用户的日常工作流。 From ↗
Google发布Rust编写的官方Workspace CLI,配套100多个Agent Skills可直接接入AI框架
Google推出官方Workspace CLI工具,用Rust编写,可在终端直接操作Drive、Gmail、日历等全套Workspace服务。更关键的是配套提供了100多个Agent Skills,可直接安装到Claude Code等AI Agent框架中,让AI助手获得操作Google全家桶的原生能力。这意味着开发者可以在命令行或Agent工作流中无缝管理Google工作空间,无需浏览器切换。 From ↗
Anthropic为Skill Creator内置自动化评估流水线,支持A/B对比和触发率优化建议
Anthropic发布Skill Creator重大更新,核心变化是将自动化测试能力内置到技能开发流程中。开发者可为技能定义测试提示词和预期输出,系统自动运行评估、生成测试报告,并支持多版本A/B对比。此外还提供触发率优化建议,帮助开发者提升技能在实际对话中的命中率。这将Agent技能开发从手动试错推向了系统化的持续迭代模式。 From ↗