数据来自 AI HOT 过去 24 小时精选动态,本文在原始资讯基础上补充趋势点评、落地建议,并同步更新到本站「AI 资讯播客」。

今日总览

本期基于 AI HOT 过去 24 小时精选动态,重点关注 模型发布/更新、产品发布/更新、行业动态、论文研究、技巧与观点。核心信号是:AI 经济年化收入已超过 1750 亿美元,商业化进入真实收入期;美国政府要求 OpenAI 暂缓 GPT-5.6 广泛发布,前沿模型发布进入安全审查期;Ornith-1.0、Codex 移动端、Claude Code Hook 和 LongCat VitaBench 共同说明 Agentic Coding 与长期智能体正在成为主线。

本期共整理 20 条重点动态:模型发布/更新 1 条、产品发布/更新 7 条、行业动态 5 条、论文研究 2 条、技巧与观点 5 条。我把最值得关注的 6 条压缩成以下核心信号:

  1. @exponentialview 发布《State of the AI Economy》报告:AI经济年化收入超1750亿美元X:Rohan Paul (@rohanpaul_ai)。报告基于去重后的消费端AI支出统计,过去12个月实际AI营收达1100亿美元,年化运行率超1750亿美元,增长速度约为移动/互联网普及浪潮的3倍。营收形成速度急剧加快:2023年新增10亿美元收入需180天,现缩短至不…
  2. 小互开源个人IP配图技能”小互IP Studio”,含31个原创角色X:小互 (@xiaohu)。博主小互开源个人IP配图技能”小互IP Studio”,包含31个原创角色(15个手绘线稿角色+16个谐音梗meme形象)及一套配图方法论。该Agent可自动读取文章、规划配图类型(情绪图/示意图/四格漫画)、生成并自…
  3. 赫库兰尼姆古卷首次被完整虚拟解读Hacker News 热门(buzzing.cc 中文翻译)。研究人员利用高分辨率X射线显微断层扫描和机器学习,在未物理展开的情况下完整虚拟展开并读取了赫库兰尼姆古卷PHerc.1667(Scroll4)。这是首卷被从头到尾连续读取的纸莎草卷,内容为斯多葛哲学论著,提及克里西普斯…
  4. IBM 首度推出亚纳米级芯片技术Hacker News 热门(buzzing.cc 中文翻译)。IBM 于 2026 年 6 月 25 日发布全球首款亚纳米级芯片技术,采用 0.7 nm(7 埃米)节点与全新三维纳米堆叠(nanostack)架构。指甲盖大小的芯片集成近 1000 亿个晶体管,密度约为 IBM 2…
  5. 美国政府要求OpenAI暂缓GPT-5.6广泛发布X:Rohan Paul (@rohanpaul_ai)。The Information 报道,美国政府因安全顾虑要求 OpenAI 暂缓 GPT-5.6 的广泛发布,改为推出受控预览版。OpenAI 计划先向小部分合作伙伴提供早期访问,并由政府逐客户审批准入。这一非常规做法…
  6. Ornith-1.0 开源模型家族发布,专注 Agentic Coding 全参数规模X:Berry Xia (@berryxia)。Ornith-1.0 开源模型家族发布,专注智能体编程(Agentic Coding),覆盖 9B Dense、31B Dense、35B MoE 及 397B MoE 全参数规模。在 Agent Coding 基准上…

一、模型发布/更新

1. Ornith-1.0 开源模型家族发布,专注 Agentic Coding 全参数规模

摘要: Ornith-1.0 开源模型家族发布,专注智能体编程(Agentic Coding),覆盖 9B Dense、31B Dense、35B MoE 及 397B MoE 全参数规模。在 Agent Coding 基准上达开源顶尖:SWE-Bench Verified 82.4、SWE-Bench Pro 62.2、Terminal-Bench 2.1 77.5、NL2Repo 48.2、SWE Atlas 41.2 QnA、ClawEval 77.1。基于 gemma4 和 qwen3.5 后训练,采用强化学习联合优化任务脚手架(scaffold)与最终解决方案,让模型自主改进执行框架。全系列 MIT 开源,提供 GGUF 版本,支持 Ollama、Unsloth 等本地运行。

我的点评: Agentic Coding 模型开始覆盖从小参数本地运行到大 MoE 的完整梯度,竞争焦点从补全代码转向能否自主搭脚手架、跑任务、修复错误。

建议: 研发团队评估开源代码模型时,应用真实仓库 issue、终端任务、测试通过率和本地部署成本来比较,而不是只看单一基准分数。

二、产品发布/更新

1. Claude Code v2.1.193 发布

摘要: Claude Code v2.1.193 新增 autoMode.classifyAllShell 设置,将全部 Bash/PowerShell 命令经自动模式分类器处理。自动模式拒绝原因现加入转录、拒绝提示及 /permissions 页面。新增 claude_code.assistant_response OpenTelemetry 日志事件(默认不记录,需设置 OTEL_LOG_ASSISTANT_RESPONSES=1)。Bash 模式支持实时文件路径自动补全;MCP 服务器需认证时显示启动提示。新增空闲后台 shell 命令自动内存压力回收(可禁用)。修复 /model UI 状态滞后、后台任务误取消、子 agent 隐藏同级等问题,并改进了后台 agent 启动指令、MCP 认证重连、插件自动重命名等行为。

我的点评: 这次更新重点在权限分类、可观测日志、后台任务和 MCP 认证,说明 Coding Agent 的产品竞争已经进入“稳定运行和可治理”阶段。

建议: 团队升级 Coding Agent 前,先确认命令分类、审计日志、后台任务回收和 MCP 认证策略,避免工具越强、权限越混乱。

2. Codex 在 ChatGPT 移动 App 正式可用

摘要: OpenAI 宣布 Codex 在 ChatGPT 移动应用中正式开放(GA),并新增一对一设备配对实现更安全的手机与电脑连接。移动端新增通知、目标、侧边聊天、文件预览及内联审阅评论功能。此前预览版已明确,用户可通过 ChatGPT 移动 App 启动新工作、审查输出、引导执行和批准下一步,而 Codex 实际继续在笔记本、Mac mini 或开发机上后台运行。

我的点评: Codex 进入移动端,意味着开发工作流从电脑前的连续编码,变成随时发起、审阅和批准的异步协作。手机不是替代 IDE,而是成为任务控制台。

建议: 个人可以把移动端用于创建任务、审阅 diff、查看文件预览和批准低风险动作;真正的复杂调试仍应保留在开发机与 CI 中完成。

3. Midjourney 预览 V8.2 并加速草稿模式

摘要: Midjourney 带来两项更新。一是加入 --preview 参数可提前体验 V8.2 的美学与个性化效果;二是此前在 V8.1 推出的大批量草稿模式(生成 24 张低分辨率图,价格仅为标准 4 张的一半,点击 “Vary” 可升级为全分辨率)现在支持搭配 --sref random 使用,探索风格空间的速度比之前快 24 倍。

我的点评: 图像生成的效率战正在从“单张质量”转向“快速探索风格空间”。草稿模式让创意前期更像搜索和筛选,而不是一次押注。

建议: 设计团队可把草稿模式用于情绪板、风格探索和广告概念初筛,再把少量候选升级精修,减少无效高成本生成。

4. Midjourney V8.1 草稿模式新增随机风格功能

摘要: Midjourney V8.1 的草稿模式(draft mode)添加了随机风格功能。用户在提示词中加入 --sref random 即可一键生成 24 张不同风格的图片。开启草稿模式可通过点击提示栏的 ⚡ 图标或添加 --draft 参数。

我的点评: 随机风格把提示词创作从“写准”扩展到“探索”。当风格空间可被快速采样,人的角色会更多变成筛选、组合和品牌校准。

建议: 品牌团队使用随机风格时,应先准备禁用风格、品牌色、人物边界和版权检查,避免探索阶段产出偏离品牌资产。

5. Runway发布Agent 2.0

摘要: Runway发布Agent 2.0,帮助营销人员创建、测试和优化广告、视频及营销活动。品牌营销人员可在对话中开发活动概念、生成变体并自动本地化;绩效营销人员可上传创意并导入Meta、YouTube、TikTok或Google广告数据,由Agent分析后生成下一轮待测广告。社交媒体营销人员可一次性生成一周内容,自动裁切为9:16、16:9、1:1等格式;产品营销人员可借助Agent确定定位角度并构建活动资产。Agent 2.0面向所有用户开放。

我的点评: Runway 把生成视频、广告测试和数据分析揉进营销 Agent,说明多模态工具正在从素材生成器升级为活动运营助手。

建议: 营销团队试点时,应把广告账户数据、创意版本、投放目标和品牌审查打通,并用真实转化率而不是“生成速度”衡量效果。

6. Google Finance 全新 Android 应用与投资组合功能上线

摘要: 本周,Google Finance 推出正式版 Android 应用,同步上线全球投资组合跟踪功能。用户可通过截图、CSV/PDF 上传或文字描述创建组合,并利用 AI 研究工具提问资产配置、固定收益影响等问题。新增市场情报简报功能:用户设定任务(如每日盘前简报),后台自动生成并推送至 Google 应用(Android/iOS)及网页端。Android 应用包含 watchlist、实时数据、金融新闻 feed、AI 研究工具及 AI 驱动的”关键时刻”解释股价波动。未来数月将把更多 web 功能(如财报电话、投资组合与任务)迁移至移动端,今年晚些推出 iOS 应用。

我的点评: 金融信息产品开始把 AI 研究、组合跟踪和自动简报嵌入日常入口。价值不在“问答”,而在持续监控和主动解释变化。

建议: 金融类 AI 功能要明确数据延迟、免责声明、来源引用和风险边界;自动简报适合辅助决策,不应替代独立投资判断。

7. 美团 LongCat 开源 VitaBench 2.0:长期动态智能体基准新标杆

摘要: 美团 LongCat 团队推出 VitaBench 2.0,首个真实生活场景下针对长期动态用户建模的智能体评测基准。包含56名拟真用户、819个复杂任务、超2000个动态偏好及66个可执行工具,每位用户平均2093个交互事件,时间跨度平均1580天。同时支持长文本上下文学习和智能体记忆策略评测。测试显示,最强模型 Claude-Opus-4.6 在”开卷”模式下平均分刚过0.5;开启思考模式并不总能提升个性化任务表现;所有模型在需要主动提问的任务上得分断崖式下跌。VitaBench 2.0 已开源。

我的点评: 长期动态用户建模是 Agent 落地的难点。偏好会变化、任务会跨工具、上下文会很长,普通单轮评测很难暴露这些问题。

建议: 做个人助理和企业助理时,要建立长期记忆评测、主动提问机制和偏好更新策略,不能只优化一次性任务完成率。

三、行业动态

1. 小鹏 CEO 何小鹏:2026 年底自动驾驶可以合法进入全球

摘要: 小鹏汽车 CEO 何小鹏微博透露,VLA 2.0 走向全球进入确定模式。联合国 WP29 缔约国会议批准了 DCAS UNR 171 series 02(对应城区 NGP 法规)与 UNR ADS(对应 L3-L5 自动驾驶法规)。DCAS 将在六个月后成为欧盟强制法规,即 2026 年底自动驾驶可合法进入全球;UNR ADS 为框架性法规,加速 L4 级 Robotaxi 落地。何小鹏称 2027 年海外小鹏汽车将搭载 VLA 和 VLM,支持中英文混合语音对话。

我的点评: 自动驾驶的竞争正在从单车智能演示进入法规、出海和责任边界阶段。VLA/VLM 能力重要,但能否在不同司法辖区稳定合规落地,才是下一轮商业化门槛。

建议: 车企和供应商要把模型能力评测与法规映射、场景白名单、事故归因和本地化语音交互一起设计,不要只宣传端到端能力。

2. 近400家美国报纸起诉微软和OpenAI:未经授权抓取新闻内容训练AI

摘要: 代表近400家纸媒的出版商联盟向美国纽约南区联邦地区法院起诉微软和OpenAI,指控其未经授权抓取新闻内容用于训练Copilot、ChatGPT等AI模型,侵犯版权并触犯《数字千年版权法》。起诉书称被告”系统性且秘密地”爬取网站,复制文章并删除版权管理信息。原告表示AI产品基于其内容创造数十亿美元价值,但出版商分文未得,称此举或成地方新闻业”丧钟”。OpenAI回应训练数据基于公开可获取内容且符合合理使用原则,微软未置评。

我的点评: 内容版权仍是大模型商业化绕不过去的基础设施问题。训练数据、检索增强、摘要分发和广告替代效应,会持续把模型公司与内容行业推向重新议价。

建议: 企业做 AI 内容产品时,应建立可追溯素材库、授权记录和引用策略;不要把“公开可访问”直接等同于“可无限商业使用”。

3. 美国政府要求OpenAI暂缓GPT-5.6广泛发布

摘要: The Information 报道,美国政府因安全顾虑要求 OpenAI 暂缓 GPT-5.6 的广泛发布,改为推出受控预览版。OpenAI 计划先向小部分合作伙伴提供早期访问,并由政府逐客户审批准入。这一非常规做法主要担忧模型在自动化高技能网络工作上的能力:既能帮防御者更快发现漏洞,也可能被攻击者用于加速测试漏洞利用。本周四,CEO Sam Altman 已向员工确认该审批流程。

我的点评: 前沿模型的发布正在从产品节奏变成安全与政策协商。网络自动化能力越强,越需要受控预览、客户准入和可审计使用记录。

建议: 企业接入前沿模型时,应准备模型白名单、用途分级、红队测试、日志审计和应急下线机制,尤其是涉及安全、代码和自动执行的场景。

4. General Intuition 完成 3.2 亿美元融资,用游戏数据训练通用 AI 智能体

摘要: General Intuition 以 23 亿美元估值完成 3.2 亿美元融资,累计披露融资 4.54 亿美元。公司从旗下游戏剪辑平台 Medal 获取数亿小时含精确按键动作标签的游戏操作数据,训练单一模型同时驾驭 Fortnite 等虚拟环境和四足机器人。演示中,AI 智能体在游戏中连续运行 100 小时,机器人仅靠 8 分钟真实街道数据微调即可自主探索办公室。本轮由 Khosla Ventures 领投,General Catalyst、Jeff Bezos、Eric Schmidt 等参投。资金将用于通过 CoreWeave 扩大计算规模、预训练下一代模型,计划夏末前开放 API。

我的点评: 游戏数据成为通用智能体训练燃料,核心价值在于连续动作、反馈和精确按键标签。虚拟环境到机器人迁移,是下一代 Agent 数据路线的重要实验。

建议: 做具身智能或操作型 Agent 的团队,应优先积累可回放轨迹、动作标签和仿真环境,再讨论模型规模。数据闭环比 demo 更重要。

5. Meta员工警告AI内容审核部署过快

摘要: Meta在2025年已用大语言模型替换约一半人工审核请求,计划年底前将部分内容类型的AI审核比例提升至90%以上,每年节省数十亿美元。Meta否认成本动机,称自3月测试显示其模型错误率比人类低13%,且多捕捉10%违规。但员工指出模型仍会移除或限流无害内容,缺乏足够监督,快速部署已导致外包裁员。此外,Meta已从使用Google Gemini转向自家新基础模型Muse Spark,该模型基于人工审核员的历史决策训练。

我的点评: AI 审核能降本,也会放大误杀、限流和问责问题。平台治理场景不能只比较模型错误率,还要看申诉、监督和社会影响。

建议: 平台使用 AI 审核时,应保留人工抽检、申诉通道、灰度上线和高风险类别人工复核,避免把治理问题简化成成本优化。

四、论文研究

1. IBM 首度推出亚纳米级芯片技术

摘要: IBM 于 2026 年 6 月 25 日发布全球首款亚纳米级芯片技术,采用 0.7 nm(7 埃米)节点与全新三维纳米堆叠(nanostack)架构。指甲盖大小的芯片集成近 1000 亿个晶体管,密度约为 IBM 2021 年 2 nm 芯片的两倍。相比 2 nm 芯片,性能最高提升 50%,能效最高提升 70%。纳米堆叠架构还实现 SRAM 面积缩减 40%,有助于支撑先进 AI 工作负载的高带宽需求。该技术已在 VLSI 2026 会议上验证,IBM 预计 5 年内量产。

我的点评: 先进制程继续向 AI 工作负载靠拢,性能、能效、SRAM 面积和高带宽都直接影响未来模型训练与推理成本。硬件红利仍是 AI 扩张的重要变量。

建议: 做 AI 基础设施规划时,不要只盯 GPU 型号,也要关注制程、内存层级、封装、能耗和量产时间表,因为它们会决定长期 TCO。

2. 赫库兰尼姆古卷首次被完整虚拟解读

摘要: 研究人员利用高分辨率X射线显微断层扫描和机器学习,在未物理展开的情况下完整虚拟展开并读取了赫库兰尼姆古卷PHerc.1667(Scroll4)。这是首卷被从头到尾连续读取的纸莎草卷,内容为斯多葛哲学论著,提及克里西普斯的侄子Aristocreon。第二卷PHerc.Paris4通过更高分辨率成像使墨水在三维数据中直接可见,独立确认了2023年大奖赛的解读。第三卷PHerc.139确定标题和作者为菲洛德穆《论诸神》第八卷。所有数据与代码已公开。

我的点评: 这是 AI 与科学工具结合的典型案例:机器学习不是替代研究者,而是放大成像、解卷、识别和验证流程,让不可读材料变成可研究数据。

建议: 科研团队可以优先寻找“高价值但被观测瓶颈卡住”的任务,用 AI 处理成像、标注和候选生成,再由专家完成解释。

五、技巧与观点

1. Claude Code 6个实用Hook玩法

摘要: Claude Code 内置近30个Hook事件(年初仅13个),本质是写死的规则脚本,运行时不消耗token。6个实用玩法:权限弹窗提醒、开机日程播报(问候+天气+飞书日程)、上下文预压缩时自动生成摘要卡片、结合Skill自动整理下载文件夹、启动后每小时久坐提醒、通过Bark实现手机/手表任务完成/失败推送。让AI从被动聊天框变为事件驱动的自动化系统。

我的点评: Hook 把 AI 编程工具从“问答式助手”推进到事件驱动自动化。真正有价值的不是多生成几行代码,而是把提醒、摘要、权限和通知接进日常工作流。

建议: 先从低风险 Hook 开始,例如任务完成通知、上下文摘要、权限提醒;涉及文件整理、外部发送和执行命令时,要加白名单与日志。

2. 小互开源个人IP配图技能”小互IP Studio”,含31个原创角色

摘要: 博主小互开源个人IP配图技能”小互IP Studio”,包含31个原创角色(15个手绘线稿角色+16个谐音梗meme形象)及一套配图方法论。该Agent可自动读取文章、规划配图类型(情绪图/示意图/四格漫画)、生成并自查返工。默认画风为手绘线稿淡彩,另备5种皮肤(3D盲盒、黑白线稿等)可切换。安装仅需Python3,支持Claude Code、Codex等工具,需自备OpenAI兼容的图像API key(默认GPT-image-2);也可只输出提示词手动生图。

我的点评: 个人品牌正在被“可复用角色资产 + 自动配图流程”重塑。它不是一次性生图,而是把风格、角色、文章理解和自检返工封装成生产系统。

建议: 内容创作者可以沉淀自己的角色库、风格规范和审核清单,再让 Agent 批量生成配图;关键是保持一致性,不要追求每张都炫技。

3. @exponentialview 发布《State of the AI Economy》报告:AI经济年化收入超1750亿美元

摘要: 报告基于去重后的消费端AI支出统计,过去12个月实际AI营收达1100亿美元,年化运行率超1750亿美元,增长速度约为移动/互联网普及浪潮的3倍。营收形成速度急剧加快:2023年新增10亿美元收入需180天,现缩短至不足2天。企业AI已脱离试点阶段,但全面推广仍处早期。31%的标普500公司在财报电话会提及AI,仅20%量化影响。Token降价每10%刺激12-18%用量增长,需求价格弹性强。超大规模云厂商AI收入目前大致覆盖基础设施折旧,GPU经济效益依赖6年计算寿命假设。电力供应和数据中心成本仍是未来扩展主要瓶颈。

我的点评: AI 已经不只是试点预算,而是在形成可观收入池;但 token 降价、用量弹性、GPU 折旧和电力约束说明,商业化速度与基础设施压力会同步放大。

建议: 管理者评估 AI 项目时,应同时看收入增量、单位成本、推理用量、云资源承诺和电力/机房约束,避免只看“AI 收入增长”一个指标。

4. OLMo Hybrid vs Transformer:混合模型在实义词上优势明显,但重复短语上几无优势

摘要: 通过对比7B参数的OLMo 3(Transformer)与OLMo Hybrid(混合架构),实验发现混合模型在大多数token上预测损失更低:对名词、动词、形容词等实义词优势明显(loss gap约0.04),功能词上gap约0.02,且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号(如})上,混合模型的优势几乎消失,Transformer凭借注意力机制更擅长从输入中直接检索精确信息。

我的点评: 混合架构的优势不是全局碾压,而是在不同 token 类型上有结构性差异。模型选型会越来越需要看任务分布,而不是只看总榜单。

建议: 评测模型时按任务拆分:事实召回、代码括号/重复片段、长上下文检索、语义推理分别测,避免平均分掩盖架构短板。

5. 多数主流AI聊天机器人政治立场偏左,”反觉醒”模型也不例外

摘要: 华盛顿邮报调查显示,多数主流AI聊天机器人在政治问题上明显偏左。OpenAI GPT-5.5在80%回答中仅呈现左派论据;DeepSeek V4 Pro为70%;Anthropic Claude Opus 4.8有43%纯左、57%给出双方观点。xAI的Grok 4.3左倾回答仍多于右倾。右翼平台Gab的Arya左倾回答是右倾的12倍。Google Gemini 3.1 Pro是例外,93%回答同时呈现双方立场。特朗普推动的”反觉醒”AI未能改变这一格局。

我的点评: 模型立场问题说明“对齐”很难只靠口号解决。数据、标注、拒答策略和评测问题设计都会影响输出倾向,甚至反向定位的模型也可能出现偏差。

建议: 面向公众的 AI 产品应提供多视角回答、敏感问题审计、地区化政策和可解释提示,不要把价值观风险外包给模型默认行为。

今日行动建议

给开发者

  • 用真实仓库 issue、终端任务、测试通过率和代码审查耗时评估 Agentic Coding,不只看模型榜单。
  • 对 Codex、Claude Code、Hook、MCP 等工具设置权限白名单、日志、回滚点和人工确认。
  • 关注推理成本、移动端异步协作和长期记忆评测,把“能生成”升级成“可交付”。

给产品经理 / 创业者

  • 把 AI 产品从 demo 拉回收入、留存、成本和合规四个指标,避免只追热点包装。
  • 内容、金融、营销、自动驾驶等场景要先明确数据授权、风险提示和责任边界。
  • 试点多模态 Agent 时,优先选择高频、可回滚、可量化的环节,例如广告变体、配图、简报和素材初筛。

给企业管理者

  • AI 经济增长很快,但 GPU 折旧、电力、版权、监管和供应商锁定会同时影响 ROI。
  • 采购前沿模型能力时,建立模型白名单、用途分级、审计日志和应急下线机制。
  • 对 AI 审核、自动驾驶、金融建议等高风险业务保留人工复核和申诉通道。

结语

今天的主线是:AI 正在同时进入“赚钱、受管、落地”三阶段。收入增长证明需求真实存在,版权诉讼和 GPT-5.6 受控预览提醒风险边界正在收紧,而 Codex、Claude Code、Runway、Midjourney、LongCat 等产品说明 AI 已经嵌入研发、营销、内容和个人工作流。建议把 AI 项目拆成四张表:收入或效率指标、数据与版权边界、模型安全与权限边界、真实任务评测结果。

播客入口:AI 资讯播客;本期文字稿链接:/posts/62626/