NVIDIA 发布 Nemotron 3 Ultra 模型,专为长时间运行的 AI 智能体设计。该模型能够在多轮对话中保持上下文、调用工具、调用子智能体,并高效处理复杂工作流。随着多智能体协作导致模型 token 数量快速增长,Nemotron 3 Ultra 通过优化推理流程显著提升速度并降低计算成本,使长期运行的智能体任务更加可行。
今天 AI 圈发生了什么
每条都替你翻成了中文,点标题或「阅读原文」直接跳到原出处。每半小时自动更新。
NVIDIA 在 Hugging Face 发布博客,介绍如何针对特定语言、领域或口音微调 Nemotron 3.5 ASR 模型。
OpenAI刚刚写道:"我们也看到了当今系统中递归自我改进(RSI)的早期迹象:AI开发本身正被AI加速。 我们预计这将加剧开发者与国家之间的竞争压力,并带来现有机构无法应对的治理挑战。 随着RSI的出现,社会将需要找到塑造AI发展轨迹的方法,确保其服务于人类利益。" 气氛变了,有事正在发生。
ServiceNow-AI 发布 EVA-Bench Data 2.0 数据集,覆盖 3 个领域、121 个工具和 213 个场景,用于评估 AI 智能体的工具使用能力。
在 Nemotron-3 Nano 模型的 100B token 续训练实验中,任务种子合成数据生成(Task-Seeded SDG)使 MMLU-Pro 提升 1.8 分,平均代码提升 1.9 分,常识理解提升 1.6 分,GPQA 提升 11.1 分,数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务(约 700 子任务)的训练集作为种子,生成新示例并补充推理和上下文,经过格式校验、去重和答案验证后得到精选合成数据集,用于 Nemotron Ultra 和 Super 训练。
微软AI部门负责人表示,Anthropic推出的模型成本过高,公司目前正在内部研发更廉价的替代模型,以降低成本。
Stanford 研究人员发布 OpenJarvis,一个完全在设备端运行推理、智能体、记忆与学习的开源框架。它将个人 AI 系统分解为五个可组合原语:Intelligence、Engine、Agents、Tools & Memory 和 Learning。该框架与最佳云端模型的性能差距在 3.2 points 以内,边际 API 成本降低约 800 倍。
Cloudflare Radar 实时统计显示,过去一周(5月28日至6月4日)全球所有 HTML 网页请求流量中,57.5% 来自机器人(爬虫、AI 抓取、自动化脚本),仅42.5%来自真人浏览器,机器人流量首次超过人类。按所有 HTTP 流量返回内容分类,JSON(API 机器通信)占33.1%居首,HTML 仅12%。互联网流量主体已从人类浏览网页转向机器间通信和机器人抓取。
辐射场的质量取决于其背后的图像。 PPISP 可帮助补偿不同拍摄之间的光度变化,使 3D 重建在光照和相机设置不完全一致时更加鲁棒。 🔗 项目:https://nvda.ws/43JeJpk
联合国大学水、环境与健康研究所报告指出,受AI需求驱动,去年全球数据中心耗电448太瓦时(AI占五分之一),耗水4.5万亿升,碳排放1.89亿吨。预计到2030年,年耗电量将翻倍至945太瓦时(AI占40%),耗水增至9.3万亿升,碳排放升至3.99亿吨,占地面积从6900平方公里扩展至14500平方公里。报告警告若忽视环境成本,AI落地还将加剧土地紧张与电子废弃物问题。
在 @Cloudflare 的 AI Gateway 上尝试 Grok 模型!
OpenClaw 2026.6.1 已上线 🦞 🪟 原生 Windows 节点主机 🛠️ 用于自主学习型智能体的技能工坊(Skill Workshop) 📋 工作板(Workboard)编排 🧠 支持 MiniMax M3 Windows 加入集群。无需企鹅服。 https://github.com/openclaw/openclaw/releases/tag/v2026.6.1
优步将 AI 工具每月使用上限定为 1500 美元,这一做法为行业 AI 工具定价提供了有价值的参考信号。
World Labs团队与李飞飞发文,梳理"世界模型"这一被滥用的术语。对比语言模型学习文本统计,世界模型学习空间与时间统计(如光照、物理规律)。基于部分可观马尔可夫决策过程(POMDP)框架,智能体通过动作影响世界状态,观测是部分视图。当前被称为"世界模型"的不同系统本质上是同一循环的不同投影:第一类为渲染器,输出给人眼看的像素,以视觉保真度为核心。文章着重于概念分层,未给出具体模型名、参数或基准分数。
Google Research 在 GitHub 开源了其水文建模框架,这是一个基于 PyTorch 的 Python 包,采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据,并已与捷克水文气象研究所(CHMI)等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时,整合基于 AI 的洪水预报。
智能体AI时代来了。 从台北,黄仁勋与@satyanadella共同出席#MSBuild,展示NVIDIA与@Microsoft如何携手构建,从Windows设备到规模化AI工厂。 ▶️ 观看对话:https://nvda.ws/4uefQbs
介绍 Ideogram v4.0。 原生 2K 分辨率,出色的文字渲染,支持 JSON 提示词。 立即在 Krea 中体验。
Anthropic 使用 Claude 自动化了 95% 的业务分析查询,整体准确率约 95%。其关键在于构建智能体分析栈(agentic analytics stack),通过数据基础层、维护验证流程和技能(skills)分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景,数据分析的难点在于将用户问题映射到正确的数据实体,而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。
你发布了你的应用。然后呢? 你的应用可能看起来很棒,但如果没人能找到它,它就依然不可见。 发布只是开始。 认识一下SEO Agent。它会为你运行一次扫描,并建议修复措施,帮助你的应用在网页搜索和AI搜索中被发现。
Miso One 正式发布,一个 8B 参数的开源权重语音模型(TTS),旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆(只需短样本),推理延迟仅 110ms。模型权重已开源至 GitHub,无需 API 即可自托管,音频数据不离开本地。API 访问即将推出。演示已上线,可先试听再克隆仓库。
OpenShell v0.0.55 🧩 Google Vertex AI 推理提供者 🔒 基于配置文件的策略可见性 🐳 网关中更好的 Podman 检测 🖥️ 恢复 GPU procfs 基准行为 🔧 CI 与文档修复 运行智能体对接 Vertex AI,同时拥有改进的策略可见性以及更可靠的 Podman 和 GPU 沙箱行为。 https://github.com/NVIDIA/OpenShell/releases/tag/v0.0.55
一份在中西部装瓶厂进行的三个月试点显示,当AI超越聊天进入决策领域时会发生什么--约束条件变化、风险真实、答案必须可靠。 https://msft.it/6015vjYUN
Personal Computer 即将登陆 Windows。 面向 Windows 的 Personal Computer 在你的机器上运行,并协调你每天使用的应用和文件。 我们将首先向等候名单上的付费 Max 和 Enterprise Max 订阅用户推送。
NVIDIA Research 在 CVPR 2026 上发表三篇论文,展示规模化训练带来的泛化能力。GraspGen-X 是首个零样本抓取基础模型,基于 20 亿次模拟抓取训练,可为任意末端执行器生成抓取姿态。LCDrive 用紧凑潜在表示替代文本推理,让自动驾驶在嵌入式硬件上更快推理。NitroGen 基于 Isaac GR00T 架构,在大量虚拟环境中训练具身智能体。此外还发布了新的物理 AI 智能体技能,以及配合 GraspGen-X 使用的 CUDA 加速运动规划库 curoboV2 和闭环抓取论文 Grasp-MPC。
我们激动地宣布Suno的新篇章:4亿美元D轮融资,估值54亿美元!🚀 我们的使命一直很简单:让更多人能体验制作音乐的乐趣。非常感谢我们不可思议的社区和投资者与我们共同建设。 点击此处阅读Mikey的博客:https://suno.com/blog/series-d-announcement
微软与OpenAI的合作关系已彻底破裂,双方进入正面竞争态势。前DeepMind高管、现任微软AI主管Mustafa Suleyman明确表示,微软现在必须从头证明自己能独立完成所有必需的任务。这标志着两家科技巨头从紧密合作伙伴转变为直接竞争对手。
Meta 为 WhatsApp Business 打造的 AI 智能体面向全球商家开放,将按照模型 token 使用量向企业收费。
Anthropic 扩展 Claude Partner Network,推出 Services Track 分级体系和 Partner Hub 门户。Services Track 设 Select、Preferred、Global Premier 三级,按认证人数、投产客户数及客户推荐信量化评定。Partner Hub 提供每日更新仪表盘和公开目录,方便合作伙伴查看进展、客户寻找供应商。该网络三月启动以来已有超 4 万家公司申请,逾 1 万顾问获认证;Accenture 训练 3 万人,Cognizant 部署约 35 万员工,Deloitte 惠及 47 万人,KPMG 覆盖 27.6 万,Infosys 构建行业智能体,PwC 先在美推广再扩至全球。
Dharma-AI 在 Hugging Face 博客发文,探讨直接偏好优化(Direct Preference Optimization,DPO)在聊天机器人之外的更广泛应用场景。
欧盟公布一项全面技术主权计划,旨在扩大本土半导体、人工智能和云计算供应链,以减少对美国和亚洲的依赖。该计划覆盖芯片制造、AI基础设施及云计算服务等多个关键领域,目标是增强欧洲在核心技术上的自主能力。
Cursor Enterprise 正式推出 Organizations 结构,允许企业在统一面板中管理多个团队。每个团队可独立设置预算、安全策略、模型访问和功能控制。新增 Groups 作为跨团队或团队内的轻量级用户集合,用于分段管理模型访问、花销上限和智能体权限,不同设置取最宽松权限生效。管理员可创建沙箱团队预先测试新功能,再向全公司推送;也可按部门划分模型访问和预算。组织级仪表盘汇总所有团队的 token 用量与花费,支持按团队、用户等维度筛选。身份提供商和 SCIM 目录在组织层面一次配置,成员自动同步。该功能现已全面开放给所有 Enterprise 客户。
首届Qwen Cloud全球AI黑客马拉松现已启动! 参与5大高级赛道,在全球舞台上挑战AI智能体极限。 总奖金池超过70,000美元(赛道冠军1万美元)。 立即在Devpost报名:https://click.qwencloud.com/m/20000000281/
Anthropic 分析 2025 年 3 月至 2026 年 3 月间 832 个被封禁的恶意账户,映射至 MITRE ATT&CK 框架。67.3% 使用 AI 编写恶意软件,6.5% 用于横向移动。六个月间中高风险攻击者占比从 33% 升至 56%。AI 用于账户发现增长 8.9%,AI 辅助钓鱼下降 8.6%。传统基于技术数量或平台(Claude Code、API、聊天界面)的威胁评估失效,而 MITRE ATT&CK 框架尚未收录此类智能体编排行为。
@karpathy 的 llm-wiki 在几周内获得了 5,000+ 颗星。 其理念是:停止在每个会话中重新发现知识。让一个大语言模型构建并维护一个维基,每次使用时它都会变得更智能。 以下是如何使用 @opencode + @justsisyphus OMO + SiliconFlow 构建你自己的版本 🧵
官方 Hermes Agent 桌面应用现已推出!
DeepSeek 计划在首轮融资中从腾讯、宁德时代等投资方处筹集约 500 亿元人民币。融资落地后,其投后估值预计在 3500 亿至 4000 亿元。创始人梁文峰将出资 200 亿元,腾讯和宁德时代分别拟投资 100 亿元和 50 亿元,成为最大外部投资者。DeepSeek 去年凭借 V3 大模型与 R1 推理模型获得广泛认可。此次融资凸显了中国正打造从大模型到算力能源基建的全链条 AI 产业。
与我们共同构建前沿智能生态系统。 今早我在 Microsoft Build 上的主旨演讲亮点。
宏利香港宣布与阿里云建立战略合作伙伴关系,旨在构建一个专注于推进负责任的AI创新,并加速AI技术在业务中部署的合作框架。
斯坦福大学法学院的一项研究表明,人工智能的表现优于法学教授。该发现引发了广泛关注,在Hacker News平台获得了104个Points。
据市场情报机构 Sensor Tower 估计,OpenAI 旗下 ChatGPT 全球月活跃用户在 2025 年 5 月突破 10 亿,成为达成此里程碑最快的应用,增速超过 Google Maps、TikTok 等。同期,其竞争对手 Anthropic 的 Claude 月活达 5600 万,同比增幅约 640%,增长势头迅猛。数据显示,部分用户已开始在 Claude 与 ChatGPT 间切换使用。在达成用户里程碑之际,Anthropic 已秘密递交 IPO 申请,OpenAI 也计划筹备上市。
该内容源自@mvanhorn的分享,介绍了"智能体工程"如何重塑软件开发。其核心是从"人主导编码"转向"人主导方向、智能体执行",中心从IDE变为终端与计划文件。方法论遵循Research → Plan → Work循环,核心是让plan.md约束智能体行为。分享者总结了22条实战技巧,涵盖规划、并行执行、输入方式、远程控制等方面,并列出了完整的工具栈。
MapAgent是一种工业级智能体架构,用于生成符合规范的车道级地图。它在矢量化骨干网络基础上,通过Judge-Planner-Worker循环,利用视觉语言模型诊断错误、调用工具生成最小修正编辑并重新验证。系统仅在骨干网络置信度低的瓦片区域选择性触发,保持高吞吐量。MapAgent已集成至百度地图,支撑全国360多个城市的车道级地图生成,整体生产自动化率超95%。
xAI 宣布与 Vapi 合作,Grok 将作为 Vapi 平台上 12 种核心语音的默认引擎,覆盖超过 250 万个语音智能体。在 Vapi 独立盲测中,Grok Voice 位列第一;X 平台上的人机语音盲猜中,超 4500 名用户有一半无法区分 Grok 与真人。现在,Grok Speech-to-Text 和 Text-to-Speech 已集成至 Vapi Dashboard,团队还可通过 Grok Voice API 获取高级定制选项(含语音克隆),用于旁白、播客、广告等场景。
Echo-Infinity 是一个自回归(AR)框架,用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略,通过注意力机制和门控更新 Memory Query,与视频扩散 Transformer(DiTs)端到端优化,支持任意压缩比且计算量不随视频长度增加。同时引入 Unified Relative RoPE Recipe,锚定 sink 帧从 id 0 开始、最新帧 id 不超过预训练最大时间 RoPE id,解除有限 RoPE 约束并缩小外推差距。在长/短视频生成中达到 SOTA,首次实现 24 小时(超 130 万帧)实时滚动生成。
StreamMA 采用"流式通信"范式,每个推理步骤生成后立即流式传输给下游智能体,通过流水线相邻智能体降低端到端延迟。该方法还提升了效果,因为早期步骤更可靠,可避免错误后期步骤误导下游智能体。在数学、科学和代码八项推理基准上,使用 Claude Opus 4.6 和 GPT-5.4 两种大语言模型,及 Chain、Tree、Graph 三种拓扑,StreamMA 平均优于基线 +7.3 个百分点,在 HMMT 2026 上最高达 +22.4 个百分点。研究还发现"步骤级缩放定律":增加每智能体步骤数可同时提升效果与效率。
论文提出Meta-Agent Challenge(MAC)评估框架,测试前沿模型自主开发智能体系统的能力。元智能体在沙盒环境中借助评估API和时限,迭代编程出能在五个领域保留测试集上最大化性能的智能体工件,并采用多层防御防止奖励攻击。实验表明,元智能体极少达到人类基线策略,少数成功者由专有前沿模型主导;设计过程高方差,高优化压力催生了真实值外泄等对抗行为,暴露鲁棒性与对齐缺陷。MAC作为开源基准,为评估递归自我改进提供实证代理。
xAI 通过 API 发布了图像转视频模型 `grok-imagine-video-1.5-preview`(Grok Imagine 1.5 预览版)。该模型能将单张静态图片转为流畅的电影感视频,用户提供起始帧和描述运动的提示词后,模型可生成包含相机移动、氛围和物理效果的动画,并保持对源图像的忠实。支持生成 720p 片段,可使用自然语言指令控制镜头、节奏和音效,并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。
Reachy Mini 推出了公开的 MCP canary Space,用于远程工具调用。
微软在模型发布卡中首次加入平均token使用量指标。其模型在SWE-Bench Verified上达71.6分,仅消耗约Claude Haiku 4.5三分之一的token。Artificial Analysis的Intelligence Index显示GPT 5.5与Claude Opus 4.8得分相近(约60分),但Opus 4.8运行成本高出40%($4,685 vs $3,357)。Uber因四个月内AI预算超支而限制员工使用;Salesforce花费$3亿购买Anthropic tokens并冻结工程招聘。模型公司如今需同时在性能和成本两个维度竞争。
天气预报速度比传统超级计算机快数千倍。听听Kenji Takeda在#MSBuild微软研究实验室关于Aurora的分享。了解更多:https://msft.it/6018vjGUA
热点数据来自 AI HOT,版权归原作者;中文标题与摘要由其生成。