机器之心

其他

刚刚,智能体&编程新王Claude Opus 4.5震撼登场,定价大降2/3

也在逐步增强开发者平台的可组合性。目标是为开发者提供所需的各种构建模块,从而可以完全掌控效率、工具使用方式以及上下文管理,精准构建所需的系统。安全性进一步提升Anthropic
2025年11月25日
其他

首届AI交易大赛落幕,6个AI炒币2周:Qwen、DeepSeek赚钱,GPT-5血亏6000刀

62.66%。赛事自启动以来引发广泛关注,连币安创始人赵长鹏也公开评论。他认为,传统上交易策略通常依赖于独特性,最好是别人没有的策略,这样才能获得优势。如果所有人都用相同的
2025年11月4日
其他

小红书RecSys 2025最佳论文提名背后:破解视频时长预测难题

机器之心报道编辑:Panda最近,一则趣闻在社交媒体上流传:当诺贝尔奖委员会还在费力寻找新晋生理学或医学奖得主时,一位小红书网友似乎早已在美国落基山脉与他偶遇并聊了天。这件「让世界先一步找到你」的轶事,再次让人们将目光投向了小红书。这真是一个总能创造神奇连接的社区!图源:微博而这种「神奇连接」并非偶然,作为一名科技媒体从业者,我们对此深有体会。许多
2025年10月20日
其他

轻量高效,即插即用:Video-RAG为长视频理解带来新范式

的成功验证了一个重要方向:通过高质量、视觉对齐的辅助文本引入外部知识,可以在不改变模型的前提下,突破上下文窗口瓶颈,显著提升跨模态理解能力。它不仅解决了长视频理解中的
2025年10月20日
其他

SIGGRAPH Asia 2025 | OmniPart框架,让3D内容创作像拼搭积木一样简单

公司首席科学家曹炎培博士。在3D内容创作领域,如何像玩乐高一样,自由生成、编辑和组合对象的各个部件,一直是一个核心挑战。香港大学、VAST、哈尔滨工业大学及浙江大学的研究者们联手,推出了一个名为
2025年10月20日
其他

Codeforces难题不够刷?谢赛宁等造了个AI出题机,能生成原创编程题

通常时间复杂度更高,但基本不可能出错,因此该团队利用它来压力测试问题的有效性。使用该团队增强的测试用例生成技术,该团队构建了一套全面的测试数据,完全覆盖了小规模案例。然后
2025年10月20日
其他

无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」

型界限,研究证明了单步的误差改善能够沿着整个轨迹传播,从而确保了组合策略在整个生成轨迹上也具有系统性的性能提升和更低的轨迹采样误差。正是基于这一坚实的数学和系统稳定性证明,GPC
2025年10月19日
其他

Meta用40万个GPU小时做了一个实验,只为弄清强化学习Scaling Law

之间进行调整,并相应调整提示数量以保持总批量固定,结果显示拟合的缩放曲线基本没有变化。这说明在中等批量下,这种分配对性能上限(A)和效率(B)都是次要因素。作者推测,在更大批次(例如超过
2025年10月19日
其他

ACMMM 2025 | 北大团队提出 InteractMove:3D场景中人与可移动物体交互动作生成新框架

放在沙发表面或地面等。2)物理一致的动作对齐:为了保证交互动作在合成入场景后,能够在保持物理合理性的前提下符合场景限制,该方法首先强制对齐手部关节高度与放置后的物体高度一致,再利用扩散模型的
2025年10月19日
其他

Self-Forcing++:让自回归视频生成模型突破 4 分钟时长极限

https://self-forcing-plus-plus.github.io代码:https://github.com/justincui03/Self-Forcing-Plus-Plus
2025年10月18日
其他

稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow

[4])。这样做是稳定了训练,但也抛弃了原本表达更强的流策略本体,并没有真正在训练一个流策略。而我们的思路是:发现流策略多部采样本质就是
2025年10月18日
其他

语音助手的「智商滑铁卢」:当GPT开口说话,准确率从74.8%跌到6.1%

或小爱同学答非所问时,不妨多一份理解。这不是它们「笨」,而是整个行业都在面对的技术挑战。从「会说话的搜索框」到「能推理的智能助手」,我们还有很长的路要走。但至少现在,我们有了一把标尺(VERA
2025年10月17日
其他

多轮Agent训练遇到级联失效?熵控制强化学习来破局

触发:过度早期阶段探索:创建不稳定基础,系统性地锁定到次优行为模式。后期不确定性传播:累积的不确定性复合,阻止连贯策略形成。因此,对于复杂的多轮稀疏奖励任务,在所有轨迹步骤中维持
2025年10月17日
自由知乎 自由微博
其他

实锤了:GPU越多,论文接收率越高、引用越多

接口,在研究中仍占有一席之地,但开源模型凭借其高度的灵活性和可访问性赢得了研究社区的青睐。研究人员可以基于开源模型进行微调、领域适配和深入的基准测试,而这些操作在闭源模型上通常难以实现。GPU
2025年10月17日
其他

NeurIPS2025 | 攻破闭源多模态大模型:一种基于特征最优对齐的新型对抗攻击方法

近年来,多模态大语言模型(MLLMs)取得了令人瞩目的突破,在视觉理解、跨模态推理、图像描述等任务上表现出强大的能力。然而,随着这些模型的广泛部署,其潜在的安全风险也逐渐引起关注。研究表明,MLLMs
2025年10月17日
其他

南洋理工揭露AI「运行安全」的全线崩溃,简单伪装即可骗过所有模型

27%。这证明,用轻量级的方法就能显著增强模型的「职业操守」。总结这篇论文首次将跑题的问题从大众所认知的简单的功能缺陷提升到了安全的战略高度,它向整个行业发出了一个明确的信号:AI
2025年10月17日
其他

按照Bengio等大佬的AGI新定义,GPT-5才实现了不到10%

记忆中的两种深层弱点:它弥补了模型无法可靠访问自身庞大但静态的参数化知识的能力缺陷;更关键的是,它掩盖了缺乏动态、经验式记忆系统的事实,即一种能长期保存私人交互与持续变化上下文的持久记忆机制。虽然
2025年10月17日
其他

RAG、Search Agent不香了?苹果DeepMMSearch-R1杀入多模态搜索新战场

能够通过自我反思与自我纠正,在多轮交互中自适应地生成和优化文本搜索查询,并利用检索到的内容作为反馈以及结合原始问题进行改进。为了提升图像搜索的效果,苹果引入一个中间图像裁剪工具(Grounding
2025年10月17日
其他

欧几里得的礼物:通过几何代理任务增强视觉-语言模型中的空间感知和推理能力

本文共同第一作者为华中科技大学博士生连仕杰与华东师范大学博士生邬长倜,二者同时也是北京中关村学院2024级学生。共同通讯作者包括:郑州大学学术副校长,郑州大学/华中科技大学教授,加拿大工程院/欧洲科学院院士杨天若教授;北京中关村学院&中关村人工智能研究院具身方向负责人陈凯。近年来,多模态大语言模型(MLLMs)在广泛的视觉-语言任务中取得了显著成功。尽管如此,最先进的
2025年10月17日
其他

单块GPU上跑出实时3D宇宙,李飞飞世界模型新成果震撼问世

采用了完全不同的方法。它基于最近在生成式视频建模方面的进展,训练了一个神经网络模型,该模型输入一个或多个场景的二维图像,无需构建任何显式的三维表示,就能从新的视角生成该场景的二维图像。RTFM
2025年10月17日
其他

当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

Agents预印本:https://arxiv.org/abs/2509.23694代码仓库:https://github.com/jianshuod/SafeSearch从真实案例切入:一次价值
2025年10月16日
其他

递归语言模型登场!MIT华人新作爆火,扩展模型上下文便宜又简单

RLM,以此在上下文中进行导航和解析。这种方式要比任何「分块(chunking)」策略都更加通用且更智能。研究者认为:应该让语言模型自己决定如何探索、拆解并递归地处理长
2025年10月16日
其他

ICCV 2025 | 浙大、港中文等提出EgoAgent:第一人称感知-行动-预测一体化智能体

动作的统一表征想象你是怎么打篮球的?你需要从第一人称视角去感知球的位置,同时迅速准备好起跳或拦截的动作,并不断预判不同动作对球场局势的影响。而每做出一个动作又会反过来改变环境,触发新一轮的感知
2025年10月16日
其他

「性价比王者」Claude Haiku 4.5来了,速度更快,成本仅为Sonnet 4的1/3

正在「模糊」这种传统权衡的界限:它是一种快速的前沿模型,既保持了成本高效,又预示了这类模型的发展方向。」其实,从测试数据上也不难看出,目前,Claude
2025年10月16日
其他

从掩码生成到「再掩码」训练:RemeDi让扩散语言模型学会自我纠正与反思

能够从序列中已经生成的内容中识别无法确定的位置进行再掩码(remask),从而修正错误内容并提升文本质量,在各方面都超越了现有的扩散语言模型。该模型还具有可变长生成(variable-length
2025年10月16日
其他

不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出

(共同一作)华南理工大学三年级研究生,微信视觉团队实习生。主要研究多模态大模型、视频生成模型、基础视觉模型。作者个人主页:https://zhang-haojie.github.io/©
2025年10月16日
其他

首个多轮LLM Router问世, Router-R1可让大模型学会「思考–路由–聚合」

等多项代表性研究成果。“如果一个问题只需小模型就能回答,为什么还要让更贵的大模型去思考?”在大语言模型(LLM)种类爆炸的时代,这个看似简单的问题,正成为
2025年10月15日
其他

具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集

Panda、Aloha、ARX-5)实现远程评测,为研究社区提供大规模、标准化、可复现的测试环境,推动具身智能算法在公平、可靠的基准下持续进步。系统架构设计:集成经过工业验证的机器人硬件,每台均配备
2025年10月15日
其他

ICCV 2025 | FDAM:告别模糊视界,源自电路理论的即插即用方法让视觉Transformer重获高清细节

也为未来研究打开了新的大门。例如,我们是否可以设计一个完全在频域中进行动态路由的全新网络结构?这种频率调制的思想能否被拓展到视频、三维点云甚至多模态数据中?这些都是激动人心的未来方向。欢迎在
2025年10月15日
其他

50万激励,腾讯青云奖学金启动申请

腾讯全球数字生态大会上,腾讯云宣布其异构计算平台已全面适配主流国产芯片,并通过软硬件协同的全栈优化实现对不同类型芯片的高效整合与调度能力,在保障性能稳定的基础上,对外输出高性价比的
2025年10月15日
其他

AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

时间顺序”,这与机器人如何理解世界、规划路径,以及自动驾驶系统如何在动态环境中进行决策高度契合。这一研究让我们看清:当前的大模型在长程推理和时空理解上仍有明显不足,但也指明了进化的方向
2025年10月15日
其他

清华&巨人网络首创MoE多方言TTS框架,数据代码方法全开源

无论是中文的粤语、闽南话、吴语,还是欧洲的荷兰比尔茨语方言、法国奥克语,亦或是非洲和南美的地方语言,方言都承载着独特的音系与文化记忆,是人类语言多样性的重要组成部分。然而,许多方言正在快速消失,语音技术如果不能覆盖这些语言,势必加剧数字鸿沟与文化失声。在当今大模型引领的语音合成时代,通用
2025年10月15日
其他

大的来了:谷歌Gemini 3.0 Pro单次生成网页版操作系统,Win、Mac、Linux一网打尽

能够对一些抽象描述,比如「设计得像一位哲学教授的存在主义危机」等类似哲学风格的文字有很好的理解,并且具备很高超的前端设计能力。另外,生成的网页中也能够包含符合场景信息的音乐和音效。网友们对
2025年10月15日
其他

北大彭一杰教授课题组提出RiskPO,用风险度量优化重塑大模型后训练

该项目由北京大学彭一杰教授课题组完成,第一作者为任韬,其他作者包括江金阳、杨晖等。研究背景与挑战:大模型后训练陷入「均值陷阱」,推理能力难破界当强化学习(RL)成为大模型后训练的核心工具,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范式。从数学解题到代码生成,RLVR
2025年10月15日
其他

老牌Transformer杀手在ICLR悄然更新:Mamba-3三大改进趋近设计完全体

给人的感觉是,这个架构终于成熟了。它不仅是注意力机制的替代方案,而是在状态演化方式、记忆机制以及硬件并行利用方式上,完成了一次更全面、更统一的设计。三大重要改进Mamba-3
2025年10月14日
其他

NeurIPS 25 | 中大&UC Merced等开源RAPID Hand,重新定义多指灵巧手数据采集

Autonomy论文地址:https://www.arxiv.org/abs/2506.07490项目主页:https://rapid-hand.github.io/Github
2025年10月14日
其他

VAE时代终结?谢赛宁团队「RAE」登场,表征自编码器或成DiT训练新基石

维度时才能有效收敛。维度相关的噪声调度偏移先前研究已证实,扩散模型训练中的最优噪声调度与输入数据的空间分辨率相关。本文将此概念从空间分辨率推广至有效数据维度,即
2025年10月14日
其他

OpenAI、Anthropic、DeepMind联手发文:现有LLM安全防御不堪一击

建议变异的遗传算法。最后,人工红队测试依赖于人类的创造力和上下文推理能力来精心制作和优化提示词,当防御方法是动态变化的时,其表现通常优于自动化方法。作为红队测试的代表性实践,研究者举办了一场有超过
2025年10月14日
其他

景不动人动,MLLM如何面对「移步换景」的真实世界?OST-Bench揭示多模态大模型在线时空理解短板

则更贴近真实世界场景,相比以往基准具有两大核心特点:在线设定:模型必须在不断增长的观测中进行实时感知、记忆与推理;跨时空理解:需要同时结合当前画面与历史信息,完成面向时间跨度的复杂空间推理。
2025年10月14日
其他

斯坦福、英伟达和伯克利提出具身Test-Time Scaling Law

的动作误差会持续下降。具体来说,无论是反复从机器人策略模型中采样动作、对部分采样动作施加高斯扰动,还是在离散动作空间中进行随机采样,这些方法在有「理想验证器」(oracle
2025年10月14日
其他

NeurIPS 25 | GRPO进阶版来了,GVPO重构大模型后训练范式

的优化目标等价于最小化「隐式奖励中心距离」与「实际奖励中心距离」的偏差。这一解释带来直观的物理含义:当隐式奖励完全对齐实际奖励时,损失达到最小。更重要的是,这种设计保证了
2025年10月14日
其他

刚刚,OpenAI官宣自研造芯,联手博通开发10吉瓦规模的AI加速器

能够将其在前沿模型和产品研发中积累的经验直接融入硬件设计,从而释放出全新的能力与智能水平。这些机架系统将完全采用博通提供的以太网及其他连接解决方案,以满足全球快速增长的
2025年10月14日
其他

只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题

级或句式级别上进行,对于有明确步骤级语义结构的智能体来说并不适合。该团队提出以「智能体步骤」为树节点单位的树搜索,即每个树节点对应一个完整的思考、行动、观察步骤。为适配现有
2025年10月14日
其他

推理速度10倍提升,蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

连接了前沿研究与产业落地,标志着扩散语言模型从「理论可行」迈向「实践高效」的关键一步。我们诚邀全球的开发者与研究者一同加入,共同探索扩散语言模型的广阔未来,构建更加高效、开放的
2025年10月13日
其他

改变强化学习范式,Meta新作呼应Sutton「经验时代」预言

展示了两种「早期经验」方法:隐式世界建模(左图)通过为专家轨迹添加替代动作及其预测的下一个状态,使策略在部署前就能够内化环境的转移动态。自我反思(右图)则在专家动作的基础上加入智能体自生成的解释
2025年10月13日
其他

LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元

指令集合,并真正意义上实现全链条透明开放(数据、训练与打包工具链、配置脚本、日志与可复现评测命令及其构建与执行细节),以确保社区低成本复现与可验证拓展。实验结果显示,LLaVA‑OneVision
2025年10月13日
其他

为MoE解绑:全新「专家即服务」推理架构发布,超细粒度扩展锐减37.5%成本

本文第一作者刘子铭为新加坡国立大学三年级博士生,本科毕业于北京大学,研究方向为机器学习系统中的并行推理与训练效率优化。通信作者为上海创智学院冯思远老师和新加坡国立大学尤洋老师。共同作者来自于上海奇绩智峰智能科技有限公司,北京基流科技有限公司等。近年来,大型语言模型的参数规模屡创新高,随之而来的推理开销也呈指数级增长。如何降低超大模型的推理成本,成为业界关注的焦点之一。Mixture-of-Experts
2025年10月13日
其他

NeurIPS 2025 Spotlight | GeoSVR:稀疏体素的新潜力——超越3DGS系列的高精度三维表面重建

表面修正说明及效果体素尺度惩罚——为体素尺度引入正则项,抑制过大体素对几何的错误主导。——使几何表达更加细粒度,避免大体素占据并「抹平」局部结构。通过全局一致性约束、表面修正与尺度惩罚,GeoSVR
2025年10月13日
其他

大模型追逐星辰大海,GPT和Gemini国际天文奥赛夺金

个百分点。最普遍的错误类型是概念性错误,反映了不正确的处理方法、公式误用和推理缺陷。这表明在实现深刻的物理理解方面存在根本性挑战。几何或空间推理是第二大错误来源,模型在球面三角学、计时系统和
2025年10月13日
其他

ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」

接收概念提示(如简单的名词短语如黄色校车、图像示例)或视觉提示(如点、框、掩码)来定义需要进行时空分割的对象(可逐个分割)。可以说,本文聚焦的重点是识别原子级视觉概念,如红色苹果(red
2025年10月13日