2026-02-27
Authors: Jingxuan Wei, Siyuan Li, Yuhang Xu, Zheng Sun, Junjie Jiang, Hexuan Jin, Caijun Jia, Honghao He, Xinglong Xu, Xi bai, Chang Yu, Yumou Liu, Junnan Zhu, Xuanhe Zhou, Jintao Chen, Xiaobin Hu, Shancheng Pang, Bihui Yu, Ran He, Zhen Lei, Stan Z. Li, Conghui He
世界模型需要模态、空间和时间三种一致性原则以实现通用人工智能,并提出了一个评估多模态学习系统的基准。
Authors: Hongrui Jia, Chaoya Jiang, Shikun Zhang, Wei Ye
Diagnostic-driven Progressive Evolution 通过迭代诊断与基于已识别弱点的针对性数据生成,实现大型多模态模型的持续改进。
Authors: Zhiheng Song, Jingshuai Zhang, Chuan Qin, Chao Wang, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu, Hengshu Zhu
MobileBench 是一个可扩展的基准测试,用于在真实场景中评估基于LLM的路径规划智能体,具有匿名化用户查询和用于可复现测试的确定性沙盒。
Authors: Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, Shijian Wang, Guanting Dong, Jiajie Jin, Hao Wang, Yinuo Wang, Ji-Rong Wen, Yuan Lu, Zhicheng Dou
OmniGAIA 基准评估多模态智能体在视频、音频和图像模态上的复杂推理任务,OmniAtlas 智能体则通过事后引导的树探索和 OmniDPO 微调提升工具使用能力。
Authors: You Li, Chi Chen, Yanghao Li, Fanhu Zeng, Kaiyu Huang, Jinan Xu, Maosong Sun
研究表明多模态模型中的潜在视觉推理存在输入-潜在空间与潜在空间-答案的脱节问题,进而提出了CapImagine这一基于文本的方法,其性能优于复杂的潜在空间方法。
Authors: Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang
EMPO² 是一种混合强化学习框架,通过整合记忆机制与 on-policy 和 off-policy 更新来增强大语言模型智能体的探索能力,并在复杂环境中展现出改进的性能和适应性。
Authors: Yutong Wang, Siyuan Xiong, Xuebo Liu, Wenkang Zhou, Liang Ding, Miao Zhang, Min Zhang
AgentDropoutV2 是一种测试时框架,通过纠错与剪枝机制动态优化多智能体系统的信息流,无需重新训练。
Authors: Qianben Chen, Tianrui Qin, King Zhu, Qiexiang Wang, Chengjun Yu, Shu Xu, Jiaqi Wu, Jiayu Zhang, Xinpeng Liu, Xin Gui, Jingyi Cao, Piaohong Wang, Dingfeng Shi, He Zhu, Tiannan Wang, Yuqing Wang, Maojia Song, Tianyu Zheng, Ge Zhang, Jian Yang, Jiaheng Liu, Minghao Liu
名为SMTL的深度学习框架通过以并行证据获取替代顺序推理,改进了高效长程智能体搜索,在多个研究基准上达到了最先进的性能,同时将推理步骤减少了70.7%。
Authors: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed, Mohamed Zidan, Fahad Khan, Salman Khan, Rao Anwer, Hisham Cholakkal
MediX-R1提出了一种面向医疗多模态大语言模型的开放式强化学习框架,该框架利用多样化的奖励信号和基于LLM的评估,以提升超越多选格式的临床推理能力。
Authors: Sven Elflein, Ruilong Li, Sérgio Agostinho, Zan Gojcic, Laura Leal-Taixé, Qunjie Zhou, Aljosa Osep
VGG-T³通过测试时训练将可变长度键值表示转换为固定尺寸MLP,解决了三维重建中的可扩展性问题,实现了随输入视图数量的线性扩展,并相比传统softmax注意力方法获得显著加速。
Authors: Euisoo Jung, Byunghyun Kim, Hyunjin Kim, Seonghye Cho, Jae-Gil Lee
一种面向扩散模型的混合并行框架,结合基于条件的划分与自适应流水线调度,在降低推理延迟的同时保持跨不同架构的图像质量。
Authors: Wenjia Wang, Liang Pan, Huaijin Pi, Yuke Lou, Xuqian Ren, Yifan Wu, Zhouyingcheng Liao, Lei Yang, Rishabh Dabral, Christian Theobalt, Taku Komura
便携式双iPhone系统可实现度量尺度的人-场景重建,并支持具身智能任务,包括基于物理的动画与机器人运动控制。
Authors: Lance Ying, Ryan Truong, Prafull Sharma, Kaiya Ivy Zhao, Nathan Cloos, Kelsey R. Allen, Thomas L. Griffiths, Katherine M. Collins, José Hernández-Orallo, Phillip Isola, Samuel J. Gershman, Joshua B. Tenenbaum
AI系统在各类人工设计游戏中接受评估以衡量通用智能,结果显示相较于人类玩家,其性能存在显著差距,特别是在复杂认知任务中。
Authors: Qing Yu, Akihisa Watanabe, Kent Fujiwara
Causal Motion Diffusion Models 提出了一种统一框架,在语义对齐的潜空间中使用因果扩散Transformer进行自回归运动生成,实现了快速、高质量的文本到运动合成,并提升了时间平滑性。
Authors: Tilemachos Aravanis, Vladan Stojnić, Bill Psomas, Nikos Komodakis, Giorgos Tolias
检索增强的测试时自适应通过文本与视觉特征的学习融合,弥合了零样本与有监督开放词汇分割之间的性能差距。
Authors: Zezhou Wang, Youjie Li, Zhiqi Lin, Jiacheng Yang, Cong Xie, Guanyu Feng, Zheng Zhong, Ziyue Huang, Hongyu Zhu, Zhi Zhang, Yanghua Peng, Xin Liu
veScale-FSDP 提出了一种重新设计的完全分片数据并行系统,采用灵活分片和结构感知规划,以提升大规模模型训练的可扩展性和效率。
Authors: Elron Bandel, Asaf Yehudai, Lilach Eden, Yehoshua Sagron, Yotam Perlitz, Elad Venezian, Natalia Razinkov, Natan Ergas, Shlomit Shachor Ifergan, Segev Shlomov, Michal Jacovi, Leshem Choshen, Liat Ein-Dor, Yoav Katz, Michal Shmueli-Scheuer
尽管已有一些有前景的实现,通用智能体仍然发展不足,需要系统化的评估框架和基准来评估其在多样化环境中的真正通用性。
Authors: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley
GeoWorld 通过利用双曲几何保留潜在状态结构并改进长程预测性能,解决了基于能量的预测世界模型的局限性。
Authors: William Watson, Nicole Cho, Sumitra Ganesh, Manuela Veloso
对369,837个真实查询的分析表明,特定语言特征与大语言模型的幻觉可能性相关,识别出查询设计的风险图景。
Authors: Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso
引入了一种名为 QueryBandits 的上下文赌博机框架,用于自适应选择最优查询重写策略以减少大语言模型中的幻觉,其性能优于静态策略,并可与闭源模型协同部署。
Authors: Taha Koleilat, Hojat Asgariandehkordi, Omid Nejati Manzari, Berardino Barile, Yiming Xiao, Hassan Rivaz
MedCLIPSeg 利用 patch 级嵌入和概率注意力将 CLIP 适配于医学图像分割,实现了数据高效、不确定性感知且具备可解释性的分割。
Authors: Walter Hernandez Cruz, Peter Devine, Nikhil Vadgama, Paolo Tasca, Jiahua Xu
DLT-Corpus数据集包含来自多样化来源的29.8亿个token,支持分析分布式账本技术领域的技术涌现模式及市场-创新相关性。
Authors: Xabier de Zuazo, Vincenzo Verbeni, Eva Navas, Ibon Saratxaga, Mathieu Bourguignon, Nicola Molinaro
迁移学习使用Conformer模型,借助极少微调数据,实现了基于MEG的语音解码从感知任务到生成任务的高效迁移。
Authors: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang
可验证奖励的强化学习因统一错误惩罚而面临推理多样性降低的问题,对此,一种置信度感知的不对称错误惩罚方法通过基于 rollout 置信度动态调节优势加以解决。
Authors: Yichen Peng, Jyun-Ting Song, Siyeol Jung, Ruofan Liu, Haiyang Liu, Xuangeng Chu, Ruicong Liu, Erwin Wu, Hideki Koike, Kris Kitani
DyaDiT是一种多模态扩散Transformer,通过捕捉两位说话者之间的交互动态,从双人音频信号生成与上下文相符的人体动作。
Authors: Jiangxin Sun, Feng Xue, Teng Long, Chang Liu, Jian-Fang Hu, Wei-Shi Zheng, Nicu Sebe
一种面向自动驾驶的风险感知框架,利用世界建模和风险评估,无需显式专家监督即可泛化至专家演示之外的场景。
Authors: Christian Simon, Masato Ishii, Wei-Yao Wang, Koichi Saito, Akio Hayakawa, Dongseok Shim, Zhi Zhong, Shuyang Cui, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji
MMHNet通过整合分层方法和非因果Mamba实现从视频生成长音频,性能优于现有视频到音频方法。
Authors: Afshin Khadangi
TRC² 通过稀疏的块并行架构设计应对语言模型中的持续学习挑战,实现快速适应且避免灾难性遗忘。