HF Papers Archive

Overview

Date: 2026-02-27
Total Papers: 28
Total Upvotes: 619
Papers with GitHub: 16

Key Takeaways

通用世界模型（General World Models）的三一致性原则研究获得最高社区关注。
诊断驱动迭代训练（Diagnostic-Driven Iterative Training）成为提升多模态大模型（LMM）性能的关键范式。
面向真实场景的多模态Agent基准测试（MobilityBench、OmniGAIA）推动具身智能评估体系完善。
Agent系统优化呈现多样化路径，涵盖记忆增强、多Agent信息流剪枝与长程搜索效率提升。

Notable Papers

[2602.23152] The Trinity of Consistency as a Defining Principle for General World Models (👍168): 提出World Models的三大一致性原则（模态、空间、时间）并建立评估基准。
[2602.22859] From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models (👍142): 通过诊断驱动渐进进化机制实现大模型的持续迭代优化与盲点修复。
[2602.22638] MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios (👍87): 构建面向真实出行场景的可扩展基准，评估LLM-based路径规划Agent。
[2602.22897] OmniGAIA: Towards Native Omni-Modal AI Agents (👍46): 建立跨视频、音频、图像的复杂推理评估基准，并提升OmniAtlas Agent的工具使用能力。
[2602.22766] Imagination Helps Visual Reasoning, But Not Yet in Latent Space (👍32): 揭示多模态模型中潜在视觉推理的输入-潜在空间断裂问题，提出CapImagi改进方案。

Date: 2026-02-27 | Source: moonshotai/kimi-k2.5

2026-02-27

The Trinity of Consistency as a Defining Principle for General World Models

Authors: Jingxuan Wei, Siyuan Li, Yuhang Xu, Zheng Sun, Junjie Jiang, Hexuan Jin, Caijun Jia, Honghao He, Xinglong Xu, Xi bai, Chang Yu, Yumou Liu, Junnan Zhu, Xuanhe Zhou, Jintao Chen, Xiaobin Hu, Shancheng Pang, Bihui Yu, Ran He, Zhen Lei, Stan Z. Li, Conghui He

HF arXiv PDF GitHub

168

世界模型需要模态、空间和时间三种一致性原则以实现通用人工智能，并提出了一个评估多模态学习系统的基准。

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Authors: Hongrui Jia, Chaoya Jiang, Shikun Zhang, Wei Ye

HF arXiv PDF GitHub

142

Diagnostic-driven Progressive Evolution 通过迭代诊断与基于已识别弱点的针对性数据生成，实现大型多模态模型的持续改进。

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

Authors: Zhiheng Song, Jingshuai Zhang, Chuan Qin, Chao Wang, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu, Hengshu Zhu

HF arXiv PDF GitHub

MobileBench 是一个可扩展的基准测试，用于在真实场景中评估基于LLM的路径规划智能体，具有匿名化用户查询和用于可复现测试的确定性沙盒。

OmniGAIA: Towards Native Omni-Modal AI Agents

Authors: Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, Shijian Wang, Guanting Dong, Jiajie Jin, Hao Wang, Yinuo Wang, Ji-Rong Wen, Yuan Lu, Zhicheng Dou

HF arXiv PDF GitHub

OmniGAIA 基准评估多模态智能体在视频、音频和图像模态上的复杂推理任务，OmniAtlas 智能体则通过事后引导的树探索和 OmniDPO 微调提升工具使用能力。

Imagination Helps Visual Reasoning, But Not Yet in Latent Space

Authors: You Li, Chi Chen, Yanghao Li, Fanhu Zeng, Kaiyu Huang, Jinan Xu, Maosong Sun

HF arXiv PDF GitHub

研究表明多模态模型中的潜在视觉推理存在输入-潜在空间与潜在空间-答案的脱节问题，进而提出了CapImagine这一基于文本的方法，其性能优于复杂的潜在空间方法。

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Authors: Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang

HF arXiv PDF

EMPO² 是一种混合强化学习框架，通过整合记忆机制与 on-policy 和 off-policy 更新来增强大语言模型智能体的探索能力，并在复杂环境中展现出改进的性能和适应性。

AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

Authors: Yutong Wang, Siyuan Xiong, Xuebo Liu, Wenkang Zhou, Liang Ding, Miao Zhang, Min Zhang

HF arXiv PDF GitHub

AgentDropoutV2 是一种测试时框架，通过纠错与剪枝机制动态优化多智能体系统的信息流，无需重新训练。

Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

Authors: Qianben Chen, Tianrui Qin, King Zhu, Qiexiang Wang, Chengjun Yu, Shu Xu, Jiaqi Wu, Jiayu Zhang, Xinpeng Liu, Xin Gui, Jingyi Cao, Piaohong Wang, Dingfeng Shi, He Zhu, Tiannan Wang, Yuqing Wang, Maojia Song, Tianyu Zheng, Ge Zhang, Jian Yang, Jiaheng Liu, Minghao Liu

HF arXiv PDF GitHub

名为SMTL的深度学习框架通过以并行证据获取替代顺序推理，改进了高效长程智能体搜索，在多个研究基准上达到了最先进的性能，同时将推理步骤减少了70.7%。

MediX-R1: Open Ended Medical Reinforcement Learning

Authors: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed, Mohamed Zidan, Fahad Khan, Salman Khan, Rao Anwer, Hisham Cholakkal

HF arXiv PDF GitHub

MediX-R1提出了一种面向医疗多模态大语言模型的开放式强化学习框架，该框架利用多样化的奖励信号和基于LLM的评估，以提升超越多选格式的临床推理能力。

VGG-T^3: Offline Feed-Forward 3D Reconstruction at Scale

Authors: Sven Elflein, Ruilong Li, Sérgio Agostinho, Zan Gojcic, Laura Leal-Taixé, Qunjie Zhou, Aljosa Osep

HF arXiv PDF

VGG-T³通过测试时训练将可变长度键值表示转换为固定尺寸MLP，解决了三维重建中的可扩展性问题，实现了随输入视图数量的线性扩展，并相比传统softmax注意力方法获得显著加速。

Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

Authors: Euisoo Jung, Byunghyun Kim, Hyunjin Kim, Seonghye Cho, Jae-Gil Lee

HF arXiv PDF GitHub

一种面向扩散模型的混合并行框架，结合基于条件的划分与自适应流水线调度，在降低推理延迟的同时保持跨不同架构的图像质量。

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

Authors: Wenjia Wang, Liang Pan, Huaijin Pi, Yuke Lou, Xuqian Ren, Yifan Wu, Zhouyingcheng Liao, Lei Yang, Rishabh Dabral, Christian Theobalt, Taku Komura

HF arXiv PDF GitHub

便携式双iPhone系统可实现度量尺度的人-场景重建，并支持具身智能任务，包括基于物理的动画与机器人运动控制。

AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

Authors: Lance Ying, Ryan Truong, Prafull Sharma, Kaiya Ivy Zhao, Nathan Cloos, Kelsey R. Allen, Thomas L. Griffiths, Katherine M. Collins, José Hernández-Orallo, Phillip Isola, Samuel J. Gershman, Joshua B. Tenenbaum

HF arXiv PDF

AI系统在各类人工设计游戏中接受评估以衡量通用智能，结果显示相较于人类玩家，其性能存在显著差距，特别是在复杂认知任务中。

Causal Motion Diffusion Models for Autoregressive Motion Generation

Authors: Qing Yu, Akihisa Watanabe, Kent Fujiwara

HF arXiv PDF

Causal Motion Diffusion Models 提出了一种统一框架，在语义对齐的潜空间中使用因果扩散Transformer进行自回归运动生成，实现了快速、高质量的文本到运动合成，并提升了时间平滑性。

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Authors: Tilemachos Aravanis, Vladan Stojnić, Bill Psomas, Nikos Komodakis, Giorgos Tolias

HF arXiv PDF GitHub

检索增强的测试时自适应通过文本与视觉特征的学习融合，弥合了零样本与有监督开放词汇分割之间的性能差距。

veScale-FSDP: Flexible and High-Performance FSDP at Scale

Authors: Zezhou Wang, Youjie Li, Zhiqi Lin, Jiacheng Yang, Cong Xie, Guanyu Feng, Zheng Zhong, Ziyue Huang, Hongyu Zhu, Zhi Zhang, Yanghua Peng, Xin Liu

HF arXiv PDF GitHub

veScale-FSDP 提出了一种重新设计的完全分片数据并行系统，采用灵活分片和结构感知规划，以提升大规模模型训练的可扩展性和效率。

General Agent Evaluation

Authors: Elron Bandel, Asaf Yehudai, Lilach Eden, Yehoshua Sagron, Yotam Perlitz, Elad Venezian, Natalia Razinkov, Natan Ergas, Shlomit Shachor Ifergan, Segev Shlomov, Michal Jacovi, Leshem Choshen, Liat Ein-Dor, Yoav Katz, Michal Shmueli-Scheuer

HF arXiv PDF GitHub

尽管已有一些有前景的实现，通用智能体仍然发展不足，需要系统化的评估框架和基准来评估其在多样化环境中的真正通用性。

GeoWorld: Geometric World Models

Authors: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley

HF arXiv PDF

GeoWorld 通过利用双曲几何保留潜在状态结构并改进长程预测性能，解决了基于能量的预测世界模型的局限性。

What Makes a Good Query? Measuring the Impact of Human-Confusing Linguistic Features on LLM Performance

Authors: William Watson, Nicole Cho, Sumitra Ganesh, Manuela Veloso

HF arXiv PDF

对369,837个真实查询的分析表明，特定语言特征与大语言模型的幻觉可能性相关，识别出查询设计的风险图景。

No One Size Fits All: QueryBandits for Hallucination Mitigation

Authors: Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso

HF arXiv PDF

引入了一种名为 QueryBandits 的上下文赌博机框架，用于自适应选择最优查询重写策略以减少大语言模型中的幻觉，其性能优于静态策略，并可与闭源模型协同部署。

MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation

Authors: Taha Koleilat, Hojat Asgariandehkordi, Omid Nejati Manzari, Berardino Barile, Yiming Xiao, Hassan Rivaz

HF arXiv PDF GitHub

MedCLIPSeg 利用 patch 级嵌入和概率注意力将 CLIP 适配于医学图像分割，实现了数据高效、不确定性感知且具备可解释性的分割。

DLT-Corpus: A Large-Scale Text Collection for the Distributed Ledger Technology Domain

Authors: Walter Hernandez Cruz, Peter Devine, Nikhil Vadgama, Paolo Tasca, Jiahua Xu

HF arXiv PDF GitHub

DLT-Corpus数据集包含来自多样化来源的29.8亿个token，支持分析分布式账本技术领域的技术涌现模式及市场-创新相关性。

MEG-to-MEG Transfer Learning and Cross-Task Speech/Silence Detection with Limited Data

Authors: Xabier de Zuazo, Vincenzo Verbeni, Eva Navas, Ibon Saratxaga, Mathieu Bourguignon, Nicola Molinaro

HF arXiv PDF GitHub

迁移学习使用Conformer模型，借助极少微调数据，实现了基于MEG的语音解码从感知任务到生成任务的高效迁移。

Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning

Authors: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang

HF arXiv PDF

可验证奖励的强化学习因统一错误惩罚而面临推理多样性降低的问题，对此，一种置信度感知的不对称错误惩罚方法通过基于 rollout 置信度动态调节优势加以解决。

DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

Authors: Yichen Peng, Jyun-Ting Song, Siyeol Jung, Ruofan Liu, Haiyang Liu, Xuangeng Chu, Ruicong Liu, Erwin Wu, Hideki Koike, Kris Kitani

HF arXiv PDF

DyaDiT是一种多模态扩散Transformer，通过捕捉两位说话者之间的交互动态，从双人音频信号生成与上下文相符的人体动作。

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Authors: Jiangxin Sun, Feng Xue, Teng Long, Chang Liu, Jian-Fang Hu, Wei-Shi Zheng, Nicu Sebe

HF arXiv PDF

一种面向自动驾驶的风险感知框架，利用世界建模和风险评估，无需显式专家监督即可泛化至专家演示之外的场景。

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Authors: Christian Simon, Masato Ishii, Wei-Yao Wang, Koichi Saito, Akio Hayakawa, Dongseok Shim, Zhi Zhong, Shuyang Cui, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji

HF arXiv PDF

MMHNet通过整合分层方法和非因果Mamba实现从视频生成长音频，性能优于现有视频到音频方法。

Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

Authors: Afshin Khadangi

HF arXiv PDF

TRC² 通过稀疏的块并行架构设计应对语言模型中的持续学习挑战，实现快速适应且避免灾难性遗忘。

2026-02-27