

近日,臆想机视觉领域顶级国外会议 CVPR 2026 公布论文拜托已矣。百度共12篇考虑罢特出胜入选,有关论文隐敝多模态相识与生成、东谈主脸活体识别、矢量舆图、及时新视角合成、自动驾驶3D 场景重建与生成、3D+视频生成等多个前沿考虑标的,体现了百度在视觉与多模态领域的陆续本事累积与翻新探索。
手脚寰球臆想机视觉领域最具影响力的学术会议之一,CVPR 与 ICCV、ECCV 并排为视觉标的三大国外顶级会议。会议永恒保持极高的学术规范与竞争强度,每年眩惑来自寰球顶尖高校与科技公司的多量投稿。
频年来,CVPR 论文投稿量陆续攀升。根据会议官方邮件告知,2026 年共有16,092篇论文参加审稿历程,门径委员会最终保举拜托4,090篇论文,合座拜托率为25.42%。CVPR 2026 将于6月3日至7日在好意思国丹佛举行。
以下为百度入选论文共享:
01.
PP-OCRv5: A Specialized 5M-Parameter Model Rivaling Billion-Parameter Vision-Language Models on OCR Tasks
花式通达:https://github.com/PaddlePaddle/PaddleOCR
论文简介:PP-OCRv5是一款仅5M 参数的超轻量级 OCR 系统,其中枢亮点在于冲突了“模子越大越好”的传统不雅念放胆,通过数据为中心(Data-Centric)的系统化优化政策,在 OCR 性能上忘形以至超越 GPT-4o 等千亿参数的视觉言语大模子(VLMs)。
本事翻新: 论文开创了一套针对 OCR 数据的量化分析框架,从难度、准确性、各类性三个维度重构数据政策。要津发现包括:1)模子测验存在“难度甜点区”(中等难度数据最高效);2)模子对少许标签噪声具备一定的鲁棒性,从而为智能数据标注提供可能性;3)特征各类性是提高泛化技艺的决定性成分。
应用价值: 手脚工业级两阶段(检测+识别)惩办决策,PP-OCRv5不仅惩办了大模子产生幻觉、定位不准及算力高亢的痛点,更在手写、多言语及天然场景下进展优厚。同期该论文更向业界输出了一套通用的数据处理范式。有劲解释了通过密致化的“数据工程”,小模子不错在 OCR 场景忘形大模子,这一方法论为 OCR 场景开发高服从、低资本的行家模子提供了具有实战价值的参考旅途。

直不雅展示了 PP-OCRv5的极致性价比。在 OCR 任务中,PP-OCRv5以仅5M 的参数目(约为 Qwen3-VL-235B 的四万分之一),收尾了与 GPT-4o、Qwen2-VL 等千亿级大模子非常的准确率(1-EditDist约为0.93),有劲解释了 PP-OCRv5专用小模子在 OCR 任务上的广大后劲。

展示了 PP-OCRv5模子架构与数据开动优化历程全景图,该图明晰地拆解了 PP-OCRv5“以数据开动小模子”的本事阶梯。
经典的轻量化两阶段架构(检测1.2M+识别4.1M),确保推理速率;
数据清洗与优化活水线:通过置信度筛选(Data Difficulty)、噪声容忍实验(Data Accuracy)和 CLIP 特征聚类(Data Diversity)三大引擎,构建高质料测验集;
基于上述政策构建的2260万样本大范畴多场景数据集漫步;
最终已矣:PP-OCRv5在手写、多言语、复杂配景等多场景下进展优异。
02.
PaddleOCR-VL: Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing
花式通达:https://github.com/PaddlePaddle/PaddleOCR
论文简介:文档解析是一项细粒度的任务,图像分辨率对解析性能有着至关进犯的影响。天然当今期骗视觉言语模子(VLM)的前沿考虑通过高分辨率输入提高了模子进展,但这往往会导致视觉 Token 数目呈二次方增长,从而显赫加多了臆想资本。
咱们将这种低效归因于文档图像中存在多量的视觉区域冗余(如空缺配景)。为了惩办这一问题,咱们建议了 PaddleOCR-VL,这是一种新颖的“由粗到精(Coarse-to-Fine)”架构,它专注于语义有关的要津区域,同期阻挠冗余信息,从而同步提高解析效率与性能。具体而言,咱们建议了一个轻量级的有用区域聚焦模块(VRFM),该模块期骗定位与高下文干系展望技艺来识别有用的视觉 Token。随后,咱们缱绻并测验了一个紧凑且遒劲的0.9B 视觉言语模子(PaddleOCR-VL-0.9B),在 VRFM 输出的教导下进行细粒度识别,幸免了对整幅大图的径直臆想。
平淡的实验标明,PaddleOCR-VL 在页面级解析和元素级识别方面均达到了开首进(SOTA)的水平。它不仅显赫优于现存惩办决策,与顶级 VLM 比较也极具竞争力,而且在大幅减少视觉 Token 数目和参数目的同期,收尾了极快的推理速率。这充剖析释了针对性的“由粗到精”解析决策在收尾准确、高效文档相识方面的罕见有用性。

(左侧)在 OmniDocBench v1.5泰斗榜单上,PaddleOCR-VL 在笼统得分和子项方针上均超越了 MinerU2.5、GPT-4o、Qwen2.5-VL-72B 等国表里顶尖模子。
(右侧)PaddleOCR-VL 的三个版块(S, M, L)一齐位于图表的最左上角(“黄金区域”)。这意味着它以极少的视觉 Token(每每唯有竞品的1/3到1/2)和更小的模子参数,收尾了比72B 等其他大模子更高的文档解析精度。
03.
FaithFusion: Harmonizing Reconstruction and Generation via Pixel-wise Information Gain
论文通达:https://arxiv.org/abs/2511.21113
论文简介:在可控的驾驶场景重建和3D 场景生成中,在广大的视角变化下保持几何保真度,同期合成视觉上合理的(传神的)外不雅是至关进犯的。可是,将基于几何的3DGS(3D 高斯溅射)与外不雅开动的扩散模子(Diffusion models)进行有用会通面对着固有的挑战,因为穷乏像素级的、3D 一致性的裁剪规范,这每每会导致过度成立(over-restoration)和几何漂移(geometric drift)。
为了惩办这些问题,咱们引入了 FaithFusion,这是一个由像素级盼愿信息增益(Expected Information Gain, EIG)开动的3DGS-扩散模子 会通框架。EIG 手脚连贯的时空合成的统一政策:它教导扩散模子手脚空间先验,去细化(优化)高不笃定性的区域;同期,它通过像素级加权将裁剪的内容索要(蒸馏)回3DGS 中。
由此产生的即插即用(plug-and-play)系统无需额外的先验条目或结构修改。

04.
Agentic Learner with Grow-and-Refine Multimodal Semantic Memory
论文简介:建议了 ViLoMem,这是一种双流纪念框架,用于构建紧凑的、基于图式的纪念。它诀别对视觉干扰模式和逻辑推理差错进行编码,使多模态大言语模子大致从得胜和失败的劝诫中学习。解雇增长与优化原则,该系统冉冉累积和更新多模态语义常识——保留肃肃、可推行的政策,同期幸免不酣畅性淡忘。在九个多模态基准测试中,ViLoMem 陆续提高了 pass@1准确率,并显赫减少了重复的视觉和逻辑差错。消融实考据实了具有明确干扰-幻觉分离的双流纪念的必要性,展示了面向终生学习和跨领域智能体学习的差错感知多模态纪念的价值。本本事面向百度视频相识、视频问答等业务场景提供惩办决策,以更低的臆想与存储资本,收尾了更强的永劫纪念建模技艺。

ViLoMem 框架概述:
纪念轮回:一种闭环学习机制,求解器会检索并期骗逻辑纪念和视觉纪念。检索以文本问题过甚配对图像为条目。然后,求解器实际推理门径(动作),考据器对这些门径进行评估,以过滤冗余或无效的轨迹。剩余的轨迹会根据其各自的类型用于更新两个纪念流。
纪念生成:一种差错归因框架,它期骗大言语模子(LLM)进行逻辑分析,期骗多模态大言语模子(MLLM)进行视觉分析,通过基于相通性的合并和创建操作生成结构化的纪念模式。
纪念检索:荒谬的双流检索机制。视觉纪念阅历两个阶段的过程,包括图像镶嵌检索和特定问题检索,因为视觉信息必须以图像内容和文本查询为条目。逻辑纪念通烦躁题分析和文本镶嵌相通性进行检索。
05.
GenHOI: Towards Object-Consistent Hand–Object Interaction with Temporally Balanced and Spatially Selective Object Injection
论文简介:GenHOI (Towards Object-Consistent Hand-Object Interaction) 通过轻量化模块增强了预测验视频生成模子的换物技艺,为收尾高一致性、物理果然的手物交互(HOI)视频提供了新决策 。在视频裁剪领域,传统扩散模子在处理手物交互时,常因穷乏精确的时辰驾御导致物体发生形变或身份丢失,尤其在长视频中极易出现“视觉衰减” 。
GenHOI 引入了 Head-Sliding RoPE(头滑动旋转位置编码),通过为参考物体分拨特定的时辰偏移,确保其影响力在全帧平衡漫步,有用缓解了长序列生成中的物体外不雅退化问题 。调解空间提神力闸门(Spatial Attention Gate),模子能将模子提神力精确锁定在手物构兵区域,在提高商品区域生奏效果的同期,确保了配景视频的保真度 。
该决策极其轻量,新增参数目仅占原模子的0.95%,却能手脚视频管线中的“交互增强插件”,确保动作与物体的物理契合,惩办形变与结构崩溃问题 。在电市集景下,GenHOI 赋予了卖家“商品替换”的技艺:无需重拍视频,即可将视频中的谈具替换为新的商品(如将水杯替换为品牌奶茶或口红),且手部抓执动作天然严谨 。这种低资本、高一致性的视频创作方式能显赫增强商品的千里浸式演示效果,助力电商平台提高革新率并裁减拍摄资本 。

该图展示了预测验的通用模子,在较为复杂的手持商品展示场景中,较难绝对幸免物体纹理蒙胧或局部形变等外不雅退化忻悦。

GenHOI 则尝试通落伍空注入机制的优化,在动态交互过程中提高物体的身份一致性,力争在荫庇或大幅度位移场景下,米兰体彩app呈现出更天然、结构更稳健的互动视觉效果 。
06.
RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations
论文简介:RnG (Reconstruction and Generation) 通过单一 Transformer 架构统一了3D 重建与新视角生成,为高动态、高一致性的视觉任务提供了新范式 。在视频生成领域,传统扩散模子虽能产生高超的视频已矣,但常因穷乏底层3D 驾御导致物体在透露中发生形变 。RnG 期骗重建教导的因果提神力机制,确保生成的系数视角都严格解雇合并套隐式3D 表征 。 其推理速率比扩散模子快100倍以上,可在0.1秒内完成单帧生成 。这意味着它能手脚视频生成管线中的“及时几何底座”,为模子提供极速且空间一致的参考帧,透顶惩办视频精明与结构崩坏问题 。RnG 赋予了普通电商卖家“造谣3D 扫描”的技艺,无需高亢的扫描开辟或复杂的影相位姿校准,只需期骗手机顺手拍摄几张商品相片,RnG 即可推断出物体完整的3D 几何与纹理。借助其高效的 KV-Cache 渲染本事,电商平台不错收尾丝滑的360° 商品环绕展示或 AR 试穿试戴,让消耗者在毫秒级蔓延下从苟且视角查看商品细节,极大提高革新率并裁减退货率 。

传统模子只可重建出“看得到”的区域,导致几何结构落空、近似且严重缺失。

RnG 则展现了齐全的“脑补”技艺,生成了多视角一致且完整的3D 结构 。
{jz:field.toptypename/}07.
CoLoGen: Progressive Learning of Concept–Localization Duality for Unified Image Generation
论文简介:本文建议统一扩散生成框架 CoLoGen,惩办多任务图像生成中宽广存在的“观点-定位表征冲突”:如 inpainting /个性化生成更依赖语义观点相识,而可控生成/grounding 更依赖空间定位精度,径直多任务连络测验会导致性能彼此干扰。CoLoGen 接受“由易到难的渐进式课程学习”,先通过 mask inpainting 与 grounding 诀别竖立观点生成与定位技艺,再彭胀到深度/角落/分割等多条目适度,最终在指示裁剪与个性化生成中会通两类技艺。中枢翻新模块为 PRW(Progressive Representation Weaving):通过动态路由遴荐轻量行家网罗(KV 投影行家),并引入 Veteran Gate监督肃肃行家分拨,从而冉冉“编织”观点与定位表征,收尾统一模子在裁剪、适度生成、个性化生成等任务上取得优于或可比 SOTA 的效果,在面向统一的图像生成/裁剪等卑劣任务中具备较大后劲。

直不雅对比 Multi-task Co-training vs CoLoGen staged training,强调观点/定位技艺分阶段会通。

PRW 模块通过遴荐行家生成适配的 Key/Value,收尾观点与定位表征动态调动。
08.
OptiMVMap: Offline Vectorized Map Construction via Optimal Multi-vehicle Perspectives
论文简介:本文建议 OptiMVMap,将多车协同建图建模为“先优选、相遇通”的新范式,突破单车轨迹视角受限导致的荫庇与拓扑缺失问题。中枢翻新在于:一是缱绻不笃定性感知的最优车辆遴荐(OVS)模块,从候选车辆中筛选最能补充自车盲区的少许视角,在显赫裁减臆想支出的同期幸免冗余共线视角;二是建议跨车提神力(CVA)与语义感知噪声过滤(SNF),收尾对位姿过失与荫庇伪影的鲁棒对皆与阻挠,从而在 BEV 层完成高质料会通。比较肤浅堆叠多车数据,该方法以更少视角赢得更完整、拓扑更准确的矢量化舆图。在 nuScenes 与 Argoverse2上显赫提高 mAP,考据了不笃定性教导遴荐在高精舆图构建中的要津价值,具备面向范畴化自动驾驶与众源建图系统的本色应用后劲。

OptiMVMap 总体框架(Select then Fuse):
当先,最优车辆遴荐模块(OVS)根据对自车 BEV 不笃定性(尤其是荫庇与远距区域)的盼愿裁减进程,对周围非自车进行排序,并选取紧凑的 Top-K 车辆。
随后,选中视角通过具备位姿过失鲁棒性的跨车提神力模块(CVA)进行对皆,再由语义感知噪声过滤模块(SNF)去除伪影并完成特征团员,生成会通明的 BEV 表征。
终末,接受 DETR 格扶助码器在会通 BEV 上进行查询,输出矢量化舆图实例。该框架为即插即用缱绻,与具体检测器架构无关。
09.
From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing
论文简介:TAR-FAS (Tool-Augmented Reasoning FAS) 框架将东谈主脸防伪 (FAS) 节约单的二分类任务重构为“带视觉器具的念念维链” (Chain of Thought with Visual Tools, CoT-VT) 模式 。针对大模子对微不雅伪造陈迹不解锐的问题,该框架允许模子在初步不雅察后,主动调用 FFT、LBP 等外部视觉器具,对图像的频域、材质、结构等细节进行深度取证。
论文建议了由行家模子教导的数据标注活水线,构建了包含1.6万条多轮器具调用推理轨迹的 ToolFAS-16K 数据集 。在测验阶段,通过 FAS 常识搬动、口头注入及各类性器具组相对政策优化(DT-GRPO),使模子能自主学习高效的器具调用政策 。实考据明,TAR-FAS 在极具挑战性的1对11跨域测试合同下达到了 SOTA 性能,比较之前最优方法 HTER 裁减了约 3%,显赫提高了防伪检测的泛化性与可解释性。TAR-FAS 框架通过期骗伪造图的频域和局部特征抽取更为针对的把柄,为百度东谈主脸活体鉴伪应答深度盘曲提供了更好的看管技巧。

TAR-FAS 通过借助外部视觉 Tool Box 收尾了多轮推理,将活体检测过程重塑为 CoT-VT 范式,提高模子泛化性和果然度。

通过监督微结伙 DT-GRPO 算法,不错根据苟且自界说 Tool Box 微调预测验模子提高卑劣任务的泛化性和果然度。
10.
Hugging Visual Prompt and Segmentation Tokens: Consistency Learning for Fine-Grained Visual Understanding in MLLMs
论文简介:建议 FCLM,通过翻新的一致性示寂函数,在潜在空间强制对皆“视觉教唆 Token(输入)”与“分割 Token(输出)”,收尾了区域描摹与像素级定位任务的彼此增强。缱绻 Hybrid Region Extractor,会通像素级细节、语义教导及空间位置信息,生成高辨识度的视觉教唆镶嵌。引入留神定位指代抒发分割(DL-RES)任务,填补了长文本复杂描摹定位技艺的评估空缺。在 RefCOCO、ReasonSeg 等7项任务中达到 SOTA,展现了罕见的细粒度相识与泛化技艺。其中枢价值在于提高了AI对洞开全国细节的感知与推理水平。

左侧 Grounding(定位任务): 这是一个“文到图”的过程。输入是图像和文本指示,通过 LLM 输出一个分割 [SEG],生成主见的分割掩码。
右侧 Captioning(描摹任务): 这是一个“图到文”的过程。输入是图像和主见区域的掩码。掩码通过论文建议的“羼杂区域索要器”被编码为视觉教唆,生成对该区域的留神文本描摹。
语义一致性: 图中中间的双向箭头和热力争揭示了 (手脚输入的教唆特征) 和 [SEG](手脚输出的分割特征) 天然扮装不同,但在潜在空间中指向的是合并个语义对象。FCLM 通过在特征漫步上保持一致,收尾了两个任务彼此促进。
11.
Blink: Dynamic Visual Token Resolution for Enhanced Multimodal Understanding
论文简介:现存多模态大模子在处理视觉信息时薄情了对显赫区域的感知增强,从而导致相识偏差与幻觉问题。本文建议了名为 Blink 的动态视觉分辨率感知框架,师法东谈主类视觉“注视与聚焦”的生理机制,通过显赫性教导扫描与动态 Token 分辨率模块,在单次前向传播过程中动态识别并强化进犯的视觉 Token,通过 Token 超分辨率(TokenSR)模块对待彭胀的显赫区域进行细粒度增强;同期,在后续提神力发生搬动后丢弃不再怜惜的视觉 Token。该方法收尾了广度探索与细粒度聚焦的自恰当平衡,显赫提高多模态大模子的视觉感知与推理技艺。
Blink 具备细腻的通用性与落地性:TokenSR 模块轻量可孤立测验,而且以插件方式接入现存多模态大模子,无需调动骨干结构,动态分辨率机制在单次前向传播内完成,兼顾性能提高与推理效率,为多模态大模子的视觉感知增强及进化提供了一种肤浅、高效且可彭胀的惩办决策。

12.
Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models
论文简介:本文针对统一多模态模子(UMMs)中“相识强、生成弱”的技艺失衡问题,建议了一种基于模子内生知道技艺的自监督强化学习框架。中枢翻新在于缱绻了 Token 级文本-图像对皆内在奖励机制(GvU):模子在生成图像后,期骗本人相识分支对生成已矣进行细粒度语义评估,并将相识与生成之间的语义各异革新为可优化的奖励信号,收尾“自评估—自矫正—自提高”的闭环学习。粗鄙而言,非常于让模子在画完图后我方打分,并根据相识技艺不休修正绘图政策,从而收缩相识与生成之间的技艺鸿沟。
该方法无需额外标注或外部监督,显赫提高复短文本到图像生成的语义一致性与细粒度抒发技艺,同期反向增强模子的视觉相识技艺。该考虑为构建果然宗一、可自进化的多模态系统提供了新念念路,具有平淡应用后劲,如高精度内容创作、智能缱绻辅助及复杂视觉推理生成等场景。

下一篇:没有了






备案号: