推广 热搜: 京东  联通  iphone11  iPhone  摄像头  网络安全  企业存储  自动驾驶  XSKY  京东智能采购 

DeepSeek发布多模态大模型技术报告 创新框架突破空间参照瓶颈

   日期:2026-05-01     作者:itcg    浏览:2734    我要评论    
导读:DeepSeek发布多模态大模型技术报告 创新框架突破空间参照瓶颈

近日,人工智能领域迎来一项重要进展——DeepSeek在GitHub平台正式开源其多模态大模型,并同步发布技术报告,提出一种突破性推理框架,为解决多模态大语言模型(MLLMs)的空间参照难题提供了新思路。

当前主流多模态大语言模型虽在图像理解、文本生成等任务中表现突出,但其核心推理范式仍依赖链式思维(CoT),主要聚焦于语言层面的逻辑推导。技术报告指出,现有研究多通过提升图像分辨率、优化视觉编码器等技术手段缩小“感知鸿沟”,即增强模型对视觉细节的捕捉能力。然而,DeepSeek团队发现,这类方法未能触及根本问题——自然语言在描述复杂空间关系时存在天然缺陷,导致模型在处理需要精确空间参照的任务时,推理链条容易断裂。

例如,当用户要求模型“找出图片中所有位于红色方块右侧的圆形物体”时,传统模型可能因无法准确解析“右侧”这一空间概念而出现错误。DeepSeek团队认为,这种“参照鸿沟”是制约多模态模型性能的关键瓶颈,亟需从推理机制层面进行创新。

针对这一挑战,DeepSeek提出“基于视觉原语的思考”(Thinking with Visual Primitives)框架。该框架将点、边界框等基础视觉元素从单纯的输入数据升级为推理过程中的“思维单元”,使模型能够直接在思考链路中调用这些空间标记。通过将抽象认知与具体物理坐标绑定,模型获得了类似人类“指代”的能力——既能理解“红色方块”的视觉特征,又能精准定位其空间位置,进而推导出“右侧”的完整范围。

技术报告显示,该框架通过优化模型架构显著提升了视觉标记效率。尽管模型规模紧凑且图像标记预算较低,其在计数和空间推理等基准测试中的表现已与GPT-5.4、Claude-Sonnet-4.6等前沿模型持平。这一成果为开发更高效、可扩展的System-2类多模态智能提供了重要参考。

值得注意的是,DeepSeek此前已上线“识图模式”,该功能与“快速模式”“专家模式”并列,支持对图像中文字、物体、场景等多维度信息的综合理解,标志着其多模态能力从单一OCR识别向复杂空间推理的跨越。此次开源的模型及框架,或将推动多模态技术从“感知智能”向“认知智能”的深层演进。

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
0相关评论

头条阅读
推荐图文
相关资讯
网站首页  |  物流配送  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  违规举报  |  京ICP备14047533号-2