推广 热搜： 京东联通 iphone11 iPhone 摄像头网络安全企业存储自动驾驶 XSKY 京东智能采购

DeepSeek发布多模态大模型技术报告创新框架突破空间参照瓶颈

日期：2026-05-01 作者：itcg 浏览：2734 我要评论

导读：DeepSeek发布多模态大模型技术报告创新框架突破空间参照瓶颈

近日，人工智能领域迎来一项重要进展——DeepSeek在GitHub平台正式开源其多模态大模型，并同步发布技术报告，提出一种突破性推理框架，为解决多模态大语言模型（MLLMs）的空间参照难题提供了新思路。

当前主流多模态大语言模型虽在图像理解、文本生成等任务中表现突出，但其核心推理范式仍依赖链式思维（CoT），主要聚焦于语言层面的逻辑推导。技术报告指出，现有研究多通过提升图像分辨率、优化视觉编码器等技术手段缩小“感知鸿沟”，即增强模型对视觉细节的捕捉能力。然而，DeepSeek团队发现，这类方法未能触及根本问题——自然语言在描述复杂空间关系时存在天然缺陷，导致模型在处理需要精确空间参照的任务时，推理链条容易断裂。

例如，当用户要求模型“找出图片中所有位于红色方块右侧的圆形物体”时，传统模型可能因无法准确解析“右侧”这一空间概念而出现错误。DeepSeek团队认为，这种“参照鸿沟”是制约多模态模型性能的关键瓶颈，亟需从推理机制层面进行创新。

针对这一挑战，DeepSeek提出“基于视觉原语的思考”（Thinking with Visual Primitives）框架。该框架将点、边界框等基础视觉元素从单纯的输入数据升级为推理过程中的“思维单元”，使模型能够直接在思考链路中调用这些空间标记。通过将抽象认知与具体物理坐标绑定，模型获得了类似人类“指代”的能力——既能理解“红色方块”的视觉特征，又能精准定位其空间位置，进而推导出“右侧”的完整范围。

技术报告显示，该框架通过优化模型架构显著提升了视觉标记效率。尽管模型规模紧凑且图像标记预算较低，其在计数和空间推理等基准测试中的表现已与GPT-5.4、Claude-Sonnet-4.6等前沿模型持平。这一成果为开发更高效、可扩展的System-2类多模态智能提供了重要参考。

值得注意的是，DeepSeek此前已上线“识图模式”，该功能与“快速模式”“专家模式”并列，支持对图像中文字、物体、场景等多维度信息的综合理解，标志着其多模态能力从单一OCR识别向复杂空间推理的跨越。此次开源的模型及框架，或将推动多模态技术从“感知智能”向“认知智能”的深层演进。

人工智能 AI

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

0 条相关评论

头条阅读

推荐图文

AWS多个数据中心瘫痪，因可能的无人机或导弹攻击而被关闭	苹果AI大动作：桌面机器人、智能音箱、家用摄像头齐上阵
北京现代EO（ELEXIO）试驾：家用纯电SUV驾驶体验舒适又稳健	OPPO无网通信再升级：图片传输成亮点，探索去中心化通信新潜力

相关资讯

• 别再“瞎搞”了！神州数码“养虾三件套”让企业	• 星际光年：顶尖高校团队打造灵巧手，双轨战略推
• 探索黑洞之谜：从事件视界到霍金辐射的宇宙奇旅	• smart加速全球化布局！精灵#2概念车与精灵#6 EH
• 奥特曼回应住宅遭袭，点名批评对手Anthropic	• 消息称特努斯布局AI重组苹果硬件部门，缩短产品
• 全系标配真龙插混Pro！别克至境E7上市：15.49万	• 寒武纪回应互联网大厂自研芯片影响
• 通信与人工智能ETF领涨超5% 港股通互联网ETF回	• 国家统计局：我国人工智能发展势头强劲日均词

DeepSeek发布多模态大模型技术报告 创新框架突破空间参照瓶颈

DeepSeek发布多模态大模型技术报告创新框架突破空间参照瓶颈