推广 热搜： 京东联通 iPhone iphone11 摄像头网络安全自动驾驶企业存储 XSKY 京东智能采购

全球首个原生多模态架构 NEO 横空出世，视觉与语言完美融合

日期：2025-12-10 作者：itcg 浏览：2640 我要评论

导读：全球首个原生多模态架构 NEO 横空出世，视觉与语言完美融合

在人工智能领域的最新动态中，Ilya Sutskever 的最新声明掀起了一场巨变。他表示，单靠扩大模型规模的时代已经结束，未来的突破将来自于更智能的架构设计。对此，整个 AI 界都感受到了深刻的转变，因为过往几年的发展路径似乎陷入了数据与参数的 “唯规模论”，然而这一方式正面临逐渐减弱的收益。

在这一背景下，由中国研究团队打造的开源原生多模态架构 NEO 应运而生。与之前主流的多模态模型，如 GPT-4V 和 Claude 3.5 等的拼接方式不同，NEO 从根本上重新定义了视觉与语言的关系。传统的多模态模型通常将视觉编码器与语言模型分开，二者在数据层面粗暴地拼接在一起，导致信息传递不够顺畅。而 NEO 则通过创建一个统一的模型，使视觉与语言从一开始就紧密结合，犹如两者血脉相连。

NEO 的核心创新在于三大技术突破。首先，它引入了原生图块嵌入技术，允许 AI 直接从像素开始构建高保真的视觉表征，提升了图像细节的捕捉能力。其次，NEO 开发了原生三维旋转位置编码，利用高频和低频的不同组合，准确地处理图像和文本中的位置关系，形成一个智能的时空坐标系。最后，原生多头注意力机制使得视觉与语言的信息可以在同一个框架下进行交流，极大增强了模型对复杂语义的理解能力。

令人惊讶的是，NEO 在仅用传统模型十分之一的训练数据的情况下，便在多项评测中追平甚至超越了许多旗舰级对手。这一成果不仅证明了原生架构的有效性，也标志着 AI 模型发展的新方向。

智能 AI时代

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

0 条相关评论

头条阅读

推荐图文

AWS多个数据中心瘫痪，因可能的无人机或导弹攻击而被关闭	苹果AI大动作：桌面机器人、智能音箱、家用摄像头齐上阵
北京现代EO（ELEXIO）试驾：家用纯电SUV驾驶体验舒适又稳健	OPPO无网通信再升级：图片传输成亮点，探索去中心化通信新潜力

相关资讯

• 古尔曼爆料：苹果2026年秋季将推新款Apple TV、	• OPPO新机PYE110入网：7820mAh大电池主打长续航
• 华为MateBook Fold非凡大师新篇：金色外观登场	• 荣耀携手阿莱：以专业电影技术赋能Robot Phone
• 拓竹 3D 打印机入驻苹果 Apple 授权专营店	• 苹果呼吁用户尽快完成设备升级：覆盖iPhone、Ma
• 首个鸿蒙PC开源AI统一工作台JiuwenSwarm亮相	• 荣耀携手阿莱共筑影像新篇：电影级技术融入移动
• OpenAI失控智能体再惹事端科技公司Modal客户遭	• Ozlo Sleepbuds 2睡眠耳机焕新登场，续航音质双