如果不是深入挖掘学术与产业动态,很多人或许仍不知晓:前商汤科技执行研究总监、AIGC产品“秒画”的核心推动者刘宇,已悄然带领新公司完成多轮融资,最新估值突破13.2亿美元。这一消息并非通过高调的融资通稿公布,而是隐匿于其个人主页的动态更新中:2025年1月创立专注“实时交互多模态内容”的AI初创企业;2月完成种子轮融资,由红杉中国与IDG资本联合领投;8月Pre-A轮估值超4亿美元;11月A轮估值跃升至13.2亿美元。仅用一年时间,这家初创企业便跻身全球视频模型创业公司第一梯队,与Runway(30亿美元)、Luma(40亿美元)、Pika Labs(数亿美元)等头部玩家同台竞技。
更引人注目的是,尽管估值已达13.2亿美元,这家公司却始终未正式公布名称,其核心产品也未公开亮相。然而,业内通过蛛丝马迹推测,刘宇的创业项目极有可能是Vivix AI。Vivix官网描述的技术方向——聚焦“内容实时互动”与“下一代视觉生成引擎”——与刘宇个人主页的愿景高度吻合。进一步追溯公开信息,Vivix Group Limited注册于香港,控股杭州、上海两家名为“维悦时刻科技”的企业,其法人代表余锋伟与宋广录均曾任职商汤,而刘宇本人也曾长期担任商汤研究执行总监。这种“老同事再聚首”的创业组合,让推测更具可信度。刘宇今年在ICML、CVPR等顶会发表的多篇论文中,余锋伟与宋广录均位列合作者名单,公司官网对估值的描述也与刘宇个人主页一致,多重线索相互印证。
刘宇的学术与产业履历堪称“教科书级”。他在香港中文大学MMLab完成博士训练,师从王晓刚,早期研究聚焦图像识别、检测与多视角三维理解,曾在ImageNet、MOT等国际竞赛中斩获冠军。加入商汤后,他担任执行研究总监,带领近百人团队开发大规模AIGC与多模态交互模型,掌管超4000张GPU的算力资源。其主导的“秒画”产品上线9天用户数突破300万,日活超53万,成为早期“AI画图+内容社区”模式的标杆案例。这段经历赋予他双重优势:既具备“数千卡算力+千万级用户”的实战经验,又完成了从“识别”到“生成+多模态+长时序”的技术转型,为视频模型创业埋下伏笔。
从融资节奏看,这家初创企业的成长速度堪称“极致”。2025年1月成立后,2月即锁定红杉中国与IDG资本的种子轮投资;8月Pre-A轮估值突破4亿美元;11月A轮估值达13.2亿美元。这一速度在全球AI视频赛道亦属罕见:Runway在2025年4月完成3.08亿美元D轮融资后估值达30亿美元;Luma AI同年底融资9亿美元后估值升至40亿美元;Pika Labs在2024-2025年间多轮融资后估值徘徊于4.7亿至7亿美元区间。相比之下,刘宇的新公司在产品未全面公开、品牌知名度有限的情况下,已跻身估值中上部,资本押注的逻辑值得深究。
刘宇对公司方向的描述仅有一句话:“致力于实时交互式多模态内容”,但结合Vivix的技术路线与他的研究轨迹,可拼凑出更清晰的图景。传统互联网以“信息流”为核心,内容被预制、剪辑后单向推送,用户被动接收。Vivix则判断,下一代互联网的底层界面将是“交互式生成AI”:用户与系统实时互动,系统通过视觉、听觉、文字、动作等多模态输入即时生成个性化内容,创作过程变为持续流动的互动。这一愿景的核心挑战在于“实时性”——当前最强视频生成模型虽质量惊人,但推理速度慢、成本高,难以支撑交互场景。Vivix的解决方案涉及三方面:其一,通过自适应低精度计算动态调整位宽,在精度与效率间取得平衡,降低计算、内存与通信成本;其二,开发基于深度学习编译器的推理引擎,自动优化算子切分与计算图融合,提升硬件利用率;其三,设计混合多维并行策略,针对视频的时间、空间、通道与模态维度拆分组合,适配异构GPU环境。这些技术使推理速度提升两个数量级,实现“0.6T秒生成T秒画面”的突破。
速度与成本问题解决后,Vivix将矛头指向“以语言为中心的智能范式”。当前主流大模型以“预测下一个token”为目标,本质是统计模仿,难以理解思想本质;训练数据经语言过滤后存在偏差,模型学到的世界是“语言回声”的缩影;多模态系统虽能处理图像、视频,但常将信息路由回语言通道,导致信息损失与认知偏差。Vivix的解决方案是构建原生多模态系统:视觉、听觉与动态画面作为“一等公民”在统一标记空间交互,语言仅是通路之一,而非“总路由”。这一设计旨在让AI直接跨模态感知世界,形成非语言中心的内部表征,从而更贴近现实、更具自主性。
这家估值13.2亿美元的初创企业之所以引发行业关注,不仅因其融资速度,更因其选择了一条“反向道路”:在视频模型竞争白热化的阶段,不追求更精美的生成效果或更高参数,而是试图将视频转化为实时交互语言,重新定义互联网界面为“AI原生、实时、多模态”形态。尽管团队规模不足20人,却覆盖模型、系统、编译器与产品体验全栈,技术野心可见一斑。目前,其核心产品尚未亮相,市场考验尚未开始,但若赌对方向,或将推动视频从被动内容形态升级为人与AI协同创造的实时界面。资本押注的是可能性,行业关注的是变量,而答案终将由产品揭晓——它是技术炫技的短暂火花,还是互联网交互新范式的开端?这道题,答案不远。




