推广 热搜: 京东  联通  iphone11  iPhone  摄像头  企业存储  XSKY  网络安全  京东智能采购  自动驾驶 

通义实验室开源MAI-UI模型:可跨应用操作 提升任务执行效率

   日期:2025-12-30     作者:itcg    浏览:603    我要评论    
导读:通义实验室开源MAI-UI模型:可跨应用操作 提升任务执行效率

通义实验室多模态交互团队近日正式对外发布并开源了一款名为MAI-UI的通用GUI智能体基座模型。这款模型的核心能力在于能够精准理解各类屏幕界面内容,并依据指令执行相应操作,从而完成跨应用、多步骤的复杂任务。例如,在出行场景中,它可以快速查询车票信息;在社交场景里,能将重要信息同步至通讯群组;在办公场景中,还可灵活调整会议安排等。

MAI-UI在设计上具备诸多创新特性。当用户给出的指令不够明确时,该模型不会盲目执行,而是会主动向用户提问,进一步澄清需求,确保任务执行的准确性。它还支持调用结构化工具,像地图搜索、路线规划API等,以此来替代繁琐的界面点击操作。这种设计不仅提高了任务执行的成功率,还显著提升了整体效率。

为了满足不同用户和场景的需求,MAI-UI模型家族推出了多种参数规模的版本,包括2B、8B等。目前,2B与8B这两个版本的模型已经对外开源,开发者可以根据自身需求进行选择和使用。

从性能表现来看,MAI-UI在多个GUI理解与任务执行基准测试中成绩斐然。在ScreenSpot-Pro、AndroidWorld等权威测试中,该模型均取得了当前领先的成绩,这充分证明了其在界面交互领域的强大实力。而且,MAI-UI的适用范围广泛,无论是手机还是电脑等不同操作系统的界面交互场景,它都能轻松应对。

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
0相关评论

头条阅读
推荐图文
相关资讯
网站首页  |  物流配送  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  违规举报  |  京ICP备14047533号-2