推广 热搜: 京东  联通  iphone11  摄像头  企业存储  XSKY  京东智能采购  iPhone  网络安全  自动驾驶 

超越GPT-4V,苹果Ferret-UI引领智能新纪元!

   日期:2024-04-18     作者:itcg    浏览:653    我要评论    

IT采购网4月11日消息,苹果公司于4月8日发布了一款名为Ferret-UI的新型多模态大语言模型,该模型能够有效理解和与屏幕信息进行交互,并在所有基本UI任务上超越了GPT-4V。这一技术的发布,让人们对未来智能交互的期待愈发高涨。

据IT采购网了解,Ferret-UI被设计为一种专为理解移动UI屏幕量身定制的MLLM,它具备指向、定位和推理等多重能力。该技术通过灵活的输入格式和基础任务,能够在移动用户界面屏幕上执行各类引用任务。Ferret-UI的一个显著特点是“任何分辨率”技术,这项技术通过放大细节来解决UI屏幕中小型对象的识别问题,进而提升模型对UI元素的理解精度。

网友对此技术表示出极大的热情,纷纷称赞其“泰裤辣”。尽管苹果的泰坦项目曾遭遇挫折,但Ferret-UI的发布无疑为苹果在AI领域注入了新的活力。人们期待,如果这项技术能够应用于Siri,那么未来的智能助手将会变得更为聪明和便捷。

此外,研究人员为了增强模型的推理能力,特别编译了用于高级任务的数据集,包括详细描述、感知/交互对话和功能推理。在基础任务性能的比较上,Ferret-UI展现了对UI屏幕的出色理解能力以及执行开放式指令的能力。

随着技术的不断进步,掌握应用程序屏幕并使AI像人类一样进行交互,苹果未来或将改变MLLM的游戏规则,为我们带来更加智能和便捷的生活体验。

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯

头条阅读
推荐图文
相关资讯
网站首页  |  物流配送  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  违规举报  |  京ICP备14047533号-2
Processed in 0.107 second(s), 11 queries, Memory 0.45 M