推广 热搜: 京东  联通  iphone11  iPhone  摄像头  企业存储  XSKY  网络安全  京东智能采购  自动驾驶 

苹果推出Pico-Banana-400K数据集,为AI图像编辑模型训练提供新助力

   日期:2025-10-30     作者:itcg    浏览:589    我要评论    
导读:苹果推出Pico-Banana-400K数据集,为AI图像编辑模型训练提供新助力

苹果公司近日推出了一项名为Pico-Banana-400K的图像研究数据集,该数据集包含40万张经过精心编辑的图像,旨在为文本引导的图像编辑技术提供更强大的训练和评估资源。这一成果已通过预印本平台arXiv发布,完整数据集也在GitHub上向全球研究人员开放,采用非商业性研究许可协议,允许学术机构自由使用,但禁止商业用途。

研究团队指出,当前图像编辑领域虽然技术进步显著,但开放研究仍面临数据集质量不足的挑战。现有数据集多依赖专有模型生成的合成数据,或仅包含有限的人工筛选样本,普遍存在领域偏差、编辑类型分布不均以及质量控制不一致等问题,这些问题严重制约了鲁棒图像编辑模型的发展。为突破这一瓶颈,苹果团队决定构建一个更全面、更具代表性的数据集。

Pico-Banana-400K的构建过程始于对OpenImages数据集中真实照片的筛选,确保样本涵盖人物、物体及含文字场景等多样化内容。研究团队设计了35种不同类型的图像编辑指令,并将其归类为八大类别,包括像素与光度调整(如添加复古滤镜)、以人为中心的编辑(如将人物转换为卡通风格)、场景构成与多主体编辑(如改变天气条件)、对象级语义修改(如移动物体位置)、图像缩放(如放大画面)等。

在编辑过程中,研究人员将原始图像与编辑指令输入谷歌的Gemini 2.5-Flash-Image模型(也被称为Nanon-Banana)进行生成,随后利用Gemini 2.5-Pro模型对结果进行自动评估,确保编辑结果既准确遵循指令,又具备良好视觉质量。只有通过双重验证的样本才会被纳入最终数据集。

该数据集不仅包含单轮编辑的样本,还涵盖了多轮连续编辑序列,以及“偏好对”样本——即成功与失败编辑结果的对比,帮助模型学习区分理想与不良输出。这种设计使得Pico-Banana-400K能够支持更复杂的编辑任务,并为模型训练提供更丰富的反馈信号。

尽管研究团队承认Nanon-Banana模型在精细空间控制、布局外推和文字排版处理方面仍存在局限,但他们强调,Pico-Banana-400K的目标是为下一代文本引导图像编辑模型提供一个坚实、可复现的基础。通过公开这一资源,苹果希望推动图像编辑领域的技术进步,并为研究人员提供更高效的工具,以应对开放研究中的数据挑战。

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
0相关评论

头条阅读
推荐图文
相关资讯
网站首页  |  物流配送  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  违规举报  |  京ICP备14047533号-2