推广 热搜： 京东联通 iphone11 iPhone 摄像头企业存储 XSKY 网络安全京东智能采购自动驾驶

苹果推出Pico-Banana-400K数据集，为AI图像编辑模型训练提供新助力

日期：2025-10-30 作者：itcg 浏览：1244 我要评论

导读：苹果推出Pico-Banana-400K数据集，为AI图像编辑模型训练提供新助力

苹果公司近日在学术研究领域迈出重要一步，正式推出名为《Pico-Banana-400K：面向文本引导图像编辑的大规模数据集》的研究成果，并同步发布包含40万张图像的完整数据集。该数据集采用非商业性研究许可协议，全球研究人员和学术机构可自由用于非盈利目的的探索。

研究团队指出，当前图像编辑领域面临关键瓶颈：现有公开数据集普遍存在三大缺陷——依赖专有模型生成的合成数据、人工筛选子集规模有限、质量评估标准不统一。这些问题导致领域偏移、编辑类型分布失衡等顽疾，严重制约鲁棒性图像编辑模型的开发。为此，苹果选择以开源方式构建更全面的基准数据集。

数据集构建流程体现严谨的学术规范。研究人员首先从OpenImages数据集中精选涵盖人物、物体、文字场景等多元内容的真实照片，随后设计35种细分编辑指令并划分为八大类别：包括像素级调整（如添加复古滤镜）、人物形象转换（如生成Funko-Pop玩具风格）、场景重构（如天气条件变换）、对象语义修改（如物体空间关系调整）等典型场景。

在技术实现层面，项目采用谷歌开发的Gemini-2.5系列模型完成核心工作流。每张原始图像与编辑指令输入Nanon-Banana模型（即Gemini 2.5-Flash-Image）生成候选结果，再由Gemini 2.5-Pro进行双重验证：既检查指令遵循度，也评估视觉质量。只有通过严格筛选的样本才能进入最终数据集。

该数据集的创新性体现在结构化设计：除包含单轮编辑样本外，特别收录多轮连续编辑序列，完整呈现图像逐步演变过程；同时设置"偏好对"样本，通过成功与失败案例的对比，为模型提供明确的优化方向。这种设计使数据集既能用于基础训练，也可支撑复杂的评测任务。

研究团队坦承当前模型在空间控制精度、布局外推能力等方面仍有提升空间，但强调Pico-Banana-400K的核心价值在于建立标准化基准。通过提供大规模、高质量且完全开放的训练资源，该项目有望推动文本引导图像编辑领域进入新的发展阶段。目前完整数据集与学术论文已分别在GitHub和arXiv平台公开，供全球研究者下载使用。

智能手机小米手机

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

0 条相关评论

头条阅读

推荐图文

苹果AI大动作：桌面机器人、智能音箱、家用摄像头齐上阵	北京现代EO（ELEXIO）试驾：家用纯电SUV驾驶体验舒适又稳健
OPPO无网通信再升级：图片传输成亮点，探索去中心化通信新潜力	成都无人机产业迎新机遇：发布146条机会清单，四大重点项目成功签约

相关资讯

• 国海证券原固收首席靳毅回应“炒黄金期货赚14亿	• 一加15原色沙丘：十年坚守，在细节中续写“不将
• 华为Mate 70 Air海报曝光：圆形镜头+轻薄机身，	• 苹果2026款iPad mini或迎升级：防水向iPhone看
• 苹果iPhone固态按键方案通过验证，2027年iPhone	• Aqara Space重庆旗舰店启幕深耕西南以智能科技
• 外卖狂潮下的隐忧：餐厅文化在便利浪潮中如何守	• 数字织梦山水间：科技赋能传统景区，开启智慧旅
• 排队免单新策略：如何让私域电商跳出价格战，实	• 苹果iPhone 18相机控制按钮或简化设计：移除电