推广 热搜: 京东  联通  iphone11  iPhone  摄像头  企业存储  XSKY  网络安全  京东智能采购  自动驾驶 

粤语数字化里程碑!广州大学发布 AI-DimSum 多模态语料库平台

   日期:2025-12-09     作者:itcg    浏览:1828    我要评论    
导读:粤语数字化里程碑!广州大学发布 AI-DimSum 多模态语料库平台

12月6日至7日,第十届语言服务高级论坛在广州大学举行。会上,粤语语料库建设与大模型评测实验室重磅发布了其研发的 AI-DimSum 多模态粤语语料库平台,标志着在全球拥有上亿用户的粤语在数字化发展中迈入新阶段。

突破低资源困境 广州大学教授齐佳音介绍,粤语在网络世界中属于“低资源语言”。该平台围绕“数字中文建设”和“大湾区文化数字化”需求,构建了一个基于岭南文化、面向AI应用的多模态语料数据生态系统,遵循“标准先行、数据可溯、服务可用”原则。

一体化、模块化基础设施 AI-DimSum平台由语料采集、标注、大模型对接、确权检索、质量评估、管理及应用商店等七个子系统构成,实现了从数据采集到模型接入与应用发布的一体化、模块化流程。

海量语料支撑 该语料库汇聚了丰富的多模态资源,为AI训练提供坚实基础:

文本:超过100万字(涵盖新闻、文学等)。

音视频:完成3000小时高保真语音标注及1TB以上音视频资料。

影视:包含《功夫熊猫》《大圣归来》《外来媳妇本地郎》等带有粤语字幕与标注的作品。

评测:构建了超过20万道粤语大模型内容安全多模态评测题。

该平台的发布将极大提升粤语在大模型时代的应用能力和文化传承价值。

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
0相关评论

头条阅读
推荐图文
相关资讯
网站首页  |  物流配送  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  违规举报  |  京ICP备14047533号-2