全球最大规模中文跨模态生成模型文心ERNIE-ViLG来了!百度这次实现了图文双向生成
  • 首页
  • 资讯
  • 视频
  • 直播
  • 凤凰卫视
  • 财经
  • 娱乐
  • 体育
  • 时尚
  • 汽车
  • 房产
  • 科技
  • 读书
  • 文化
  • 历史
  • 军事
  • 旅游
  • 佛教
更多
  • 国学
  • 数码
  • 健康
  • 家居
  • 公益
  • 教育
  • 酒业
  • 美食
科技
科技 > 传媒 > 正文

全球最大规模中文跨模态生成模型文心ERNIE-ViLG来了!百度这次实现了图文双向生成

前不久,百度产业级知识增强大模型“文心”全景图亮相,近日,其中的跨模态生成模型ERNIE-ViLG在百度文心官网开放体验入口,并放出了论文。

据悉,文心ERNIE-ViLG参数规模达到100亿,是目前为止全球最大规模中文跨模态生成模型,该模型首次通过自回归算法将图像生成和文本生成统一建模,增强模型的跨模态语义对齐能力,显著提升图文生成效果。

先来体验下文心ERNIE-ViLG“图像创作”能力。

在文字生成图像上,文心ERNIE-ViLG可以根据用户输入的文本,自动创作图像,生成的图像不仅符合文字描述,而且达到了非常逼真的效果。

注意!以下图片都是全新生成,并非可直接搜索到的原图。

文心ERNIE-ViLG不仅能创作建筑、动物等单个物体:

还可以创作包含多个物体的复杂场景:

甚至能根据用户输入的文字要求脑洞大开:

对于具有无限想象力的古诗词,文心ERNIE-ViLG也能生成恰如其分的画面,并根据不同的图画风格也有所调整:

(油画风格)

(中国画风格)

(水彩画风格)

此外,还能根据文字提示对图片进行补全:

而在图像到文本的生成上,文心ERNIE-ViLG能够理解画面,用简洁的语言描述画面的内容:

不仅如此,文心ERNIE-ViLG还能够根据图片中的场景回答相关的问题:

目前文心ERNIE-ViLG在百度文心官网开放体验的文本生图像demo能够根据古诗词进行作画,增强诗词的画面感。

在这些能力的背后,究竟蕴含着怎样的AI技术秘密?

跨模态生成:AI领域极具挑战性的一道“难题” 跨模态生成,指的是将一种模态 (文本、图像、语音) 转换成另一种模态,同时保持模态之间的语义一致性。

图文生成是跨模态生成的挑战之一。以图片生成文本为例,文本描述概括性强,根据文本生成图片,需要考虑大量文字中未涵盖的细节信息,具有极高的挑战性。例如诗句“春江水暖鸭先知”,仅仅描述了江水、鸭子两个物体和春天这个季节,但没有具体描述鸭子的颜色、江边的桃花以及图中物体之间的位置关系。

春江水暖鸭先知

近些年来,基于生成对抗网络(GAN)的方法在人脸、风景等受限领域的文本到图像生成任务上已取得了不错的效果;DALL-E通过超大规模的自回归生成模型,在图像片段之间建立了前后依赖的关系,从而具备多样性生成的建模能力,在多样性更强、难度更大的开放领域文本到图像生成上取得了亮眼的效果。

百度文心ERNIE-ViLG模型则进一步提出统一的跨模态双向生成模型,通过自回归生成模式对图像生成和文本生成任务进行统一建模,更好地捕捉模态间的语义对齐关系,从而同时提升图文双向生成任务的效果。文心ERNIE-ViLG在文本生成图像的权威公开数据集MS-COCO上,图片质量评估指标FID(Fréchet Inception Distance)远超OpenAI的DALL-E等同类模型,并刷新了图像描述多项任务的最好效果。此外,文心ERNIE-ViLG还凭借强大的跨模态理解能力,在生成式视觉问答任务上也取得了领先成绩。

文心ERNIE-ViLG技术原理解读:图文双向生成统一建模 百度文心ERNIE-ViLG使用编码器-解码器参数共享的 Transformer 作为自回归生成的主干网络,同时学习文本生成图像、图像生成文本生成两个任务。

基于图像向量量化技术,文心ERNIE-ViLG把图像表示成离散的序列,从而将文本和图像进行统一的序列自回归生成建模。在文本生成图像时,文心ERNIE-ViLG模型的输入是文本 token序列,输出是图像token序列;图像生成文本时则根据输入的图像序列预测文本内容。两个方向的生成任务使用同一个Transformer模型。视觉和语言两个模态在相同模型参数下进行相同模式的生成,能够促进模型建立更好的跨模态语义对齐。

文心ERNIE-ViLG图文双向生成统一建模框架

已有基于图像离散表示的文本生成图像模型主要采用两阶段训练,文本生成视觉序列和根据视觉序列重建图像两个阶段独立训练,文心ERNIE-ViLG提出了端到端的训练方法,将序列生成过程中Transformer模型输出的隐层图像表示连接到重建模型中进行图像还原,为重建模型提供语义更丰富的特征;对于生成模型,可以同时接收自身的抽象监督信号和来自重建模型的原始监督信号,有助于更好地学习图像表示。

文心ERNIE-ViLG构建了包含1.45亿高质量中文文本-图像对的大规模跨模态对齐数据集,并基于百度飞桨深度学习平台在该数据集上训练了百亿参数模型,在文本生成图像、图像描述等跨模态生成任务上评估了该模型的效果。

文本生成图像(Text-to-image Synthesis)任务效果 文心ERNIE-ViLG文本生成图像的能力在开放领域公开数据集MS-COCO上进行了验证。评估指标使用 FID(该指标数值越低效果越好), 在zero-shot和finetune两种方式下,文心 ERNIE-ViLG都取得了最佳成绩,效果远超OpenAI发布的DALL-E等模型。

文心ERNIE-ViLG在MS-COCO数据集上的效果

图像描述(Image Captioning)任务效果

图像生成文本能力上,文心ERNIE-ViLG在COCO-CN、AIC-ICC两个公开中文图片标题生成数据集上,都取得了最好成绩。

文心ERNIE-ViLG在AIC-ICC数据集上的效果

生成式视觉问答(Generative VQA)任务效果

在生成式视觉问答方面,文心ERNIE-ViLG也展示了不俗的实力。生成式视觉问答要求模型根据图像内容和对应的问题生成答案,模型需要具备深度的视觉内容理解能力和跨模态的语义对齐能力,并需要生成简短的答案文本,难度极高。文心ERNIE-ViLG在FMIQA数据集上取得了最好的效果,图灵测试的通过率达到了78.5%,优于当前最好方法14个百分点。

文心ERNIE-ViLG在FMIQA数据集上的效果

让机器具备跨模态生成能力是人工智能的重要目标之一。在艺术创作、虚拟现实、图像编辑、AI 辅助设计、虚拟数字人等领域,文心 ERNIE-ViLG 这类跨模态大模型有着广泛的应用前景,也为这些领域未来的发展提供了无限的创意和可能。作为百度 “文心” 大模型全景图中的重要一员,文心 ERNIE-ViLG 也代表着百度文心在跨模态大模型领域迈出坚实步伐,从技术自主创新和加速产业应用方面持续推动中国 AI 发展。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

关闭

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载

PHP网站源码坂田seo排名松岗seo网站推广宝安网站制作设计福田外贸网站制作南联企业网站建设同乐企业网站改版广州企业网站改版坑梓seo网站推广东莞营销网站观澜设计公司网站坪地外贸网站建设丹竹头外贸网站建设木棉湾品牌网站设计龙岗网站搜索优化丹竹头建网站大芬seo吉祥企业网站制作丹竹头百姓网标王罗湖seo网站优化坑梓高端网站设计盐田网站优化按天收费丹竹头营销型网站建设石岩企业网站建设爱联百度网站优化排名南澳营销网站广州外贸网站建设丹竹头SEO按天计费坪山如何制作网站永湖网站优化软件西乡网站seo优化歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化