热议：百度吴甜：跨模态大模型技术创新带来AIGC应用突破

微信微博 QQ空间 MORE

(资料图片仅供参考)

封面新闻记者孟梅欧阳宏宇

从画鸡蛋到创作《蒙娜丽莎》，人类学习作画，即便是达芬奇一般也得从基本功练起，要想画得出众，除了日积月累勤奋练习，还需要一些天赋，以及对世界的精细观察和画家个人的独特创想。进入数字时代，能否借助AI 的能力降低作画的门槛，让人人都能成为“艺术家”？

“基于AI跨模态匹配大模型进行生成画作的结果排序，将帮助人们通过语义筛选的方式，创作出美观度最佳的画作。”8月19日，百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜在成都表示，由AI深度学习带来的文生图系统可为大众用户提供一个零门槛绘画创作平台，让每个人都能展现个性化格调，享受艺术创作的乐趣。

由AI文生图生成的画作

记者注意到，目前百度、OpenAI、谷歌等国内外的科技公司均已推了文生图AI工具。在这些工具中，用户可以输入文本，然后得到由AI生成的高清画作，包括国风、油画、水彩、水粉、动漫、写实等十余种不同风格，并支持不同的画幅选择。

面对日益增长的内容创作需要，关键是如何准确理解用户需求，进而精准刻画并满足多样化风格、高质量生成的要求。吴甜表示，足够实用化至关重要。“关键是要从用户需求出发提供全流程解决方案，比如，理解用户需求并在此基础上丰富语义细节，降低用户输入描述成本；对灵活性需求更高的开发者开放开源算法，帮助其完成模型的管理和一键预测诉求。”

事实上，文生图只是AIGC（人工智能生成内容）的外延之一。数据的井喷式增长、算力的持续突破、算法的持续创新为人工智能带来新机遇，预训练大模型凭借优越的泛化性、通用性和应用效果，正成为人工智能发展的重要方向。在吴甜看来，让AI在预训练过程中同时学习模态间和模态内的多种关联性，提升“图像”和“文本”跨模态语义匹配效果，并通过渐进式扩散模型，不断提升文本生成图像的效果。

“让机器具备跨越文本、图像等多种模态的复杂场景理解与生成能力，是人工智能的重要目标之一，也是数字时代科技与产业深度融合创新，催生新业态新模式，加快产业智能化升级的新动能。”吴甜预测，人工智能在艺术领域的学习与创作能力正以蓬勃之势不断刷新人们的认知，也让公众对科技与艺术及文化的融合创新有了更大的想象空间，未来带来创新性探索的同时赋能到广泛的行业领域。

关键词：模型技术 AIGC

责任编辑：zN_2052

【天天聚看点】【环球财经】巴西8月市场综合价格指数第二次预览值环比下降
瓦加斯基金会巴西经济研究所19日发布报告显示，该国8月市场综合价格指数（IGP-M）第二次预览值环比出现通缩，下降0 57%。
全球热推荐：利亚德发布元宇宙业务布局和路线图聚焦元宇宙新场景和产业应用融合
利亚德18日对外正式发布元宇宙业务布局和路线图，通过整合各方资源、协同发展产业链条，聚焦元宇宙新场景和产业应用融合。
头条焦点：【环球财经】投资者持谨慎态度海指周五下跌
周五新加坡股市成交量约为13亿股，成交额约为9 89亿新元（约合人民币48 48亿元）。收涨股票214只，收跌股票264只。
全球聚焦：【新华财经调查】天华超净上半年净利增10倍盈利规模超上市8年总和
新华财经梳理发现，天华超净预计上半年实现归母净利润33 5亿元～36 5亿元，同比增长971 7%～1067 67%，盈利规模已经超过...
讯息：ST众泰与重庆市璧山区人民政府签署合作协议
ST众泰公告，公司及公司的全资下属企业湖南江南汽车制造有限公司与重庆市璧山区人民政府签署《智能网联新能源汽车研发及生产...