3、图文生成算法重构
在图文理解预训练模型的基础上,伏羲进一步推进自研文图生成模型——“丹青”的研发,一种语义增强的文图生成扩散模型。依托于扩散模型的原理,在广泛的(8亿)图文数据上训练以达到较好的生成结果。不同于常见的基于扩散模型的文图生成方法,伏羲自研的模型还具备以下特点:
1.模型创新:文图生成的语义能力,非常强依赖对用户输入文本的表征能力,依托于伏羲自研的”玉知”模型在中文语境下的表征能力,自研生成模型在中文场景下具有的超强语义表征能力。此外,伏羲自研模型还侧重文本与图片交互的,强化了在文图引导部分的参数作用,能够让文本更好地引导图片的生成,因此生成的结果也更加贴近用户意图。
2.图片多尺度的训练:在广泛的数据集中,自研模型在充分考虑图片的不同尺寸和清晰度问题,将不同尺寸和分辨率的图片进行分桶,从而进行的多尺度训练。在充分保证训练图片训练的不失真的前提下,保留尽可能多的信息,自研模型能够适应不同分辨率的生成。
3.数据策略:多阶段的训练能够保证模型既具有广泛性,又保证生成结果的质量。初始阶段,使用亿级别的广泛分布的数据,让模型不仅在语义理解上具有广泛性,可以很好的理解一些成语,古文诗句,例如夫妻肺片,名花倾国等等。同时在生成的画风上也具有多样性,可以生成多种风格。在之后的阶段分别从图文关联度,图片清晰度,图片美观度等多个层面进行数据筛选,以优化生成能力,生成高质量图片。
中文场景下超强的语义理解能力: 能够充分理解用户的输入,并且返回给用户想要的东西。尤其在成语,俗语,诗句的理解和生成具备一定优势。
风格的多样性 & 纯正性 :覆盖的风格广泛,例如年轻人热爱的二次元,动漫风格,传统的山水国画风格,以及知名画家的特殊风格等。
中文场景的领域优势:善于生成中国元素的作品,例如宋代美女,传统佳节等场景
4、人机协同增强的数据闭环
依赖于机器进行数据筛选,不可避免存在诸多缺陷和不完美。依托于网易伏羲的aop众包能力,我们从不同角度引入了人工。在训练阶段,人工从多个维度的评估,筛选出来大批高质量图文匹配、高美观度数据,以补足自动流程缺失能力,帮助基础模型获得更好的效果。同时,我们在模型的生成阶段,也引入人工的反馈,对模型的语义生成能力和图片美观度进行评分,筛选出大批量优质生成的结果,引入模型当做正反馈,实现数据闭环。更好提升了模型的理解能力和生成能力。
后续工作与展望
以上四个维度的建设,使得网易伏羲的图文生成式AI具备较好的中文理解及美观度表达能力,在做到与中国用户“心有灵犀”的工作道路上迈出了第一步。生成式AI技术革新的序幕刚刚开始拉起,随着生产力的不断释放和新的开源生态建立,在联通算法、数据、算力和人的工作上还有很多事情要做。除了持续优化生成效果,对于AI在将来工作流当中的价值、已有知识产权的保护、AI伦理的规范遵守等一些问题,也需要持续的思考和完善。
目前,网易伏羲正在推进中文领域的生成式人工智能平台-“丹青约”的建设,并携手集团内部生态共同参与艺术风格和算法模型的设计和训练。为行业用户提供高效微调适配、低成本模块化推断、开源生态快速集成、生成模型定制加速等完整解决方案,为艺术家们提供更加灵活的生产力工具,寻找更新的艺术形态,为推动中文语义理解和科技创新注入新的力量。











