近日,第16届计算机图形学与交互技术亚洲国际会议(SIGGRAPH Asia)在澳大利亚悉尼举行。bet356亚洲版在线体育副教授武蕾课题组的研究论文“Anything to Glyph: Artistic Font Synthesis via Text-to-Image Diffusion Model”在SIGGRAPH Asia 2023上发表,并作大会报告。硕士生王昌硕为第一作者,我校副教授武蕾和我校教授孟雷为共同通讯作者,我校为第一单位。
随着科技的飞速发展,人工智能(AI)在艺术领域的应用愈发广泛。近期,AIGC艺术字创作成为业界新焦点。AIGC艺术字创作主要利用人工智能技术生成独具艺术风格的字体。当前的研究工作主要集中在字形、字效的风格迁移方面。在现实场景中,我们常能看到由不同物体拼成的艺术字,如餐厅菜单中的“Sausages”由香肠拼成,“French Fries”由薯条拼成。这些艺术字无需阅读者理解其内容,便能传递大量信息,对于语言不通的人来说,是一种有效的信息传递方式。然而,此前的艺术字生成技术无法实现这一目标。现有的ShapeMatchingGAN模型由于架构限制,需要对每一种物体单独训练一次模型,这在现实应用中极为不便。本研究的目标是提出一种创新的艺术字生成模型,只需一次训练,便能将不同物体组成任何想要的文字形状。这将为艺术字创作带来更多可能性,也将为设计师和观众带来更丰富的视觉体验。
该论文提出了一个基于Diffusion Model弱位置约束的创新艺术字生成模型。模型使用在ImageNet上训练的隐空间扩散模型(LDMs),在此基础上,使用classifier-free控制生成方法将控制条件引入模型的生成步骤。具体来说,论文提出了弱位置预测器(Position Predictor),在模型的采样过程中引入给定的形状作为约束,并在多步采样中逐渐限制物体的分布。此外,该论文还提出了LSSA(Latent Space Semantic Augmentation)模块,用于在Latent Code的修改过程中最大限度地保留原始语义信息,避免位置预测器对特征图进行过度的修改。该论文完成了高质量的zero-shot创新艺术字生成,并探索了Diffusion Model在艺术字生成领域的巨大潜力。
ACM SIGGRAPH/ACM SIGGRAPH Asia是集科学、技术、艺术、商业于一身的图形学技术展示和学术会议。自1974年在科罗拉多州举办第一届会议以后,每年有上万人参加;顶峰时期参会人员达3到4万。与会人员既有计算机图形学、计算机视觉、虚拟现实、人机交互、可视化、数字孪生与元宇宙等领域的专家学者,也有游戏动漫、数字影视、新媒体设计、增减材制造等产业的业界大咖。投稿论文分Journal track和Conference track(7页)。被Journal track录用的论文将同时刊登在图形学顶级期刊ACM Transactions on Graphics上,该期刊是中国计算机学会(CCF)推荐的计算机图形学与多媒体领域A类期刊,中科院分区为SCI 1区Top,影响因子为7.403。
论文链接:https://dl.acm.org/doi/10.1145/3610548.3618208
(文/图:王昌硕 责任编辑:王璐)