文章转载于机器之心 编辑:张倩

元宇宙之外,AIGC有其贴近产业的一面。

如果总结 2022 年十大技术趋势,AIGC(AI-Generated Content)一定能稳站一席。

一方面,市场融资火爆,AIGC 创业公司 Jasper. AI、Stability AI 都分别获得了超 1 亿美元的融资,资本都在盯着这个具有想象空间的赛道。

另一方面,技术呈现扩圈之姿,尤其在绘画领域,一幅名为《太空歌剧院》的 AI 画作甚至拿到了美国科罗拉多州博览会艺术比赛的一等奖。

AI画作《太空歌剧院》

但沉下心来观察这个赛道会发现这样的境况:AIGC 离产业应用有点远。一些人会将生成式 AI 出色的表现与元宇宙等热门概念联系到一起,认为 AIGC 即将成为构建元宇宙的重要工具,彻底变革人类的生活方式,这一愿景为一些背靠生成式 AI 大模型的初创公司带来了大笔融资,但距离落地成真还有一段时间。

生成式 AI 落地真的还有一段时间吗?对于手握精尖技术去找应用、找落地的企业或许是这样的,但对于已经在产业中摸爬滚打了 20 余年的京东来说,从 2017 年喊出“技术!技术!技术!”,到用 AI 技术武装自身业务,再到把反复历练的产业 AI 能力通过京东云对外输出服务产业,京东将 AI 能力渗透到了产业的毛细血管里,润物细无声般走进了百姓的生活,比如,当前应用最广泛的就是交互数字人。

这是京东云推出的言犀虚拟数字人主播,高性价比和不错的交互体验,让 TA 获得了众多商家的青睐。在双十一期间,言犀虚拟数字人服务近 200 家付费品牌,带来数百万 GMV 转化。

从技术视角来看,当前数字人是 AIGC 技术的集大成者,包含了生成图片、语言、音频、视频和 3D 等等。

从产业视角来看,在京东内部或许没有 AIGC 这样一个 “时髦” 的称呼,但在日常业务中,他们早就开始用技术帮助商家生成商品文案、对话文本、外呼语音…… 现在还能生成数字人帮商家卖货,其应用范围贯穿京东的整个数智供应链。同时,他们的各种 AIGC 模型也从这条供应链上 “学习” 新的东西,把更好的技术、服务向外输出,让我们看到了这套技术更贴近产业的一面。

与数智供应链深度耦合的 AIGC

AIGC 并不是一个新概念,其萌芽阶段可以追溯到上世纪 50 年代,90 年代从实验性向实用性逐渐转变。从 2014 年起,随着以生成对抗网络(GAN)为代表的深度学习算法的提出和迭代更新,AIGC 迎来了新时代,生成内容百花齐放,效果逐渐逼真直至人类难以分辨。2018 年,AI 生成的画作以 43.25 万美元的价格被成功拍卖,引发各界关注。

彼时,在京东 AI 团队的研究中,AI 作画已不是新鲜事,他们的研究涉及多模态、大模型等方面的基础研究以及 AI 写诗、AI 生成文案、AI 画图、AI 写书法等一些实用性研究,为之后的 AIGC 产品问世打下了基础。其中一篇典型论文成果 AttnGAN 引用过 1000 多次,是 AIGC 领域的经典工作之一。

AttnGAN 生成结果示例。

但同时,京东也意识到,如果真的想用这些 AIGC 技术变革行业,仅靠研究是不够的,还需要结合业务实际来解决一些工程化难点。于是,从 2019 年开始,生成式 AI 如何一头扎进京东的多个供应链环节成了团队的第一要务。

供应链是一个极端复杂的、上下贯通的、跟千行百业都息息相关的实体链条,小至快消品、3C 电子、服装,大至汽车、高铁、飞机制造…… 只要有生产,有流转,有消费,就有供应链。作为一家以供应链技术和服务为底层逻辑、拥有复杂供应链场景的新型实体企业,京东在数智供应链中酝酿以 AIGC、语音识别、语义理解等为代表的产业 AI 能力,然后再通过与产业的深度融合,释放其 “生万物” 的潜力,其价值无疑是巨大的。但在此之前,他们必须先解决这些 AIGC 模型在供应链各环节的应用效果和效率的问题。

比如,语音生成的难点在于如何让生成的语音更像真人,传统的 TTS(语音合成)技术往往会因为缺乏环境音和语调、重音、情绪方面的变化而让人感觉不真实。

京东语音算法负责人张政臣介绍,这种不真实在一定程度上是由训练数据造成的,因为当前的大部分语音数据是在录音棚里录的,导致生成结果偏播音主持场景,用到直播等场景中就不太合适。

因此,京东的语音团队首先考虑从语料入手来解决这个问题,这也是京东庞大供应链的优势所在:这条数智化供应链每天都会产生大量真实场景的对话,既有客服的也有主播的,拿这些语料训练出的语音模型生成结果明显要更加自然。此外,他们也用了一些技术性的方法,比如对于某些语气词、声音的韵律变化单独建模和控制。 

当然,也有很多客户会提出使用真人录音的需求,同时又要往里面加入一些变量,比如把一段外呼录音中的地点由 “经海路” 改成 “科创街” 或其他几百个不同的地址。由于录音成本很高,被改动的变量是需要用技术来合成的,同时又要保证合成的声音和原有的录音无缝衔接,听不出差别。

得益于多年来利用供应链数据训练出的大型基线模型,京东的语音团队现在已经能够以一种低成本的方式解决这个问题,只需要少量的数据(比如录音师的十几句话)就能实现个性化的 TTS,达到之前需要很多训练数据才能达到的效果。

文本生成最大的问题是“可控性”,即想办法让模型生成我们想要的内容。

“我们早期的模型可以生成很流畅的文本,但是很多时候我们发现,可控这件事并没有得到很好的解决,大家还是沉浸于生成超出想象的、天马行空的内容。但是在真正的产业应用中,(模型)必须可解释、可控。”京东 NLP 算法工程师李浩然回忆说。

具体到言犀虚拟数字人这样的商品营销文案自动生成,“可控”就意味着模型生成的文本必须满足可读性(Readability)、忠实性(Faithfulness)、信息性(Informativeness)等几个要求,长文本(比如直播剧本)还要具备多样性(Diversity)和篇章连贯性(Coherence)。京东 NLP 团队提出的基于领域知识增强的预训练语言模型 K-PLUG 就是用来解决这些问题的。

在 K-PLUG 诞生之前,一些通用的预训练语言模型也可以用来生成商品文案,但在商品卖点的独特性等方面仍有所欠缺,比如下面这段油烟机的文案:

为了让模型更精通电商场景,K-PLUG 首先会定义电商领域的领域知识,包括商品的知识图谱、要素知识、类别知识以及卖点知识,然后针对这些不同的知识去设计不同的下游任务。有了这些知识,模型就学会了如何去 “阅读” 商家给的商品说明材料以及去哪儿找规格、卖点等信息,然后通过 “Only Copy” 的机制将一些关键信息复制到生成文本中。

更重要的是,这里用到的电商知识是京东供应链已经积累了很多年的,覆盖超过 1000 万种自营商品。有了这些知识做基础,K-PLUG 仅用 1 亿参数量(约为 Google T5 的三分之一)就超过了 Google T5 的商品文案生成效果,而且因为体积小,更容易在业务中部署,实用性非常强。

据统计,基于 K-PLUG 的商品文案生成模型已经覆盖了京东的 3000 多个三级品类,累计生成文案 30 亿字,应用于京东发现好货频道、搭配购、AI 直播带货等,累计带来超过 3 亿元 GMV。

目前,京东的 NLP 团队还在进一步优化 K-PLUG 的长文本生成效果,以适应直播剧本撰写等长文本场景。据悉,他们将尝试利用京东平台上现有的大量长文本以及领域知识来训练更大的模型,使其生成的文本句与句之间更加有逻辑。

当然,未来的这个模型也不会很大(参数量约为 10 亿),因为在使用时,大模型带来的价值和成本有一个平衡点,在关注如何训练超大规模参数模型、提高模型通用性的同时,京东更关注大模型在供应链各环节的应用效果。

“我们(在做业务的时候)并没有追求千亿级、万亿级的生成式大模型,因为它们在实际应用的时候会有多方面的问题,比如对服务器要求很高,这样的模型在很多场景下可能都用不起来,所以我们会从效率的角度去做模型的设计。在有些场景下,即使是 10 亿参数的模型,我们也会通过蒸馏、量化的方式让它进一步提升效率,减少对服务器配置的要求。很多时候,我们的推理(理解或生成)模型既支持 GPU 的部署环境,也支持 CPU 的部署环境。”京东集团高级算法总监吴友政解释说。

“融”生万物,向“实”而升

经过几年的发展,当前的 AIGC 算法已经具备了真实复刻和创造某类既定内容的能力,同时相关模型对简单场景的内容生成也取得了比较好的成果。但面对产业供应链中多样性变化和复杂场景内容生成的挑战,现有 AIGC 的算法能力仍需进一步提升。

举例来说,当前的算法已经可以应对高清人脸和数字人头像的生成,但在动画视频内容的生成上仍然稍显乏力,因为后者的动态复杂性和可能性的复杂程度以几何倍数增长。

“这意味着我们现在的算法其实已经不再是单点迭代,而是多种算法互相之间联合优化,变成一种系统级的优化。”京东集团副总裁、智能产品与服务部总裁何晓冬坦言。

他回忆道,以前做 AI 算法的时候会局限于怎么做一个单点,比如语音识别、图像识别,包括把这个单点的能力上云,让别人调用。但从供应链的角度来看,很多技术要在链条里面产生价值,就必然是融合性的。

这种 “融合” 不仅是不同模态的技术(语音、文本、图像等)之间的融合,也包括技术与各行各业的特异性场景的深度融合。

当然,融合的前提是前期有比较全面的积累,而这正是京东云做 AIGC 的优势所在:京东自身的供应链环节就足够多,足够复杂,每天都会提出很多新的挑战,这帮助他们摆脱了单点技术思维,更多地从产业需求的角度去看这些技术,对每个方向都做更全面的思考和更深刻的理解。

这种融合性的做事方法已经帮助京东云在 “生万物” 的道路上迈出了很大的一步,除了常规的对话生成、文本生成、语音生成等应用外,京东云还会用融合性的 AIGC 去做数字人生成和数字孪生。

由实而生,向实而升。京东是实体经济高质量发展的见证者,更是深度的参与者。目前,他们正通过京东云向千行百业释放自己的 AIGC 能力,这些能力降低了内容制作分发门槛,让更多的中小企业可以参与到数字经济中来,进而实现数字化转型,这是实现产业升级的关键一步。

以实助实、增强实体经济活力的效果,这既是 AIGC 的机会所在,也是京东云做 AIGC 的使命所在。

参考链接:

https://ieeexplore.ieee.org/document/8578241

http://www.caict.ac.cn/kxyj/qwfb/bps/202209/P020220902534520798735.pdf

https://zhuanlan.zhihu.com/p/530855309