作者:宋嘉吉 金郁欣
摘要
21年时,我们在《元宇宙(七):虚拟人的“灵魂”是什么?》中讨论了数字人将是一个重要的交互载体,应用场景广泛,而AI驱动的数字人将使其真正拥有“灵魂”。短短两年,AIGC发展超出了我们的想象。伴随着AI生成算法和包括GPT4以内的多模态的进步,数字人的灵魂将被点燃。
AIGC,数字人的点睛之笔。AIGC解决了数字人“只会念稿、不能交互”的尴尬,生成算法提高了内容创作的效率和便捷性,降低了成本和门槛,同时还丰富了内容创作的多样性和个性化,满足了用户的不同需求和喜好。自然语言处理大模型有助于提升数字人交互体验,真正让数字人有了灵魂。而ChatGPT所展现出来的高灵活度让人们对AI有了新的认知,它比普通的AI机器人更加像自然人,对信息、知识的挖掘和梳理更充分,对语句的处理更加贴近人类的日常交流表达习惯。
2D仿真数字人爆发在即。3D建模数字人精美度高,但过高的成本和制作周期导致其在商业化应用上存在一定难度,通常被用作品牌大使等场景。但对于市场空间更大的直播带货、教育、客服等场景来说,难以普及。尤其在AIGC发展迅速的现在,2D仿真数字人的制作门槛、周期和成本远远低于3D建模数字人。并且,在市场空间较大的直播带货、娱乐主播、客服和游戏NPC场景下,2D数字人已经足够满足当下的需求,爆发在即。
GPT4+数字人,构筑元宇宙中的“阿凡达”。数字人未来的用途将远不限于主播、客服等,随着算力的提升以及GPT4的模型升级,数字人将成为个人分身“Avatar”,输出文字、图像、音视频,甚至细微到情绪表达。在未来构建数字内容的过程中,将有更多的场合可以用GPU+电耗替代人工,真正打造元宇宙数字世界,使数字人集社交、创作、分享于一身,有望成为GPT4之后、承载多模态的杀手级应用。
投资策略:涉及的赛道可以分为应用、IP和基础设施两大类,其中基础设施可以细分为自然语言处理模型、数据集、AIGC生成算法和算力。数字人应用、IP:蓝色光标、汤姆猫、中科金财、凡拓数创、昆仑万维;NLP和AIGC算法:微软、谷歌、百度、科大讯飞、拓尔思;算力层包括:天孚通信、太辰光、中兴通讯、锐捷网络、紫光股份、新易盛、中际旭创、三大运营商等。
风险提示:伦理风险:AI驱动的人工智能交互过程中,可能出现伦理风险。技术发展不及预期:AIGC 的技术发展不及预期。以及底层硬件技术,如:超级计算机、算力等。政策法律监管风险:目前数字人和AIGC都处于发展初期,在知识版权等问题上还有许多尚不明确的地方。随着相关法律的逐步完善,或初现法律监管的问题。
1. 虚拟数字人产业发生了什么边际变化?2021年,我们写了一篇名为《元宇宙(七):虚拟人的“灵魂”是什么?》的文章,讨论到了数字人将是一个重要的交互载体,应用场景广泛,而AI驱动的数字人将使其真正拥有“灵魂”。短短两年过去了,数字人产业发生了许多变化:
技术进步推动了数字人的形象、表现力和交互的提升,例如使用AI生成技术、3D建模技术、动作捕捉技术和NLP模型等,可以惟妙惟肖地表现人物情绪、动作、语言交流等;不同类型的数字人(如虚拟偶像、服务型数字人、社交型数字人等)的商业模式逐渐清晰,涉及内容创作、直播互动、广告代言、电商销售等多个领域,场景接受度在提升;2D仿真数字人在商业上迎来爆发,相比3D建模数字人成本低且应用场景更丰富;1.1 技术进步推动数字人形象和交互能力提升
随着算力提升,新概念的数字人正在打破“皮套人”的固定认知。从外观看,通过超精细渲染,数字人高分辨率的皮肤微结构极大限度地提升了数字人在中、近景出镜的真实程度,拟人表现力显著提高,基本突破“恐怖谷效应”的形格势禁。纵向对比来看,以专业团队创作的服务型数字人为例,2021年的百度AI手语主播和2022年凌迪Style3D的项目“Sarah”相比,拥有超精细皮肤渲染的Sarah在观感和表情细节(甚至包括皱纹)更加接近真人。
从交互看,AIGC强力助攻,数字人对话更加自然,IP型数字人有望摆脱人工内容策划、配音和动补。初代虚拟网红Lil Miquela以真人为模型,将面部进行动补、动画处理,剪辑后发布在YouTube。但作为虚拟网红,其策划团队刻意将出镜内容表现为贴近当下时事,没有考虑人造IP对真实尺度的把控,直接导致Lil失去人气。观众并非需要一个100%贴近现实的虚拟网红,而在AIGC加持下,运营者可以很好地平衡虚拟网红在产出内容时在真实与虚拟之间的界限。
我们认为,数字人的最终形态是完全由AI驱动,即用AI替换掉运营策划团队所扮演的角色。ChatGPT所展现出来的高灵活度让人们对AI有了新的认知,它比普通的AI机器人更加像自然人,相较以往的AI模型,AIGC概念的ChatGPT对信息、知识的挖掘和梳理更充分,对语句的处理更加贴近人类的日常交流表达习惯。
1.2 商业模式亟待破圈
数字人应用场景集中于:需要IP站台,重复劳动居多且工作流程固定的客服,以及知识密集型服务岗位。下面是数字人在文娱、消费和专业服务领域中的应用实例。可以看出,早期的数字人更像执行特定指令的动漫人物。
如何破解数字人市场商业模式单一,产品缺乏差异化的问题?“科技感”是数字人最大的标签,也是最容易限制数字人发展的阻碍。与AI产生拟人交互、高度定制化,是吸引C端用户的主要手段,批量生产IP、减少人类劳动压力,是吸引B端用户的核心办法,大部分数字人和背后的运营团队都逃不开这种单一的商业模式。
数字人本质上是一款强内容驱动的产品,但目前数字人公司更多是从产业布局、业务需求、技术生产等角度出发,普遍缺乏内容人才。从底层技术看,国内大部分数字人公司都是基于UE5等开源技术进行开发,这导致很少有公司具备尖端技术优势。在AIGC大规模商业化应用前,大部分企业只能在内容、运营、创意上展开竞争。数字人的各种人设和行为皆是团队编辑好的剧本,用户在台前看到的数字人都只是背后运营团队的产出。
因此,在商业层面,早先市场关注的3D数字人存在“成本高、周期长、缺交互”的问题,影响了商用推广。更进一步地,我们认为,3D数字人一定程度上反而提高了内容创作的壁垒。
1.3?2D仿真数字人——恰逢其时,应运而生,渐成“闪耀新星”
在《元宇宙(七):数字人的“灵魂”是什么?》中,我们提到了3D建模数字人对于技术要求高、制作周期和成本高。如柳夜熙这样精度的数字人,制作成本至少在50万上述,且每期视频的创作周期需要一个月左右,幕后创作团队包括导演、策划、制片、三维、运营等人员。3D建模数字人精美度很高,但过高的成本和制作周期导致其在商业化应用上存在一定难度,通常被用作品牌大使等场景。但对于市场空间更大的直播带货、教育、客服等场景来说,难以普及。由此,当大部分人都惊叹于3D数字人之精美时,我们却聚焦到2D仿真数字人,该技术被广泛应用在了直播带货、MCN当中,可谓应运而生。
通常情况下,2D仿真数字人使用静态扫描技术制作,即通过40-60个照相机对真人进行全方位拍照,根据拍照光线和角度进行矩阵扫描,从而在软件中呈现出2D立体形象。静态扫描技术仅需拍照搭配上少量所需数据,就能以较低的成本制作出2D数字人形象。尤其在AIGC发展迅速的现在,2D仿真数字人的制作门槛、周期和成本远远低于3D建模数字人。并且,在市场空间较大的直播带货、娱乐主播、客服和游戏NPC场景下,2D数字人已经足够满足当下的需求。伴随着AIGC的发展,2D数字人也同样具备语言交互功能,能回答消费者的问题,这些问题因较为垂直而更容易用模型训练,大模型之下,这种交互性能将持续得以提升。
1.3.1?2D数字人应用场景
2D数字人的优势在于不但可以提供定制化的风格和造型来满足不同客户的偏好,同时也不存在“塌房”的风险。主要可以被运用在以下四个场景:
服务业:在教育、银行、医疗领域提供服务,引入类似于ChatGPT的NLP大模型以后,交互性会变得更好。如医疗导诊,尤其针对一些老年病人可以更好地做到一对一的交互带领。教育领域,可以针对不同学生的进度提供定制化讲解。影视作品:在电影、电视剧和动画片里作为演员存在,不但可以根据需求和剧情定制形象,同时也能避免出现由于演员私人的一些行为导致整部作品无法按时上映的风险出现。虚拟UP主:娱乐直播、表演歌曲、舞蹈、游戏等,可以打造个性化的形象和风格,定制化满足粉丝的需求和喜好,且不会出现塌房事件。虚拟直播带货:利用2D数字人来制作营销推广、客户服务、产品介绍等视频,可以提高转化率、增强信任感和体验感。1.3.2 2D数字人在直播、微视频行业率先发力
在上述谈到的服务业、影视作品、虚拟UP主和虚拟直播带货四个应用场景里,虚拟UP主和虚拟直播带货已然看到了增长的趋势。
虚拟UP主:
以国内虚拟主播大本营哔哩哔哩为例,2022年B站该品类的各项数据仍在高速增长。截止到去年年底,共有23万名虚拟主播在B站开播,同比增长190%,直播弹幕互动量达14.2亿。2022年Q4,B站的月均活跃up主数量在380万,虽然虚拟人up主数量占比还较小,只有6.05%。但我们已经可以窥见2D数字人在短视频行业的巨大发展空间。
2022年B站的营业成本高达180亿元,同比增长18%,其中的收入分成成本达到91亿元,也就意味着去年一年B站给到UP主的分成达到了91亿元。根据虚拟人UP主的占比,将近产生了5.5亿的收入。
参考艾媒咨询的数据,2020年中国短视频用户应用情况中B站的市占率为13%。考虑到B站二次元氛围较浓,我们预估全行业虚拟人UP主的占比为B站的一半,既3%,则整个虚拟人UP主每年的收入将约为24亿元。
虚拟人直播带货:
自去年双11开始,我们已经可以明显感受到很多淘宝直播开始启用了虚拟人,并且阿里云也提出了定制虚拟直播带货的SAAS服务方案。根据艾媒咨询的预测,2023年我国直播带货整体规模能达到16594亿元,如果参考上文提到的虚拟UP主的占比为3%,预计未来虚拟直播带货会形成约500亿元的市场,而这500亿收入背后的人力成本却已大幅降低。通常,电商平台出于合规考虑,会对完全的数字人行为进行限制,但随着AIGC的推进,相关合规问题可能需要重新审视。
2 数字人生成关键技术一个数字人从诞生到输出价值,离不开建模、动补、语言、语音、情绪这几个基础工作。建模用于创建高保真的数字人模型,包括面部、身体、服装、发型等细节。动补用于捕捉真实人物的动作和表情,并映射到数字人模型上,呈现真实、自然的连贯动画效果。
自然语言处理技术(NLP)用于实现数字人与用户或其他数字人之间的自然对话,包括理解用户意图、生成合适回答、保持话题连贯等。NLP可以使用传统的机器学习方法来处理,也可以使用深度学习处理。两种方法对应着不同的处理步骤。
语音合成(TTS)用于生成或识别数字人的语音,包括声音的音色、语调、口音等特征。常用的语音合成技术有波形拼接、参数合成和端到端合成技术。波形拼接通过前期录制大量的音频形成语料库,再拼接成对应的文本音频,常见于导航软件语音包;参数合成技术主要是通过数学方法对已有录音进行频谱特性参数建模,构建文本序列映射到语音特征的映射关系,生成参数合成器,缺点是机械感强;端到端合成技术仅需输入文本或注音字符,即可直接输出音频,常见于营销号的短视频制作。
情感分析&生成技术用于分析或生成数字人的情感状态,包括快乐、悲伤、愤怒等基本情绪,以及复杂情绪如兴奋、紧张等。情感分析分为狭义的情感分析和观点挖掘,情感分析指通过分析文本来理解喜怒哀乐等情感,观点挖掘偏重于理解用户表达的观点和意见。可以将狭义情感分析看成一个多步骤二分类问题。
3 AIGC-数字人的“点睛”只笔数字人产业逐渐进入稳定增长的态势,根据艾媒咨询的报告,2021年,中国数字人带动产业市场规模和核心市场规模分别为1074.9亿元和62.2亿元,预计2025年分别达到6402.7亿元和480.6亿元。数字人形象在具有很强的可塑性,结合AIGC技术和NLP技术,能够在虚拟主播、数字员工、虚拟偶像等新业态上满足用户的多样化需求,产生巨大市场机会,推动数字人产业的高速发展。尤其在当前以2D仿真数字人为主的情况下,AIGC可以提高皮套生成的效率,并且叠加NLP模型后,有望实现AI驱动的数字人。这将进一步加速数字人产业规模的增长。
3.1 提高创作效率、丰富内容多样性
随着近两年AIGC生成算法和自然语言模型的发展,AIGC已被广泛应用在文字、图像、音频、游戏和代码的生成当中,输出的内容完成度较高已经能被广泛应用于商业化中。目前主流的2D仿真数字人主要通过图片或照片完成皮套后,叠加口型和少量动作后结合情感分析和决策机制来呈现。在这一过程中,AIGC技术对于数字人的生成有以下的帮助:
提高了内容创作的效率和便捷性,降低了成本和门槛丰富了内容创作的多样性和个性化,满足了用户的不同需求和喜好创作工具的发展与普及让更多个人用户成为内容创作者,这也带来了 UGC 的繁荣。而AIGC 作为内容创作工具,将更进一步降低图片、视频等内容的创作门槛。这将帮助数字人创作者更便捷高效地生成内容。同时也使更多没有技术背景但拥有创意的用户们可以参与到数字人的创作中来。从前是通过文案自动生成配音,而 AIGC 可以实现一句话生成文案,一句话生成图片甚至视频:例如,在MidJourney中,用户只需要通过输入文字描述,计算机将会自动生成一张作品;AIGC数字人可以根据文案内容自动生成数字人节目。这些应用在相对较小的学习成本下,用很短的时间使得用户能够创作更多内容。
目前,用户可以通过AIGC的平台工具来创建自己的数字人,用于游戏中的打金等活动。有一家叫做Delysium的游戏已经开始引入这一功能。
3.2 增强数字人交互体验
目前,数字人的各种人设和行为皆是团队编辑好的剧本,用户在台前看到的数字人都只是背后运营团队的产出。例如哔哩哔哩上的许多数字人up主,皮套的背后还是真人在进行配音和互动。去年双十一开始,我们也注意到了有很多淘宝品牌旗舰店用到了数字人主播来进行带货。虽然这些数字人带货主播是AI驱动的,可以实现7*24小时直播并智能生成播报视频流内容,但互动体验还是相对较为初级。
去年 11 月底,ChatGPT一上线就迅速成为了AI 界的“当红炸子鸡”,短短5天内用户突破百万,成为历史上最快突破百万用户的应用。这主要得益于其强大的语言生成能力和多样的应用场景。ChatGPT不仅能回答各种问题,还能写剧本、写小说、写说明书,甚至给代码纠错。并且在这过程中,它表现出了非常高的“情商”,能进行多轮对话,回复丝滑流畅。
3月2日,OpenAI宣布开放ChatGPT和whisper的API接口:
ChatGPT API是一个用于开发者的语言模型接口,它可以让开发者使用GPT 3.5 Turbo模型来生成自然的对话和文本。ChatGPT API的优势是它有持续的模型改进,低廉的价格,和可选的专用容量。Whisper API是一个用于开发者的语音识别接口,它可以让用户将语音转换为文本。它使用了一个深度神经网络模型,训练在大量的语音数据上,以达到高准确度。Whisper API可以识别多种格式的音频文件,包括mp3, mp4, mpeg, mpga, m4a, wav或webm。Whisper API的优势是它有极高的速度,方便的按需访问,和合理的价格。这一举措将使得数字人的交互体验向前推进一大步。
4 投资策略AIGC对于数字人产业的帮助主要表现在:提高数字人内容创作的效率和便捷性,降低了成本和门槛;丰富了内容创作的多样性和个性化,满足了用户的不同需求和喜好;增强数字人交互体验。其中,NLP大模型对于数字人应用普及起到了关键的作用。涉及的赛道可以分为应用、IP和基础设施两大类,其中基础设施可以细分为自然语言处理模型、数据集、AIGC生成算法和算力。
风险提示
伦理风险:AI驱动的人工智能交互过程中,可能出现伦理风险。
技术发展不及预期:AIGC 的技术发展不及预期。以及底层硬件技术,如:超级计算机、算力的发展不及预期。
政策法律监管风险:目前数字人和AIGC都处于发展初期,在知识版权等问题上还有许多尚不明确的地方。随着相关法律的逐步完善,或初现法律监管的问题。
本文节选自国盛证券研究所已于2023年3月12日发布的报告《区块链:数字人——GPT4下的杀手级应用》,具体内容请详见相关报告。