淘宝直播在冲刺最复杂的人工智能技术!

01

上周,主播林珊珊测试了一下淘宝直播团队依据他个人形象打造的虚拟主播,也就是林珊珊下播以后,让虚拟主播上场,粉丝在直播间可以跟虚拟主播互动,虚拟主播则实时介绍商品,回答消费者提问。

淘宝直播在冲刺最复杂的人工智能技术!_第1张图片

第二天,林珊珊发现,在团队没有任何线上工作的情况下,虚拟主播为账号增粉240人,假设一个粉丝一年成交1万元的话,一晚上增加的240个粉丝,相当于增加了240万的GMV,这是在没有任何付出的情况下哦!而且也只是一次测试而已。

想当初,淘宝直播产品经理岱岩跟林珊珊团队沟通虚拟主播的事情时,后者的内心是想拒绝的,因为担心技术问题,害怕虚拟主播与粉丝的互动体验不好,没想到结果出乎意料的好。虚拟主播是淘宝直播最近在低调测试的一个新产品,已经播出了1000多场,未来会陆续放开使用。虚拟主播的意义,主要是为主播带来永不休息的助播。直播虽然是最好的互动零售模式,但缺点也很明显,主播连播几个小时,每天都播,身体吃不消,前段时间,李佳琦总是请假说,太累了,要做手术,最近几天不播了;而每个TOP主播,几乎都是声音沙哑;薇娅也是经常在下播后输氧。如何帮助主播减轻负担呢?如何让直播24小时永不休眠呢?这就是虚拟主播的价值了!这项技术可以根据每一个主播的形象、语言风格、肢体风格,开发属于自己的虚拟主播形象,从而在主播下播之后,可以继续服务粉丝。虚拟主播看起来只是一个3D动画,但背后,是人工智能领域最复杂的技术应用。为什么要这么说呢?

02

提到人工智能,你会想到什么?人脸识别?是的,人脸识别是目前火热的AI应用,但人脸识别大多是视觉技术;siri?各个手机附带的人工智能,以及各类硬件产品,基本是依赖语言识别技术;自动驾驶?比起上述两个,自动驾驶是更复杂的AI应用,但也是综合了语言、图片等技术的大数据应用。而虚拟人物则是一个包含了声音、语言、文字、图片、动画、商品等众多要素的多媒体产品,要实时了解变化的环境,要实时识别,并且理解互动的内容,还要实时在服务的具体场景里做出反应,这种复杂程度,绝不是一般单个领域的AI技术,而是淘宝集中了全球最顶尖的科学家和多年的技术积累,才有了今天的突破,至少领先业内三年以上。更重要的是,淘宝直播偏偏还在这条路里,选了最难的一条,硬要人工智能理解每一句实时生成的语言的真实含义、语气,在跟虚拟主播的动作、表情结合起来,这完全是照着真人主播的标准来要求人工智能啊!淘宝直播在冲刺最复杂的人工智能技术!_第2张图片

举个例子,很多人工智能的语音都是非常平缓的,可以说没有任何感情在里面,但是,虚拟主播是要有人设的,是要根据每一个主播的特点来设定的,而直播也是非常讲究声音和语气的,为什么李佳琦一句“OMG,买它!买它!”成了直播的标志性声音符号?这句话就代表了生产力啊。如果李佳琦的虚拟人物用毫无情绪的机器人声音说“OMG,买它!买它!”,粉丝会买账吗?所以,淘宝直播集合了最顶尖的科学家来支持这项业务,阿里巴巴达摩院资深算法专家陈海青说,他们不但为虚拟主播设定了情绪,还设定了相应的肢体语言,包括嘴型、四肢等,因为如果一个人只有情绪而没有肢体的配合,也是很奇怪的。

淘宝直播在冲刺最复杂的人工智能技术!_第3张图片

阿里巴巴达摩院资深算法专家陈海青

所以,语言、情绪、肢体,都要配合到位,更重要的是还要结合商品信息,随时根据粉丝的需求推荐合适的商品。总结下来,陈海青认为,一个成功的虚拟主播,需要四个方面的技术架构:感知与认知、导演系统、3D建模、3D素材库。这一技术系统比较复杂,没办法一一详述,仅举一个声音的例子,每个主播都有自己的声音,虚拟主播如何实现每个主播的声音不同呢?在传统技术里,复制一个人的声音,一般需要好几个月,但是显然不适合淘宝直播这种大规模应用的领域。阿里根据自己的人工智能技术优势,可以通过录制一个人20到100句话,在半小时的时间里,就可复制一个人90%的声音,这样,每个主播只需花半小时,就可让虚拟主播复制自己的声音。

淘宝直播在冲刺最复杂的人工智能技术!_第4张图片

淘宝直播使用了最复杂的人工智能技术,找到了解放主播的一条路径。当然,这项技术不是只服务于网红主播,还可以给企业直播开放。试想一下,现在很多企业都有自己的吉祥物,如果用此技术,根据企业的吉祥物,开发一个企业自己的虚拟主播,24小时在线直播商品,并一对一解答顾客的疑问,那未来的商业将会怎么样?

03

虚拟主播是帮助主播下播以后服务粉丝,但淘宝的智能直播间技术其实是可以围绕主播的所有工作时间来展开的。如果你是一个新手主播,可以用播小宝,相当于是主播助理。开播前,可以帮助主播规划好直播,完成直播任务,快速升级。播出后,主播都会盘点当天的直播情况,查缺补漏,这时候,淘宝直播间后台有一个智能主播数据分析师的产品,可以帮助主播分析数据得失。一般,大主播都会有专门的数据分析师,月工资要两万左右,而这个智能主播数据分析师,至少可为主播整体节约3亿成本。让每一个中小主播,乃至田间地头的农民大爷都拥有世界上最顶尖的数据分析能力。淘宝直播产品负责人岱妍表示,这其实是一个商业公平的问题。除此之外,技术不仅可以降低成本,还能增加收益。很多人都不明白,为什么主播们总是喊“3、2、1,上链接”?这个看起来不起眼的动作背后,是一个复杂的技术解决方案——大规模低延时技术。

淘宝直播在冲刺最复杂的人工智能技术!_第5张图片

直播与普通电商有一个最明显的差异化,他们是瞬时下单,几百万人观看直播,主播一声令下,几十万人同时下单,如何保证下单时网络不拥堵呢?以前双十一,每次都会系统延迟,这两年才基本解决了这个问题。现在,淘宝的直播推流后,全世界各地的消费者之间的延时误差不超过1秒钟,而其它直播平台则往往有多达5到7秒。延时越久,翻车越多,消费者听到主播说“上链接”却看不到真的链接,自然会质疑“不公平性”。过去几年,淘宝直播与达摩院和阿里云做了很多努力,依靠阿里云大量的全球节点(70个国家地区,2800+节点,全网130Tbps),通过AI技术,智能分发推流,又通过自己研发的编码器技术(为了提高效率,不得不自己研发编码,成本可节约一半),让播码率下降50%,所以上线之后,淘宝直播的卡顿率下降55%,播放延时低于1s,下降72%。对商家来说,低延时技术预计整体可增加收益数十亿,特别对部分品类的成交率提升10%。有了这种低延时技术,就可以衍生出更多的互动,比如直播的时候抽奖、发红包、答题,这种与消费者的互动更需要技术来保证公平。更高级的玩法是,可以在直播间加入3D或者AR展示,前段时间,天猫家装行业商家直播的时候,就用小程序把3D家装植入直播间,粉丝可以在线观看家装产品的使用效果。

淘宝直播在冲刺最复杂的人工智能技术!_第6张图片

此外,淘宝直播背后的首席科学家们,还可以让人工智能实时识别直播内容。一方面,使得淘宝直播成为全平台唯一一个可以看回放的。因为长时段的回放,只有通过内容识别,打上“看点”才有意义。消费者可以选中商品,准确地直达回放片段。消费者需要通过回放时实时沟通客服,这对于转化率的提升,大有帮助。另一方面,在直播推荐页里,可以看到实时直播场面,避免在推荐页看到直播的是项链,点进去却在直播衣服,就这一个小细节,就能大大提高用户观看直播的时长。

04

所以,整体来看,可以把大规模低延时看做是底层技术,数据分析是中台技术,虚拟主播是前台技术,但所有层面的技术,都用了人工智能,也可以说,是人工智能应用到了淘宝直播的各个角落。在主播层面,不论你是网红头部主播,还是腰部中小商家,哪怕是一个农民主播,也可以用最复杂的人工智能技术来提升自己的业绩。其实,直播到底是一阵风,还是一个时代的趋势,不是靠流量来决定的,而是靠技术来推动的,技术发展的成熟度,能够支撑更优秀的直播购物体验,消费者就会更愿意在这个渠道消费。直播带货发展到现在,简单的流量玩法已经玩不动了,接下来,得靠人工智能驱动了!

原文链接
本文为阿里云原创内容,未经允许不得转载。

你可能感兴趣的