今年的腾讯数字生态大会上,腾讯云小微发布了5款不同形象的数智人,并发布了腾讯语音智能等行业领先技术。以人工智能、云计算、大数据等技术为底座和基石,才能将全真互联网的产业部分构筑牢靠,才能成就数智人的真正应用和落地。
今年的腾讯数字生态大会上,腾讯云小微发布了5款不同形象的数智人,并发布了腾讯语音智能等行业领先技术。以人工智能、云计算、大数据等技术为底座和基石,才能将全真互联网的产业部分构筑牢靠,才能成就数智人的真正应用和落地。
“数字人”和“数智人”,到底有什么差别?
手机里的智能语音助手,家里的智能音箱,企业的智能语音客服,都是“数字人”的一员,它们能和人进行语音交互,执行指令或者按既定程序完成对话,但从语音和互动上都相对生硬。
“数智人”则整合了语音交互、自然语言理解、图像识别等AI能力,外观形象更鲜活,与人之间的对话更自然,将人机交互从单纯的对话工具转变为真正的沟通交流。
与数字人相比,更加智能、人性化的数智人,显然更符合当下大火的元宇宙中虚拟形象的设定,更能满足马化腾去年对于全真互联网“推动信息接触、人机交互的模式发生更丰富的变化,致力于帮助用户实现更真实的体验”的展望。
无论全真互联网还是元宇宙,“上不了船的人将逐渐落伍”。从美国各大互联网巨头来看,大家都意识到了同样的问题,Facebook升级为Meta,谷歌专注于AI,最终目的都是抓住“全真”时代的船票。
全真互联网,或者元宇宙,建立在IoT、AI、云计算等多种先进技术的基础上,并且需要这些技术的整合应用。直到近年来,才有多点结合的技术落地。比如Google在2018年推出语音助手Google Assistant,可以冒充真人打电话、订餐馆等,真假难辨,让语音助手向“自然化”方向发展,被网友戏称“人工智障终于变成人工智能”。
看似简单的一款产品,背后是Google各方面强大的技术积累。不过在这方面,中国企业也不甘落后,比如腾讯旗下的数智人产品,腾讯云小微,就是类似于“数字员工”,能极大解放生产力。此前,数智人已经在金融、文旅、传媒等多个领域,初步通过了在真实落地场景中的应用检验。腾讯还推出了能在复杂场景中抓住主要语音的腾讯语音智能,更符合日常需求。
可以说腾讯的数智人是公众能感知到的,腾讯在全真互联网发展中的重要一步。
语音交互体验升级
9月15日,就在软银集团宣布将所持的全部ARM股权以400亿美元的语音交互技术在日常生活中的应用已经不少,手机上的语音助手,家里的智能音箱,公司的智能客服,都是现在应用很广的语音交互技术。但是在使用或体验时人们也能感觉到,现在落地的主要设备其实都还不是真正的智能,基本都只是按设定好的关键词执行指令,或者用设定好的语言完成下一步对话的推进,相对生硬。2018年谷歌的Google I/O大会上,展示了最新搭Google Duplex技术的Google Assistant。这个能进行持续对话、更自然、能响应用户同时提出的多重问题、甚至带有人类沟通语气词的语音助手,惊艳全场,不少媒体直呼Google Duplex是“极为逆天的人工智能黑科技”。当时,别说中国企业,就是苹果和微软的语音助手Siri和Cortana,也只能进行单项、机械的对话。AI语音交互为什么重要?因为在现在互联网的发展趋势,全真互联网,或者说元宇宙,都避免不了需要数字人的存在,而AI语音交互,则是让数字人无限接近真人的重要技术之一。马化腾曾经说过,全真互联网是下一波趋势,“上不了船的人将逐渐落伍”。中国企业近几年在AI研发方面下了大功夫,慢慢地赶上甚至在一些细节处超越了国外的领军者。以腾讯为例,今年腾讯的数字生态大会上,发布了云智能战略架构,并宣布腾讯云小微数智人是实现其战略的重要一环。腾讯云小微在现有的基础上,整合了语音交互、自然语言理解、图像识别等更多AI能力,将“数字人”升级为“数智人”,拥有了更强大的表现力、识别力和感知理解能力,与人之间的对话更自然,将人机交互从单纯的对话工具转变为真正的沟通交流。具体而言,腾讯云小微数智人拥有8种超细微面部情感表情以及数百种肢体动作,让虚拟形象的表情和动作更接近于真人形象。腾讯在此次大会上,还一次性推出了3D超写实、3D写实、3D半写实、2D真人、2D卡通五种数智人的风格,以满足各类场景服务需求。在形象选择方面,腾讯云小微数智人可支持定制化需求,并且还能为客户进行海量IP形象授权。不止在外在形象上下功夫,腾讯云小微数智人可识别超34种语种、方言、翻译超过11个语种,拥有超过46万垂直行业场景热词库,也就意味着能适应更多客户的需求。大会之前,数智人已经与平安普惠、故宫、新华社等,在金融、文旅、传媒等多个领域建立了合作,例如新华社推出的全球首个“AI合成主播”,到目前为止已经累计播报新闻超过1万条,保证播报零误差,可对日常和突发事件实时响应。这些实践的成功,让腾讯云小微数智人初步通过了在真实落地场景中的应用检验,让我国的数智人相关技术和体验,更接近世界领先水平。云小微的优势
试想一些场景:你在看智能电视,想要换台,但是旁边有打麻将的人刚好胡牌,大声笑闹,智能电视听不全你的指令,你只能到处找遥控器,或者等他们安静下来再换;或者你在开车,想用语音导航找目的地,副驾驶座位上的人却在大声打电话,语音导航导错了地方。人是社会性动物,现实生活中上述场景很常见,但因为技术问题,语音交互如何排除干扰的问题,一直没能得到好的解决。腾讯云小微和AI Lab联合发布的腾讯语音智能,则针对这一常见问题提出了解决方案。这是一款能够提升语音识别效果和效率的全链路AI+声学技术解决方案。腾讯语音智能通过语音分离工作模式,极大提升了在复杂场景下语音采集、降噪分离和增强的效果,在复杂环境中大幅度降低了语音收集的错误率。数据表示,使用腾讯最新技术的语音识别,错误率可降低超过50%,可以更好地进行转写、理解和回复。腾讯智能产品副总裁、腾讯教育副总裁李学朝接受媒体专访时,还提到腾讯数智人的另外几个优势。“云小微、AI Lab和搜狗原来的AI数字人走到一起,所以我们现在打造的不仅从技术上,从产品上和场景上,应该是在业界看到的比较领先的。这里面的话,最典型的像最近有一次信通院针对数智人交付的评定,我们是拿的优良级,是唯一的厂商,这是代表对我们形象,也是智能各方面的认可,这也是从技术到产品的维度的认可。”首先是在实际应用场景方面。中国各大互联网公司近几年都在AI技术研发上投入不菲,也获得了相应的回报,在中国AI行业中取得领先地位。但是,技术和应用之间,理论和实践之间,尚有差别。腾讯云小微数智人就是最早一批落到实际应用场景的。有别于媒体上更多见的偏静态数字人,腾讯云小微数智人根据实际场景中的需求,训练数智人底层的AI算法,实现了不同行业和具体场景下的差异化,让用户可以跟数智人真正对话。更早进入实际应用场景,意味着AI能接受更多来源于真实情景的训练,能更快基于已有的语种、方言、热词库,进行训练,从而更快“进化”。另外,腾讯语音智能可以支持多种应用场景和设备,拥有优秀的场景适配性和通用性,面向实际场景的定制优化更简单、高效,为企业场景中的语音服务需求降低了运行和定制成本。在媒体交流环节,李学朝还特别提到了与搜狗整合完成后,腾讯在2D真人方向获得提升。他认为,搜狗原来数字人尤其是2D数字人做得不错,搜狗的2D数字人在金融方向落地最早,而AI Lab主攻3D方向,搜狗和腾讯云小微叠加,对腾讯来说,在技术产品和场景落地方面都是增强。更大的想象空间
“数智人正在走进我们的生活,在企业中承担岗位职责,为用户创造前所未有交互智能体验同时,提升企业服务效率和品牌形象。”李学朝在大会上表示。比如,现在语音客服转人工客服的时候,中间还是会有声音的变化,让我们明确地感知到智能语音和人工服务的切换,而在数智人音视频传输更及时的前提下,可以让后面人工服务通过数智人表达,沿用数智人的声音和语气,让用户感受到是无缝切换,提升用户沟通体验,数智人客服可以7*24响应,成本仅为人工座席的约1/5,这一点在银行客服等服务行业尤为重要。还有,疫情期间很多活动不得不转到线上,这时启用数字人讲解员,能最大限度减少现场人员数量,防止疫情传播风险。中国(深圳)国际文化产业博览交易会等活动中,已经做了虚拟讲解员尝试,像腾讯数智人这样能表达多种情绪、有多种肢体语言,并且能和观众对话、回答问题的数智人,才能更好地让用户在疫情期间突破空间、时间限制,享受如同到现场一般的互动性在线讲解游览体验。人机交互模式从最早的文本客服,升级为语音客服,再到更“人性化”的交互系统,其商业化落地,在企业运行降本增效方面,起到重要作用。当我们被环球影城里威震天与观众们互动逗乐的时候,其实,一个真相是,这些问答都是由演员即兴表演完成的。我们可以想象,未来有一天,数智人经过训练,也可以达到同样的对话水平。数智人的演进趋势是确定的。李学朝认为,目前有四大演进趋势,第一个是“听得清”,这个问题腾讯智能语音已经提出了解决方案;第二个是如何处理多音字或重名,腾讯已经有了解决思路;第三个是让数智人通过微表情、肢体语言等,变得更像真人;第四则是理解和表达情绪。后面两个问题,腾讯云小微目前有8种微表情,足以使其比大多数数智人的表现更加细腻。不过,李学朝亦坦言,目前数智人对于交互中情感的“理解”,依然基于对文字内容的理解或者语义、语音情感的输入,“各个板块还是需要有这种深度的基础探索,让整体的数智人表现得更立体一点”。