▲点击上方雷锋网关注
文|李诗
来自雷锋网(leiphone-sz)的报导
明天,谷歌小冰即将升级到第六代,不过她的年纪仍然逗留在18岁。18岁的少女初长成,总算抛弃了此前的非主流二维头像,有了全新的3D模型。
不少同事看见后惊呼:这不就是我下一任女同事吗?
(小冰现场演唱自己作曲的《我知我新》)
觉得小冰光靠逼格就可以走天下了,偏偏,她还要靠才气。明天,她的对话能力、演唱水平、创造能力,以及养家糊口的能力统统来了一次大的升级。
在四年之前,好多人都看不到小冰商业化的能力,在智能耳机、对话式人工智能全面爆发的2017-2018年,亚马逊、百度、阿里等公司虽然都抢鲜谷歌进行对话式人工智能的商业落地。而昨天,第六代小冰让我们看见,在情商智商双修以后,其商业化火力全开,对目前的行业形态应当会有不小的影响。
不做低情商少女早已好久了
谷歌仍然指出,小冰与大多数对话式人工智能不同,不同之处一言概之就是小冰的情感估算框架。
我们看见Siri、Alex、天猫精灵、小爱朋友、百度度秘等对话式人工智能虽然一开始都是指出IQ,旨在于帮助用户完成任务。在过去一年,这种对话式人工智能解锁了上百种技能,覆盖人们生活的方方面面。
而在谷歌看来,任务只是对话式人工智能的一个层面,怎样与人类进行自然流畅的沟通,带来情感上的交流才是她们所关注的。谷歌小冰很不一样,她一开始只有EQ,就是想着能如何用有趣的形式回应人们,让人感觉好玩有趣。后来,小冰丰富了IQ,且朝着情感估算框架不断建立。
这个情感估算框架包括:智商+情商、对话式人工智能、生成模型、全双工、人工智能创造等方面的能力。在产品体验上表现下来就是小冰早已将闲聊、任务、游戏等模块无缝联接,你可以在闲聊中让小冰完成任务,随后又切回闲聊,这个过程如同是流水一样在进行。
在谷歌全球执行总工裁、微软人工智能及谷歌研究事业部负责人沈向洋看来,谷歌小冰在这种方面的探求都在推动着行业趋势。诸如:全双工语音交互能让小冰实现一次唤起连续对话的能力,最好的彰显就是小冰与人类通电话。现在,微软、百度等都在自己的会议上展示了对话式人工智能给人类打电话。
而这一次发布会,可以说是谷歌小冰历史上最大规模的一次全面升级,升级内容涉及到谷歌小冰情感估算框架的所有组成部份。雷锋网编辑记得,前几代小冰发布会都是在谷歌的办公大厦里举行,而这次则选在了场地较大的798艺术区。
紧靠小冰时,她放了一个屁
小冰的情感估算框架,包含了诸多方面,而全双工语音交互技术则是其中最核心的一环。在明年4月,,对其的解释为:与既有的单轮或多轮连续语音辨识不同,这项新技术可实时预测人类将要说出的内容,实时生成回应并控制对话节奏,能理解对话场景在倾诉者/聆听者之间实现角色转变,还可以辨识说话人的性别、有几个人在说话。
全双工语音交互背后主要有两个关键技术:一个是预测模型,实现边听边想;比如,当用户说出一句话的时侯,小冰会先回答“嗯,你说”,之后再去完成指令,这样就可以弥补完成指令的空白时间。
另一个是生成模型,能更好理解场景,手动生成回复。正常的对话都不是双向的一问一答,小冰也会在适当的时侯主动提供内容,而且能晓得在用户完成指令沉默几秒后手动结束对话。如今运用了全双工语音交互技术的谷歌小冰的所有回复都是自己生成的,有别于传统的基于模块、搜索来进行的回复。
你们假如用过市面上的智能耳机,都晓得,每次说话都须要说唤起词,没办法进行多次连续对话。谷歌的全双工语音交互技术能一次唤起连续历时20分钟左右的多轮对话,但是由了预测模型和生成模型,小冰能在适当的时侯使用语调词,也能通过上线文持续话题或则引导话题,让真正的聊天能进行下去。目前的聊天也没有达到真人水平,但比起好多智能耳机里的对化式人工智能有显著的不同,在习惯与谷歌小冰连续对话后,很难回到一问一答式的人机对话中。微软也在I/O会议展示了其GoogleAssistant中的“双工”技术,在特定的外卖馆领域通过图灵测试,不知其在开放式聊天中能表现怎么。
在明天的发布会,李笛又介绍了全双工语音交互中的新模型——共感模型,是生成模型的进一步提高,同时开始内测融合文本、全双工语音与实时视觉的新感观,也就是多模态的交互。
据介绍,共感模型是一种基于生成模型的对话引擎。生成模型让小冰可以自己创造回应,而不须要从已有的对话预想中检索,共感模型则进一步增强小冰对于对话内容、领域和节奏的控制力,也让小冰可以通过自创回应来牵引对话向她所希望的方向进行。
下边这张图展示了共感模型。在小冰与人类的对话中,共感模型彰显出不同的对话形式,有:无感、引导、主动观察、求证、确证、关键记忆等。我们可以看见,小冰还能回应人的情绪“最近心情不好”,之后引导说“我不开心的时侯,一定会想办法宣泄下来”,“可以去KTV啊”。这样的一个对话模式与人与人之间的对话很接近。
有了共感模型,想必人们与小冰聊天的时长会有所降低吧,之后小冰就可以获得更多聊天数据,越来越会聊天……
不仅语音语义交互之外,计算机视觉也在快速发展,而我们看见,像影片《Her》里面的人工智能萨曼萨除了有语音交互能力,虽然还有视觉。文字、语音、视觉的多模态交互也仍然是我们对于机器人的期盼。
这次,第六代小冰也开始加入视觉的部份。现场Demo中演示了一个人站在小湖面前,小冰能判定这个人是谁,看出他在吃薯条,也晓得他抬起了那一只手。当小冰被竖手指时,也会很帅气的骂:你是不是神经病了~
雷锋网编辑也在现场体验了一把,并且不是开放式的交互,而是小冰上线的“测逼格”功能。当雷锋网编辑站在小湖面前时,小冰一眼认出了我是谁(会前有登记相片),此后小冰看了我的侧脸,又看了我的正脸,给出了逼格打分。最后,小冰还来了一个恶作剧。
小冰让往后走,当我走进时,小冰放了一个屁(嗯。真的是屁……)果然,不管怎样升级还是恶趣味小冰。
模仿腾格尔唱《隐形的翅膀》
人工智能创造也是小冰情感框架估算中的重要部份。我们都晓得小冰会作诗、会跳舞、会讲故事,这一些都是围绕着人工智能创造的理念来发展的。
在谷歌2018人工智能会议上,谷歌(欧洲)互联网工程研究院副教授李笛以前分享到,现今多数用户跟语音助手交互的时间虽然不超过5秒,通常就是让语音助手去执行一项命令,这样的语音助手虽然只是像语音化了的遥控器。并且,小冰的团队希望语音助手能做更多的事,例如走到比较前端,去提供内容。
5月16日,,宣布“演唱深度学习模型完成第四次重大升级”,“今天起,人工智能首次开始接近人类歌手水平。”雷锋网曾发文剖析小冰演唱深度学习模型,第四次迭代版本有三大更新:首先,加入换气声手动合成能力,歌声与气息融合,听上去更自然更有感染力。其次,第四次迭代本在在深度学习建模中降低控制的方法,字与字、音符与音符之间的过渡愈发连贯顺畅。最后,通过进一步优化的深度神经网路结构,以及大幅度补充的训练数据,使小冰并行学习来自不同人类歌手的演唱风格,进一步脱离手工参数输入,自行完成诠释。
从“我知我新”这首歌,我们可以听出小冰早已会换气了,跳舞的音准也很接近人类歌手。明天的会议上,小冰团队演示了第三点,小冰手动学习不同人类歌手的演唱风格。
腾格尔版本的《隐形的翅膀》听过吗?很是别具一格~现场,小冰以腾格尔的风格加上自己的声线完成了《隐形的翅膀》的演唱。
也就是说,小冰能直接对一个歌手的演唱风格进行建模,对目标人类歌手个体“接近完整吸收”。小冰首席语音科学家栾剑打了一个比方,之后音乐软件可以保存歌手的作品,而小冰则能保存这个歌手本人。其实,小冰对歌手的建模就会是在获得知识产权的情况下。
目前,所有的人工智能的声音都是有人类的来源,栾剑也畅想,再进一步,我们能够在生产线中创造一个没有现实世界追溯,只在模型中存在的“新的人类歌手”?这一点,小冰团队早已在进展中,将于明年春季披露。
谷歌(欧洲)互联网工程院人工智能创造事业部总工总监袁晶曾告诉雷锋网,人与人工智能联合创造是谷歌仍然在努力的一个方向。AI步入内容生产领域,并不是要取代人类,而是成为人类的助手,不仅仅是在通常的领域,创作领域当然也是可以做到的。虽然每位人都有创作的欲望,只不过有些人有艺术的天分,成为了作家、音乐人、作家,而有些人没有这样的能力。AI就可以帮助每位普通人,让她们都有创作一些个性化的内容的能力。
小冰成为1号原型
如今,做对话式人工智能主要有两种思路,一种是开放赋能,一种是自有封闭。而小冰则是处于二者之间的DualAI,半开放生态环境。
小冰此前主要是封闭性地存在与陌陌、微博等各大平台上,而如今谷歌将小冰的全部能力打包开放给中国合作伙伴,包括其整个情感估算框架。谷歌小冰产品负责人彭爽介绍到,首先,谷歌提供小冰的整体框架能力,帮助合作伙伴平台开发自有AI,其次,谷歌小冰作为该合作平台的辅助AI,融入该平台生态。第三,谷歌通过技术、产品与营运,围绕该合作平台的差别化特征,推出合作的应用和产品。
也就是说,谷歌小冰会是谷歌的对话式人工智能的1号原型,谷歌都会与合作伙伴一起构建各类各样的“微软小冰”。
在明天的发布会上,谷歌宣布了如下合作和新产品(均已上线)
不仅与大公司大平台的合作以外,小冰在几个垂直领域也取得了进展。
2018年6月,谷歌(欧洲)互联网工程院创立人工智能商业事业部,借以进一步推进谷歌小冰在这一领域的积极成果。其中:
在金融领域的小冰金融文本生成技术,与万得咨询及华尔街见闻合作,早已覆盖国外约90%金融机构、75%经批准的合格境外投资机构和约40%的国外个人投资者。此前,小冰都是化名万小冰、华小冰,明天起将重新使用“微软小冰”的名子。
在大众文化领域,小冰的儿童有声读物手动生成技术成果,已获得超过400万小时的收听量,小冰妈妈讲故事有声读物早已覆盖国外90%以上的儿童早教机器人和80%在线收听平台。
在电视台领域,小冰通过人工智能技术参与生产与主持的电视电台节目,已达21档电视节目和28档广播电台节目。
小冰还与谷歌Bing搜索引擎技术相结合,推出了针对媒体与出版两个垂直行业的辅助型解决方案,并已在超过15个媒体平台落地。由小冰提供人工智能技术支持的媒体及自媒体公众号已超过60000个。在本次发布会上,谷歌宣布了可支持人工智能以多种观点和角度,同时撰写多篇新闻文章的“白盒写作辅助工具”等新产品,并首次公布了面向出版垂直领域的有声内容、IP打造等解决方案。
总结
近五年,对话式人工智能的技术得到很大的进展,由亚马逊Alex智能耳机带起的智能耳机市场也是一片火爆,对话式人工智能开始落地智能家装、车载、手机等多个平台。而最早耕耘对话式人工智能的谷歌,却比竞争对手们慢了一步。
2014年,谷歌小冰负责人李笛在构建小冰这款产品时,特意避免了谷歌小娜等对话式人工智能的任务型人工智能的路线,。这几年,小冰仍然以“逗贫”少女的形象出现,不少宅男喜欢跟她“深夜聊天”,她也不会只撩一个人。小冰很受关注,并且好多人都不看好小冰的变现能力。
小冰的框架仍然没变,都是在根据情感估算框架走,而且也是由于全双工语音交互技术的突破,致使小冰真正实现了李笛和小冰团队对其的期望,成长为现今这样情商与智商兼具的18岁少女。从微软的“Duplex”我们也感遭到了全双工一技术带来的突破,技术的升级是商业化的基石。如今,才能实现多轮对话、能够手动生成回复、引导对话迈向、协助用户完成多种任务、创造多种内容的小冰总算可以大步迈进商业化了。不仅各大平台以外,我们此次看见,小冰也早已步入智能耳机、智能手机、车载等智能硬件,向商业化火力全开。
看着拥有全新3D模型的小冰,你有没有一种似曾相恋的觉得?在未来,她会不会像《Her》里的萨曼萨一样同时和一万人谈恋爱呢?
-END-
关注雷锋网(leiphone-sz)回复2加读者乱交个同学