飞翔云蜘蛛池每天超千万蜘蛛爬行,让您的链接收录率提高千万倍!
登录       注册      seo地图 手机版
飞翔云SEO智能云优化排名系统 飞翔云蜘蛛池系统
当前位置:飞翔云 > 新闻资讯 > 神“脑补”!只要一段话,就知道你的说话手势

神“脑补”!只要一段话,就知道你的说话手势

作者:飞翔云
发布时间:2019-06-25 09:14:27
阅读量:2871      手机版
神“脑补”!只要一段话,就知道你的说话手势

       乾明 发自 凹非寺

       量子位 报道 | 公众号 QbitAI

       防不胜防!现在, AI只需要听你的声音,就能知道你说话手势了。

       这项“脑补力”Max的新研究,来自UC伯克利大学等机构,被今年的学术顶级会议CVPR 2019收录。

       在他们的研究中,只需要输入一段语音,就预测出了说话人的手势,基本没有什么违和感。

       不信?看看美国知名脱口秀Last Week Night主持人Oliver就知道了,他的手势已经被AI研究透了。说话的时候,肩膀什么角度,手指如何挥动,预测得一清二楚。

       而且,不仅仅是坐着的脱口秀主持人,他们的研究也覆盖了其他各种场景:

       站着的脱口秀主持人,说话的手势比较豪放:

       

       比如老师上课时,使用这样的手势:

       

       看到这项研究之后,就有网友评论称,不知道它能不能预测川普的魔性手势?

       

       也有人表示,还好这只是项研究,如果能够应用到现实中,那还了得?

       以后打电话,一边在电话里说着爱对方,一边却搞着小动作,会暴露的。

       

       怎么实现的?

       手势,是人们在说话过程中自发发出的行为,用于补充语音信息,来帮助更好地传递说话人的想法。

       通常情况下, 说话的时候,手势与话语都是有关联的。但想要从话语中获取手势信息,还需要学习音频和手势之间的映射关系。在实践中,还有不少麻烦:

       首先,手势和话语是异步的,手势可以出现在相应话语前、后或者期间。

       其次,这是一项多模态的任务,说话人在不同的场合,说同样的话,手势可能不一致。

       而且,每个人说话时的手势也是非常特别的,不同的说话者倾向于采用不同的说话手势。

       为了解决这些问题,研究人员提出了一种时间跨模态翻译的方法,采用端到端的方式将语音转换成手势,并使用了范围非常大的时间背景来进行预测,以此克服异步性问题。

       他们建立了一个由10名说话人组成的144个小时的大型个人视频数据集。为了体现出模型的适用范围,说话人的背景不尽相同:有电视节目主持人、大学教师和电视上的福音传道者。

       

       他们讨论的话题也跨越了很多话题,从死亡哲学、化学到摇滚音乐历史、时事评论以及阅读圣经、古兰经等等。

       现在,这一数据集已经对外开放。

       具体是如何从话语中预测出手势的呢?请看下图:

       

       给定一段语音,通过翻译模型预测说话人与话语匹配的手势动作。

       然后采用回归函数从数据中提出训练信号,并通过度抗性鉴别器来确保预测的只是在时间上与话语是一致的,并符合说话人的风格。

       然后用一种现有的视频合成方法来生成说话人说出这些话时的样子。

       

       整个卷积网络,由一个音频编码器和一个1D UNet翻译架构组成。音频编码器采用2D对数-梅尔频谱图作为输入,并通过一系列卷积对其进行下采样,从而产生与视频采样率相同的1D信号。

       UNet翻译架构随后通过L1回归损失学会将该信号映射到手势向量的时间堆栈。

       之所以使用UNet架构进行翻译,是因为它的瓶颈为网络提供了过去和未来的时间上下文,允许高频时间信息流过,从而能够预测快速的手势运动。

       虽然L1回归是从数据中提取训练信号的唯一方法,但它存在回归均值的已知问题,这种回归均值会产生过度平滑的运动。为了解决这个问题,添加了一个以预测的姿态序列的差异为条件对抗性鉴别器。

       研究团队

       

       这一研究的作者,大部分来自UC伯克利。

       一作为Shiry Ginosar,UC伯克利计算机系的博士生。之前是人机交互领域的研究员,曾经在CMU计算机系做访问学者。

       共同一作为Amir Bar,是一名生活在伯克利的机器学习工程师。目前,在Zebra Medical Vision工作,致力于提高医疗保健领域的效率。

       他们在论文中说,这一研究是朝着对话手势的计算分析迈出的一步,之后也可以用于驱动虚拟任务的行为。

       最后,送上传送门:

       论文地址:

       http://people.eecs.berkeley.edu/~shiry/speech2gesture/

       源代码即将公开:

       https://github.com/amirbar/speech2gesture

       —完—

       小程序|全类别AI学习教程

       

       AI社群|与优秀的人交流

       喜欢就点「在看」吧 !

最新内容
推荐内容