特色主食

亚马逊Echo新品技术解读,如何选择合适的麦克风阵列?_半岛网页版

亚马逊Echo新品技术解读,如何选择合适的麦克风阵列?_半岛网页版

本文摘要:(公众号:)按:本文作者为声智科技创始人兼任CEO陈孝良,中科院声学所博士。

(公众号:)按:本文作者为声智科技创始人兼任CEO陈孝良,中科院声学所博士。美国时间9月27日,亚马逊再度引导了远场语音交互的潮流,一口气公布了5款Echo新品,还包括第二代Echo和Echo Plus,2.5寸屏幕的Echo Spot,以及Echo Connect和Echo buttons。

其中,尤为引人关注的是Echo Spot,这个被称作是Echo Show闹钟版的新品具有一个2.5英寸的圆形屏幕,用户可以用它来表明图像、歌词、视频聊天等,售价仅有129.99美元。Echo Spot不同于新版Echo和Echo plus,并没使用环形6+1麦克风阵列,而是削减了麦克风阵列的配备,搭配了环形4麦的麦克风阵列技术。为什么Echo Spot不会自由选择替换有所不同的麦克风阵列技术呢?近期亚马逊客厅产品家族:Echo和FireTV系列全球量产麦克风阵列的阵型技术盘点1、Amazon Echo不管第一代还是第二代,Echo都使用典型的6+1麦克风阵列结构,即环形6个麦克风配上中间1个麦克风,如下图左右图。

而且,Amazon仍然十分讨厌使用TI的AD芯片TLV320ADC。目前,这种阵型国外主要是Amazon Echo用于,国内也只有误解和科大讯飞曾多次仿效过这种阵型,其中,1代误解智能音箱使用的是环形6个麦克风+中间2个麦克风的结构。如下图右右图。这里再说一下科大讯飞,其叮咚音箱系列产品都是仿效的这种结构,讯飞来减少了1个麦克风,构成了环形7+1麦克风阵列的结构,如下图右图。

叮咚1代和2代的差异主要是1代使用的是驻极体麦克风,而2代替换成了仿真的MEMS麦克风。比起Amazon来说,科大讯飞更喜欢科胜讯的芯片,1、2代叮咚产品全部使用科胜讯的AD芯片CX20810,另外,科大讯飞的双麦算法也是使用的科胜讯CX20921芯片。

2、Echo ShowEcho Show则使用了椭圆形麦克风阵列,国内一般也称作滑行道形,只不过就是双线形,如下图左右图。这个阵型因为Echo Show的厚度问题所做到了折中处置,也是典型的技术让步于产品设计的案例。目前,国内只有声智科技供应类似于阵型,即L型6麦阵列,闻如下图右右图。3、Echo Spot更进一步削减了麦克风阵列的配备,使用了环形4麦的技术,如下图左右图,这个阵型既减少了成本但也确保了一定的效果,这是较为典型的根据场景自由选择适合技术的案例。

目前,国内的声智科技也供应这种阵型的麦克风阵列产品,即相容4麦和4+1麦的麦克风阵列及开发板,如下图右右图。比起6麦阵型来说,增加了2个麦克风之后,这个阵型仅有是损失了一些4米以外的远场语音交互性能。

但是根据国外产品公司对用户用于习惯的统计分析数据表明,在1-3米的范围是用户最习惯的远场交互距离,所以4麦也合适大多数用户用于场景,特别是在是酒店等行业的应用于。4、Apple HomePod使用的是环形6麦方案,环形6麦的优点就是给产品ID设计更大的自由性,同时也顾及了成本和远场语音交互性能。国内小米AI音箱使用声智科技的前端方案,其中的阵型就是环形6麦,同时为之后降低成本,麦克风也全部使用数字麦克风,这样就省掉了仿真麦克风必需配上的AD芯片。

国内使用这个阵型的还有天猫精灵、小雅音箱,然而,不同于小米AI音箱,天猫精灵为照料算法因素,仍然使用了仿真麦克风+TI ADC的方案。5、Google HomeGoogle Home则独具一格,使用了双麦克风的方案,国内外出问问的智能音箱也延用了这个方案。国内双麦技术提供商主要是科大讯飞和声智科技。

而声智科技的双麦方案主要应用于在汽车等行业,其在消费电子领域的成熟期应用于方案则是单麦克风方案。6、除此之外,还有一些类似阵型。科大讯飞曾多次公布过双层的麦克风阵列,以及4麦线形阵列。除了科大讯飞,声智科技也发售了量产版的4麦线形阵列、3麦三角阵列以及分布式阵列。

但是由于这些类似阵列的产品目前销量还较小,在市场上的影响还较小。为何有所不同产品的麦克风阵列差异如此大?从上面的盘点可以显现出,Amazon完全每个新产品系列都会使用新的麦克风阵列技术,国内著名产品的麦克风阵型也多种多样,即便完全相同的阵型,其阵元间距也不会有所不同,为何不会产生这个现象?1、麦克风阵列技术首先从麦克风阵列技术本身来看,麦克风阵列是指应用于语音处置的按一定规则排序的多个麦克风系统,也可以非常简单解读为2个以上麦克风构成的录音系统。麦克风阵列一般来说有线形、环形和球形之分,缜密的应当说成一字、十字、双L、平面、螺旋、球形等。

至于麦克风阵列的阵元数量,也就是麦克风数量,可以从2个到上千个平均。由于成本容许,消费级麦克风阵列的阵元数量一般不多达8个,所以市面上最少见的就是6麦和4麦的阵型。

2、麦克风的质量、数量及布局除了算法,要求麦克风阵列性能的主要就是阵元麦克风的质量、数量及布局。这些基本都是硬件架构所要求,尤其是麦克风的质量和数量,又与每个厂商的供应链密切涉及,这就非常容易导致每款产品的差异。比如叮咚1交由确保性能,自由选择了性能指标更高的指向型驻极体麦克风,而Echo则为了确保量产质量,则搭配了性能指标较低的MEMS麦克风。

由于算法的持续提高,对于麦克风的拒绝仍然严苛,因此MEMS麦克风是当前主流的应用于。3、远场语音交互的场景其次从远场语音交互的场景来看,比如智能音箱、智能中控和智能汽车的场景认同不一样,其市场需求大自然也有所不同。

智能音箱一般都是摆放桌面,必须360度号召指令,所以环形阵佩较为合适,而智能中控一般贴墙相同,仅有照料180度范围才可,这时候线形阵列就能符合。当然这里也有类似,比如手机和平板,一般也是3麦或4麦的矩形,这种阵型合理利用屏幕导向而只是重点符合某个扇形角度的性能。智能汽车又分了两种情况,一种情况是仅有符合驾驶员的语音交互市场需求,则单麦/双麦基本就能符合,另外一种情况则是符合所有乘员,而且重点照料后排,则必须使用分布式阵列。

4、产品设计美观和约束再度从产品设计美观和约束来看,刚才提及了阵型,这就约束了产品的ID设计,但是产品若有差异就必定必须有所不同的ID,那么大自然就必须形态各异的麦克风阵列。有所不同的阵元间距和产于不会对麦克风阵列性能产生根本性影响,所以这个设计过程中是技术和艺术相互让步的过程。同时麦克风阵列对于遮盖也有一定的拒绝,当前的麦克风阵列主要是放到顶部,就是为了防止这个问题,当然这个约束也不会随着算法技术的大大提升而弱化。

5、产品成本及生产工艺最后从产品成本及生产工艺来看,比如麦克风的选型问题,驻极体麦克风的性能指标更佳,但是由于生产必须大量人工插手造成成本较高,因此当前主要使用MEMS麦克风。MEMS麦克风又分成仿真和数字两种,仿真麦克风+专业ADC的性能指标也更佳,但是同时也让成本上升。数字麦克风的难题就是收集的信号比较最好,必须算法处置更好以超过与其他方案某种程度的效果。

为什么Google Home要自由选择双麦方案?有时候不会听见行业人士做到的一个转换,人类有两只耳朵,所以两个麦克风就能超过某种程度性能。这实质上是一个误会,以现在技术来看,即便用100个麦克风,也不一定能超过人耳的效果。人耳是极为简单的一个结构,至今为止实质上科学也没有搞清楚所有原理,更加谈不上用非常简单的麦克风展开仿真了。

现在的麦克风,实质上都是标量麦克风,所提供的意味着是声压变化转换成的电信号,而且还没耳廓,更加无法根据场景变化随动调整。那么为什么Google Home要使用双麦方案呢?这和麦克风阵列有何差异?事实上,这要从各家有所不同的技术架构来探究,当前市面上主要不存在三种远场语音交互技术架构。1、以Google为代表的纯云端技术架构首先就是以Google为代表的纯云端技术架构,Google并非想使用麦克风阵列,因为阵列比起双麦方案具备了波束构成的功能,大自然就享有了更佳的噪声和去混响能力,当距离较近或者环境简单的时候仍然需要确保远场识别率。但是由于麦克风阵列牵涉到了前端硬件,这并非Google所擅长于,因此Google就期望能通过云端机器学习的方式来超过类似于功能。

但是麦克风阵列的阵元较多,产生的数据容量过于大,而当前的网络上载比特率严重不足,所以不能权衡自由选择较少的麦克风。实质上若使用前端方案,大部分场景下单麦克风方案也能超过双麦方案的性能。当然多一路麦克风信号对于云端算法来说也是很最重要的。

2、以科胜讯为代表的纯前端技术架构其次就是以科胜讯为代表的纯前端技术架构,双麦减震实质上是十分成熟期的方案,在智能手机和蓝牙耳机上早已广泛应用,但是必要应用于到语音交互则必须大量兼容工作。显前端方案的优点就是更容易构建到芯片上,缺点就是很难升级以及拓展,这刚好与人工智能大大递归的趋势不过于相容,也是当前这种方案无法风行的主要原因。3、以Amazon为代表的前端+云端方案最后就是以Amazon为代表的前端+云端方案,这种方案是把算法分别摆放到前端和云端,根据明确场景可以调配优化,更容易优化性能并拓展功能。

这种方案考虑到了麦克风阵列与苏醒和辨识技术一体化的问题,由于苏醒和辨识相当严重倚赖麦克风阵列的算法处置效果,实质上这三种技术是无法几乎拆分的,尤其是麦克风阵列和苏醒技术堪称浑然一体。所以国内厂商研发的Amazon Alexa产品,若搭配Sensory等获取的苏醒词,总是不会比Echo差不少,有意思的是,Alexa与Echo两个团队之间的相互对决,实在太产生了产品终端Alexa平台却要拒绝接受更差性能的失望。

如何准确自由选择麦克风阵列阵型和技术?从上面的分析来看,远场语音交互产品显然比较复杂,意味着搭配麦克风阵列就有如此多的问题。那么应该如何自由选择适合的麦克风阵列和技术呢?1、从产品实际角度抵达,先定前端方案再定后端技术首先还是应当从产品实际角度抵达,先定前端方案再定后端技术,前端技术包括了麦克风阵列、苏醒和辨识技术,后末端技术则包括了自然语言解读和内容服务。

前端主要解决问题了产品否听得定的问题,这其中有五个核心指标:远场语音苏醒亲率、简单环境 误将苏醒亲率、远场语音识别率、总体延迟时间和总体稳定性。这五个核心指标要求了用户的第一体验。

由于用户无法忍受前端技术经常出现任何问题,所以前端技术的稳定性也是至关重要,这个指标必须大规模量产的检验。后末端技术主要解决问题了产品否听不懂的问题,但是仅有自然语言解读还过于,必需和内容服务串联成对系统才能超过用户失望的目的,事实上,产品的智能主要就反映在后端,而且牵涉到内容服务,当前也仅有BAT等巨头做到的比较完善。目前来看,全球经过量产检验的前端技术主要掌控在Amazon、Apple、科大讯飞、声智科技等厂商手中,而后末端技术尤其是内容及服务则主要被Google、Microsoft、Apple、Amazon、百度、腾讯、阿里等巨头所掌控,思必驰和云知声等语音辨识厂商也陆续转型公布了平台战略。2、根据应用于场景挑选适合的阵型其次应当是根据应用于场景挑选适合的阵型,比如产品定位的场景否必须360度拾音?产品的用户群体大约都是什么年龄?产品的主要交互距离又是多少?产品的ID使用什么形状?产品否考虑到低功耗问题?根据这些指标,可以由专业的技术方案商获取明确方案,比较复杂的场景有可能还必须自定义研发,但是以当前技术进展来看,比如声智科技早已仍然约束阵型的尺寸和结构。

3、在符合效果的前提下再考虑降低成本最后应当是在符合效果的前提下再考虑降低成本,这和明确场景还是有密切关系的,比如儿童故事机,由于儿童与机器之间的距离约束,成本实质上是第一考虑到要素,那事实上用单麦克风方案就可以解决问题。对于技术实力较为实力雄厚的厂商,则可以顾及成本与性能,向技术方案上自定义专用麦克风阵列和优化技术。

对于大部分产品厂商来说,产品研发速度和平稳是第一考虑到要素,那可以优先选择阵列的模组方案,这样更容易构建,成本也更容易掌控。这样可以让厂商留出更加多精力专心后末端智能方面的研发,当前末端技术平稳可信后,确实反映产品差异的一定是后端技术。

从Amazon来看产品与平台厂商的博弈论亚马逊做完Echo家族的产品发布会,其电商网站或许只买Echo产品了,而且价格完全不了了之,这是一个很有意思的事情。因为Amazon同时还在希望Alexa的生态,力求把Alexa打导致一个AI平台。

但是从当前的窘境来看,Alexa的平台进展或许仍然不过于龙凤,Amazon或许只对推展自家产品更加有兴趣,何况Alexa还蓄意给产品开发厂商生产了很多艰难。这也很更容易解读,平台的对外开放和堵塞本来就是无法相容的关系,平台的天性就是对外开放,而产品的天性更容易堵塞,这是两类生态的竞争,还没一家公司需要兼容并包。

比如Apple倚赖iPhone系列建构了堵塞的平台体系,而Google则倚赖Android创建了对外开放的平台体系。以Amazon当前的展现出来看,其南北Apple的可能性更大一些,这样实际对外开放的只是内容和服务,更加像Apple的Apple Store。这也很更容易解读,因为平台必须累积大量客户,认同偏向于需要带给大量客户的生态伙伴,若这个生态伙伴刚好还是自家的,没理由不扶植自家产品。所以Echo持续降价,销量大大上升,这个结果造成其他生态伙伴无法存活,但是从Amazon来看也不最重要,因为不管用户从哪来,其核心表达意见实质上超过了。

当Amazon的用户累积到一定规模,大自然也就构成了平台优势,反而不会给后端研发的用户带给盈利的空间,这样也能构成相反的逻辑。从相反的逻辑抵达,Amazon的野心就很明晰了,这意味著是要挑战其他巨头的意思,因为一旦语音流构成,不管是搜寻还是社交,Amazon意味著是有兴趣染指一把的,当然电商本来就是Amazon的优势。

所以,Amazon和Google最近在Youtube较量也就见多不怪了,坚信这个事情还不会再次发生很多。这对于我们国内远场语音交互生态有什么救赎?这可能会影响三类厂商:产品厂商、前端技术提供商和后端技术提供商,后末端技术提供商实质上就是平台。其中这对前端技术方案商没过于大影响,却是麦克风阵列、苏醒和辨识都是一种管道型技术,同时服务于产品和平台两大厂商,其核心表达意见更好是赚,并没过于多其他所求的价值,也就是说这部分用互联网思维来做到也没什么落脚点。

但是产品厂商和平台厂商就较为纠葛,产品和平台厂商都必须用户,当用户量充足大的时候,产品和平台的后端所求价值就不会突显。但是构建这个目标都是实力的硬硬对坑,是南北对外开放模式还是堵塞模式?对外开放模式必定意味著要退出自家产品希望生态,造就生态伙伴一起发展。堵塞模式则必须重金投放同时打造出产品和平台,搞不好两败俱伤。

这是一个难题,也是一家公司的战略决策,很难说哪种模式未来需要意味著致胜,但是摆动于两种模式之间的厂商必定没发展空间。所以,很多时候,战略辨别和决策才是一家公司的核心能力。

涉及文章:反省仿造Echo的热潮:为什么国外巨头要布局AI交互?远场语音交互体验的思维:Alexa为什么不必屏幕和多轮对话?| 深度Apple HomePod技术理解,为何苹果变丑了?盘点麦克风技术及市场,远场语音交互如何选型麦克风?重生的激动,人工智能创业的困境与情绪特约稿件,予以许可禁令刊登。下文闻刊登须知。


本文关键词:半岛网页版

本文来源:半岛网页版-www.bustingthemyths.com

Copyright © 2003-2023 www.bustingthemyths.com. 半岛网页版科技 版权所有   备案号:ICP备27228483号-7