微软HoloLens 3D空间音效的“欺骗”之路

小编刘卫华 | 分类：快讯 | 2016年11月4日

加入映维网会员

（YiVian 2016年11月4日）通往微软总部的道路两旁耸立着高大的冷杉树，驾车穿行在这片郁郁葱葱的绿色森林中，映入眼帘的是几十座并不起眼的建筑物。微软的员工坐着小巴来到位于华盛顿州雷德蒙德市的公司总部，在这500英亩的土地上有一座99号大楼，这个混凝土和玻璃结构建筑容纳的是微软研究院。Ivan Tashev穿过安静的大厅并走向自己的实验室，他就是在这里为HoloLens设计了空间音频系统。

微软研究院是世界上第二大的计算机科学机构，而Tashev负责的是领导微软研究院的音频小组。HoloLens是一台可以把数字影像叠加在现实世界中的设备，Tashev及其团队致力为HoloLens研发一个3D音频系统，让虚拟物体更具生命力。

跟虚拟现实一样，混合现实的视觉效果折服了许多人。在你第一次尝试HoloLens头显时，你第一时间注意到的事情是逼真的全息影像：比如射击游戏《RoboRaid》中的外星人从墙壁中冒出来，或者是模拟体验中看到美国宇航员巴兹·奥尔德林行走在火星表面。HoloLens头显可以让你看到逼真的虚拟影像，但能让全息图变得更加栩栩如生的是空间音频。在敌人从墙壁中冒出来之前你可以听到敌人的声音，在奥尔德林走过红色星球时你会听到他的讲话。

微软音频创新部门总监Matthew Lee Johnston指出：“空间音频可以让全息图植根于你的世界中。环境中的全息图音效越逼真，你的大脑就越容易接受全息图作为环境中的一部分。”

HoloLens音频系统会复制人类大脑处理声音的方式。Johnston解释说：“我们每天都会听到（空间音效）。我们总是在聆听和定位我们周围的声音，我们的大脑经常会通过耳朵来解读和处理声音，并在我们周围的世界中定位这些声音。”

大脑依靠一组听觉线索来精确定位声源。例如，当你站在街上时，你会注意到迎面而来的公共汽车位于自己的右侧，这是基于声音到达耳朵的方式。声音会进入最靠近车辆的耳朵。根据接近程度的不同，一只耳朵会比另一个耳朵听到更大声。这些提示可帮助你精确定位对象的位置。但还有另一个物理因素会影响声音的感知方式。

在声波进入人的耳道之前，它会与外耳部、头部、甚至是颈部产生相互作用。人体各个部位的形状、大小和位置都为每个声音添加了独特的印记。这种效果被称为头相关变换函数（HRTF），每个人听到的声音都略有不同。

这些微妙的差异构成了空间音效体验的最重要部分。要实现空间音效，系统需要精确生成所有的听觉线索。Tashev指出：“一刀切的解决方案，或者是某种类型的通用过滤器不能满足所有人的需求。对于混合现实体验，我们必须能找到一种可以生成个人音效的方式。”

于是，Tashev及其团队开始在微软实验室内收集大量的数据。他们采集了数百人的头相关变换函数数据以建立他们的听觉曲线。声学测量加上对象头部的精确3D扫描，构建出了HoloLens的各种选项。快速和谨慎的校准可以匹配出最适合用户的空间音效。

回到微软的总部。那是8月下旬，在一个阳光明媚的早晨里，Tashev走进位于99号建筑的实验室。他选择了一条黑色裤子和一块白金灰的衬衫来搭配自己的头发，这时他拉开了厚重的大门进入到一个隐秘的房间中，他就是在这里进行声学测量。墙壁覆盖着大型泡沫楔子，将这个实验室与建筑物的其余部分隔开。地板的底部有一层吸声器和一层金属丝网。这样的结构可以吸收所有的声音和振动，从而创造出一个消声室，或者说一个没有回音的空间。

站在无声室几分钟后，你会开始感到不适，不自然。你可以听到血液流过心脏的声音。呼气和吸气变得频繁起来，经常呆在消声室里面都会出现这样的情况，在过去的几十年中都是这样。哈佛电声实验室的主任Leo Beranek博士在1943年建立了第一间消声室，用于测试广播系统和扬声器，并在第二次世界大战期间改善噪声控制。从那时起，类似的消声室设计就被用于测试麦克风和测量多方向音频系统的HRTF。

在微软，Tashev在房间正中央放置了一张黑色的皮椅，这张皮椅已经测量过350人的HRTF。测试对象在戴上一对小小的橙色耳机后，配备有60个扬声器的黑色机组就会从背部缓慢地升起。随着该装置沿着弧形移动，它会短暂地停下来并播放尖锐、连续、像是激光一样的声音。

通过在测试对象周围播放声音，研究团队能够捕获房间中双耳400个方向的精确声音线索。一对HRTF滤波器会过滤每一个声音。Tashev说：“如果我们知道这些过滤器所有可能的方向，那么我们就能得掌控你的空间音效。我们可以欺骗你的大脑，让其认为声音是从特定的方向传来。”

要在特定的位置设置全息图，我们需要应用相应的音频滤波器。当HoloLens投射出这些特定的声音时，HRTF的线索能让人类大脑几乎是在瞬间的情况下就能察觉到声音的源头。

尽管很逼真，但生成空间音效所需的设备却使其不能代替立体声和环绕声系统。除了精确的声学测量之外，系统还需要恒定的头部追踪。头部的方向对声音到达耳朵的方式会产生直接的影响。例如，当你站在在街上的时候，直视公共汽车跟转头后所听到的声音会有不同。

但对于HoloLens，该团队不需要从零开始解决头部追踪的问题。因为设备中的六个摄像头中的一个总是会监控用户的头部移动，音频系统只需简单地分析这些信息即可。

微软也并不是第一个，更不是唯一一个能够创建个性化音频的公司。对于VR中的大多数3D音频体验，创作者一直依赖于公开可用的HRTF数据库或者转向专门的研究实验室。在美国普林斯顿大学，机械和航天工程教授Edgar Choueiri在过去几年一直在使用入耳式耳机技术。而VisiSonics公司是一家基于马里兰大学研究实验室的公司，他们一直在测量HRTF并建立自己的数据库。

但微软的音频系统因其工程技术而独树一帜，HoloLens的用户不会注意到音频校准的过程。虽然这种个性化的音频没有受控实验室那样完美，但这却没有那么乏味。

第一次使用设备时，会有一个向导指导你完成眼睛的校准。为了测量瞳孔之间的距离，头显要求你闭上一只眼睛，抬起手指，然后点击前面的投影图像；然后闭上第二只眼睛，再重复相同的步骤，这样系统就能计算瞳孔的距离。系统所做的事情并不只是如此。这个过程还涉及一个算法。Tashev扫描和测量了数百个受试者的眼睛和耳朵，并建立起通用的平均值。然后这个算法会把眼睛测量与Tashev的研究数据结合起来进行校准。基本上，眼睛之间的距离会让系统知道两个耳道之间的距离。

他们的想法是让信息收集的过程尽可能地隐蔽起来。Tashev说：“我想我们成功了。现在，终端用户甚至不会注意到HRTF的个性化处理在何时发生，以及如何发生。

软件的效率也扩展到硬件身上。虽然空间音效在耳机中效果最好体验，但HoloLens团队需要清楚所有的遮挡，以保持混合现实的效果的完整。微软的高级项目经理Håkon Strande表示：“我们很快意识到，除了全息图的声音之外，用户还想听到他们周围环境的声音。所以我们需要一些位于耳朵以外，但又很靠近耳朵的扬声器，以确保到达耳朵的声音处于一定水平的响度。”

Strande表示，HoloLens的早期迭代使用了小型管道来把空气导入到耳道中。另一个概念是把耳塞插入到用户的耳朵中。但该团队最终设计了一对轻薄的红色扬声器。

Strande指出：“大部分人都并不知道（扬声器）就在那里。在他们第一次体验设备并听到周围空间中的声音时，他们会以为周围的房间里有扬声器正在播放声音。这说明了音效的可信度，以及当前的模拟情况。”

微软空间音频的应用并不限于HoloLens。它基本上被嵌入到操作系统中，所以可以兼容所有依赖于Windows 10的设备。在10月份的Surface发布会上，微软为Windows生态系统发布了新的VR头显，或许空间音频技术将从全息混合现实融入到完全沉浸式的虚拟空间中。

Strande说：“在混合现实和虚拟现实中，音频非常重要，因为它与体验联系在一起。但游戏和应用开发者在通常在第二件事上才会想到这个问题，但在没有音频的情况下，你会开始怀疑体验的真实性。为了让体验更具生命力，必须要有声音的元素，这对会移动的全息图而言尤为重要。”

引用参考：engadget