计算机视觉是一个在过去几十年中被研究得相当多的领域,主要是因为它在建造自动驾驶汽车和其他可以像人类一样"看"世界的工具方面有着直接和明显的应用。然而,直到最近才看到这种水平的研究的一个领域是使用声音而不是视觉来模拟环境。现在,麻省理工学院(MIT)的研究人员已经撰写了一篇研究论文,涉及在这一领域训练的机器学习(ML)模型的构建。
麻省理工学院新闻网站上的一篇博文介绍说,MIT-IBM沃森人工智能实验室合作建立了一个ML模型,利用空间声学来观察和模拟环境。简单地说,这个模型通过弄清听众如何听到从某一点发出的声音并传播到不同的位置,实现了环境的映射。
这种技术有许多好处,因为它可以只用声音来确定环境物体的基本三维几何形状。然后,它可以呈现准确的视觉效果来重建环境。潜在的应用包括虚拟和增强现实,以及增强人工智能代理,使其能够利用声音和视觉来更好地可视化其环境。例如,与计算机视觉相比,水下探索机器人可以利用声学来更好地确定某些物体的位置。、
图形显示的是房间的3D模型,下面是带有声音的热视图类型的概念
研究人员强调,建立这种基于声音的ML模型要比基于计算机视觉的模型复杂得多。这是因为计算机视觉模型利用了一种叫做光度一致性的属性,这意味着一个物体从不同角度看时看起来大致相同。这不适用于声音,因为根据聆听方的位置和其他障碍物,从一个源头听到的东西可能非常不一样。
为了解决这个问题,研究人员使用了另外两个特征,即互易性和局部几何学。前者基本上意味着,即使交换了说话者和听众的位置,声音也会完全相同。同时,局部几何映射涉及在神经声场(NAF)中结合互易性来捕捉物体和其他建筑组件。
为了让ML模型在测试环境中工作,需要向它输入一些视觉信息和光谱图,其中包含基于发端者和听众的指定位置的音频听起来会是什么样子。根据这些输入,该模型可以准确地确定当听众在环境中移动时,声音将如何变化。
该研究论文的主要作者Andrew Luo指出:“如果你想象自己站在一个门口附近,对你听到的声音影响最强烈的是那个门口的存在,而不一定是房间另一边离你很远的几何特征,我们发现这些信息比简单的全连接网络能更好地概括。”
展望未来,研究人员希望进一步加强该模型,使其能够将更大、更复杂的环境可视化,如一栋建筑甚至整个城市。
-
聚焦:【财经分析】自动驾驶投资趋向保守 L4大规模上路“道阻且长”目前L4级别自动驾驶研发还未形成自我造血能力,大规模商用“道阻且长”,但从长期来看,智能汽车发展的大势已经为自动驾驶企...
-
世界快播:湖北银行A股IPO材料获证监会接收证监会信息显示,湖北银行A股上市申请材料已被证监会接收,但暂未披露具体上市地点、发行数量及募资规模。目前湖北银行总股本...
-
科创板收盘播报:科创50指数涨1.40% 电气设备股普涨从盘面来看,次新股多数上涨,高价股表现分化,低价股多数小幅上涨。细分领域来看,电气设备股普涨,部分生物制药股大涨,软...
-
【新华财经调查】华能国际亏损加剧 四大电力企业垫底华能国际(600011)近日发布的2022年三季报显示,公司实现营业收入1839 53亿元,同比增长26 59%,实现归属于上市公司股东的...
-
焦点快播:【环球财经】丰田上半财年纯利同比大幅下降丰田汽车今年上半财年(4月至9月)实现的纯利润同比下降23%至1 17万亿日元。
-
聚焦:【财经分析】自动驾驶投资趋向保守 L4大规模上路“道阻且长”
2022-11-01 15:33:15
-
世界快播:湖北银行A股IPO材料获证监会接收
2022-11-01 15:26:53
-
科创板收盘播报:科创50指数涨1.40% 电气设备股普涨
2022-11-01 15:32:48
-
【新华财经调查】华能国际亏损加剧 四大电力企业垫底
2022-11-01 15:43:49
-
焦点快播:【环球财经】丰田上半财年纯利同比大幅下降
2022-11-01 15:42:50