ワシントン大学とMicrosoftに所属する研究者らが発表した論文「Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables」は、聞きたい音だけを抽出し、不要な音を排除するヘッドホンやイヤホン向けの技術を提案する研究報告である。
この技術を用いれば、ユーザーはスマートフォンを通じて特定の音に焦点を絞ってそれのみ聞こえるようにすることができ、多様なシチュエーションで利用可能である。
研究背景
システムの応用例として、静かな海の音を楽しみつつ、周囲の会話を遮断するシチュエーションが考えられる。
繁華街を歩行中には、緊急車両のサイレン以外の音を低減させたいと思うこともあるだろう。
寝室では目覚まし時計や赤ちゃんの声は聞きたいが、通りの騒音は避けたいというニーズも存在する。
飛行機内では、他の乗客の会話やアナウンスは聞こうとする一方、泣いている赤ちゃんの声を遮断したいという要望も考えられる。
ハイキングを楽しんでいる最中に、鳥のさえずりを楽しみ、他のハイカーの会話を遮断するといったニーズもある。
研究内容
これらのニーズに応えるためには、すべての音をキャンセルするノイズキャンセリング技術と、特定の音を再度取り入れるメカニズムが必要となる。
特に後者が本研究の主要な焦点となっている。
「Semantic Hearing」と名付けられたこの技術は、リアルタイムで音のシーンを設定し、各音とユーザーの要望を意味的に関連付けることで、どの音をデバイスが取り入れ、どの音を遮断するかを決定する。
具体的には、両耳の入力音声はノイズキャンセリングヘッドセットで捕捉され、スマートフォンに送信される。
そこで、音声抽出ネットワークが動作し、目的とする音声(例:サイレンや猫の鳴き声)を取り出し、ノイズや干渉音声(例:掃除機や交通騒音)を抑制する。この両耳の出力音声はリアルタイムで再生される。
技術的な貢献としては、次の2点が挙げられる。
(1) 両耳で目的とする音を抽出するニューラルネットワークを開発。このネットワークは2つの耳からの音声信号を入力として取り込み、音響シーン内の目的音の方向性を保ちながら、両耳の音声信号を出力する。
(2) スマートフォンでリアルタイムに操作するためのネットワーク最適化。この共同処理により、目的とする音の空間情報を維持しつつ、両耳の音声を出力する。トレーニングデータは、複数のデータセットを組み合わせて作成した。
実証実験
実験では、市販のノイズキャンセリングヘッドセットを改良し、さまざまな方法で提案機能を検証した。
実験の結果、干渉音や背景騒音の存在下で20の目的音に対し、平均7.17 dBの信号改善が確認された。iPhone 11を使用した実験においては、10 msとされる両耳音声処理のランタイムが実際には6.56 msと、非常に高速であることが確認された。
実環境のテストでは、システムが目的音を効果的に取り出し、新しい環境や参加者にも適応できることが確認された。
さらに行った空間的な聴覚試験により、参加者が目的音の方向を正確に認識できることが明らかとなった。
リンク先はレバテックLABというサイトの記事になります。