AIヘッドフォンは「サウンドバブル」を作り出し、数フィート以上離れた場所の音をすべて消音する

AIヘッドフォンは「サウンドバブル」を作り出し、数フィート以上離れた場所の音をすべて消音する

2024年11月14日
ステファン・ミルン、 ワシントン大学

ヘッドセット技術のイラスト
ヘッドセット技術。クレジット: Nature Electronics (2024)。DOI: 10.1038/s41928-024-01281-2


想像してみてください。あなたはオフィスで働いており、周囲の雑音を抑えるためにノイズキャンセリングヘッドホンを装着しています。同僚があなたのデスクに来て質問をしますが、ヘッドホンを外して「何?」と言う必要はなく、質問がはっきりと聞こえます。

一方、部屋の向こう側にあるウォータークーラーの会話はミュートされたままです。または、混雑したレストランで自分のテーブルにいる全員の声が聞こえるのに、レストラン内の他のスピーカーや騒音が減っているところを想像してみてください。

ワシントン大学の研究者が率いるチームは、まさにそのような「サウンドバブル」をリスナーが作り出せるヘッドフォンのプロトタイプを開発しました。チームの人工知能アルゴリズムとヘッドフォンのプロトタイプを組み合わせることで、装着者は半径3~6フィートのプログラム可能なバブル内で話している人の声を聞くことができます。

遠くの音がバブル内の音よりも大きい場合でも、バブルの外側の声や音は平均 49 デシベル (掃除機の音と葉のざわめきの音の差程度) 静かになります。

研究チームはその研究結果をネイチャー・エレクトロニクス誌に発表しました。概念実証デバイスのコードは、他の人が利用できるように公開されている。研究者らはこの技術を商品化するためにスタートアップ企業を設立しています。

記事の動画「AIヘッドフォンは「サウンドバブル」を作り出し、数フィート以上離れた場所の音をすべて消音する」
クレジット: ワシントン大学

「人間は音を通じて距離を感知するのが得意ではない。特に周囲に複数の音源がある場合にはそうである」と、論文の主任著者でワシントン大学ポール・G・アレン・コンピュータサイエンス&エンジニアリング学部の教授、シャム・ゴラコタ氏は言う。

「騒がしいレストランのような場所では、周囲の人々に集中する能力が限られるため、ヒアラブルデバイスでサウンドバブルを作成することはこれまで不可能でした。当社の AI システムは、実際に室内の各音源の距離を学習し、これを補聴器自体で 8 ミリ秒以内にリアルタイムで処理することができます。」

研究者らは市販のノイズキャンセリングヘッドホンを使って試作品を作成した。ヘッドバンド全体に6つの小型マイクを取り付けた。ヘッドホンに取り付けられた小型のオンボード組み込みコンピューター上で動作するチームのニューラルネットワークは、異なる音が各マイクに届くタイミングを追跡する。

次に、システムはバブルの外側から来る音を抑制し、バブルの内側の音を再生してわずかに増幅します (ノイズキャンセリング ヘッドフォンは物理的にいくらかの音を通過させるため)。

「私たちは以前のスマートスピーカーシステムでは、音の距離情報を抽出するにはマイク間の距離をかなり離す必要があると考えたため、マイクをテーブル全体に広げていました」とゴラコタ氏は語った。

「しかし、私たちは自分たちの仮説に疑問を持ち始めました。この『音の泡』を作るには、大きな分離が必要なのでしょうか?ここで示したのは、そうではないということです。ヘッドフォンのマイクだけで、しかもリアルタイムでそれを実現することができたのは、とても驚きでした。」

さまざまな環境でサウンドバブルを作成できるようにシステムをトレーニングするには、研究者は現実世界で収集された距離ベースのサウンドデータセットを必要としましたが、これは入手できませんでした。そのようなデータセットを収集するために、研究者はマネキンの頭にヘッドフォンを装着しました。

プロトタイプ

研究チームは、ここに写真のようにマイクを取り付けた市販のヘッドフォンを使ってプロトタイプを作成した。クレジット: Chen et al./Nature Electronics

ロボットのプラットフォームが頭を回転させ、動くスピーカーがさまざまな距離から聞こえる音を再生した。研究チームは、オフィスや居住空間を含む22の異なる屋内環境で、マネキンシステムと人間のユーザーからデータを収集した。

研究者たちは、このシステムが機能する理由はいくつかあると結論付けている。まず、装着者の頭が音を反射するため、ニューラルネットワークがさまざまな距離の音を区別するのに役立つ。次に、音(人間の話し声など)には複数の周波数があり、音源から伝わるにつれてそれぞれが異なる位相を経る。

研究者らは、チームの AI アルゴリズムは、これらの各周波数の位相を比較して、音源 (たとえば、人の話) の距離を判定していると考えている。

AppleのAirPods Pro 2のようなヘッドホンは、装着者の前にいる人の声を増幅しながら、周囲の雑音をある程度減らすことができます。しかし、こうした機能は、距離を測るのではなく、頭の位置を追跡して特定の方向から来る音を増幅することで機能します。つまり、ヘッドホンは複数のスピーカーを同時に増幅できず、装着者が対象のスピーカーから頭を背けると機能が失われ、スピーカーの方向からの大きな音を減らす効果もそれほどありません。

このシステムは屋内でのみ動作するように訓練されている。屋外では訓練用のきれいな音声を得るのが難しいためだ。次にチームは、この技術を補聴器やノイズキャンセリングイヤホンで動作させることに取り組んでいるが、そのためにはマイクの配置に新たな戦略が必要となる。


詳細情報: Dong Ma、「インテリジェントヘッドセットによるサウンドバブルの作成」、Nature Electronics (2024)。DOI : 10.1038/s41928-024-01281-2

Tuochao Chen 他「音泡付きヒアラブルデバイス」Nature Electronics (2024)。DOI: 10.1038/s41928-024-01276-z 、https ://doi.org/10.1038/s41928-024-01276-z

ジャーナル情報: Nature Electronics

ワシントン大学 提供



関連記事

補聴器をノイズキャンセリングデバイスに変える


リンク先はTechXploresというサイトの記事になります。(原文:英語)

Back to blog

Leave a comment