SpeakerBeam補聴器技術は特定の人の声のみを増幅します

SpeakerBeam補聴器技術は特定の人の声のみを増幅します

補聴器を使用している場合でも、聴覚障害者にとって、騒がしい環境では特定の人の声を聞き分けるのは非常に困難です。

新しい SpeakerBeam システムは、選択した人の声を自動的に認識して強調することで役立つ可能性があります。

社交的な集まりなどの混雑した環境では、従来の補聴器は室内のすべての音を単に増幅するだけでした。

その結果、誰かのブーストされた声は、他の全員のブーストされた声によってかき消されてしまいます。

この現象は「カクテルパーティー効果」として知られています。

既存の補聴器に実装できる一部の技術は、補聴器ユーザーの目の前にいる人の声を分離して増幅することで問題に対処します。

これらのシステムは機能しますが、それは話者と聴覚障害者が対面の姿勢を保っている限りに限られます。

日本の NTT 株式会社の科学者によって開発された SpeakerBeam は、異なるアプローチを採用しています。

これは 2 つのニューラル ネットワークを利用しており、そのうちの 1 つは最初に話者の音声の 10 秒間の録音でトレーニングする必要があります。

このネットワークは、「適応発話」として知られる録音を分析し、音声をユニークにする正確な品質を決定します。

その後のカクテル パーティーのような環境では、もう一方のニューラル ネットワークがその音声署名データを使用して、近くにいる他の人の声から話者の声を選び出します。

その後、その音声のみを増幅し、話者とユーザーがお互いから背を向けた場合でも増幅し続けます。

もちろん、SpeakerBeam の欠点の 1 つは、最初の適応発話が必要であるという事実にあります。

これは、話者がまだ音声サンプルを提供していないシナリオでは機能しないことを意味します。

また、似たような声を持つ 2 人が同時に話していると混乱することがあります。

科学者たちは、音声認識アルゴリズムを改良し、それぞれの音声が発信されている方向を特定することで、この問題に対処することに取り組んでいます。

リンク先はNEW ATLASというサイトの記事になります。(英文)
Back to blog

Leave a comment