2025年3月7日
概要
研究者らは、実際の会話中に脳がどのように音声を処理するかをマッピングする計算フレームワークを開発しました。この研究では、脳電気記録法 (ECoG) と AI 音声モデルを使用して 100 時間を超える脳活動を分析し、さまざまな領域が音、音声パターン、単語の意味をどのように処理するかを明らかにしました。
研究結果から、脳は言語を順番に処理していることがわかりました。つまり、話す前に思考から発話に移り、逆方向に進んで話された言葉を解釈するのです。このフレームワークは、新しい会話でも脳の活動を正確に予測し、以前のモデルを上回りました。
これらの洞察は、音声認識技術を向上させ、コミュニケーション障害を持つ人々を助ける可能性があります。この研究は、脳がどのようにして楽に会話に参加するかについてのより深い理解を提供します。
重要な事実
-
階層的処理:脳は音声を音、発話パターン、単語の意味という 3 つのレベルで処理します。
-
順次処理:話す前に、脳は単語を音に変換し、聞いた後に意味を解読します。
-
現実世界の洞察: AI モデルは自然な会話中の脳の活動を正確に予測しました。
出典:エルサレム・ヘブライ大学
エルサレム・ヘブライ大学認知・脳科学部およびビジネススクールのアリエル・ゴールドスタイン博士と Google Research が主導する新しい研究では、プリンストン大学神経科学研究所のハッソン研究室、ニューヨーク大学ランゴーン総合てんかんセンターのフリンカー博士およびデビンスキー博士と共同で、人間の会話の神経基盤を探求するための統一された計算フレームワークが開発されました。

この研究は、音響、音声、単語レベルの言語構造を橋渡しし、現実世界の環境で脳が日常の会話をどのように処理するかについて前例のない洞察を提供します。
『ネイチャー・ヒューマン・ビヘイビア』誌に掲載されたこの研究では 、 脳波記録法(ECoG)と呼ばれる技術を使用して、100時間にわたる自然な自由形式の会話の脳活動を記録した。
このデータを分析するために、研究チームはウィスパーと呼ばれる音声テキスト変換モデルを使用しました。これは、言語を単純な音、発話パターン、単語の意味の 3 つのレベルに分解するのに役立ちます。次に、高度なコンピューター モデルを使用して、これらのレイヤーを脳の活動と比較しました。
結果は、このフレームワークが脳の活動を非常に正確に予測できることを示しました。元のデータに含まれていない会話に適用した場合でも、モデルは脳のさまざまな部分を特定の言語機能に正確に一致させました。
たとえば、聴覚と発話に関与する領域は音と発話のパターンと一致し、高次の理解に関与する領域は単語の意味と一致します。
この研究では、脳が言語を順番に処理することも判明した。話す前に、脳は言葉を考えることから音を形成することに移り、話を聞いた後は、言われたことを理解するために逆方向に働く。
この研究で使用されたフレームワークは、これらの複雑なプロセスを捉える上で従来の方法よりも効果的でした。
「私たちの研究結果は、脳が現実の場面でどのように会話を処理するかを理解するのに役立ちます」とゴールドスタイン博士は語った。
「言語の異なる層を結びつけることで、私たちが自然に行っていること、つまりお互いに話したり理解したりすることの背後にある仕組みを明らかにしています。」
この研究は、音声認識技術の改善からコミュニケーションに困難を抱える人々のためのより優れたツールの開発まで、実用化の可能性を秘めています。また、友人との会話や討論など、脳がどのようにして会話をとても楽に感じさせるかについて、新たな洞察も提供します。
この研究は、現実世界の状況で脳が言語をどのように処理するかを研究するためのより高度なツールの構築に向けた重要な一歩となる。
この音声処理と神経科学研究ニュースについて
著者:ヤルデン・ミルズ
出典:エルサレム・ヘブライ大学
連絡先:ヤルデン・ミルズ – エルサレム・ヘブライ大学
画像:この画像は Neuroscience News より提供
オリジナル研究:オープンアクセス。
「統合された音響から音声、言語への埋め込み空間が、日常会話における自然言語処理の神経基盤を捉える」、アリエル・ゴールドスタイン他著。Nature Human Behavior
リンク先はアメリカのNeuroscience Newsというサイトの記事になります。(原文:英語)