Miyacology

音の未知なる可能性を探究

目には見えず、人には聞こえない周波数もある「音」。研究では、音声認識や話者照合、なりすまし検出、沖合での津波の検知など、人間を凌駕する「聴力」や「聴覚」の実現と、社会実装が期待されています。そこで今号では、音に関わる研究に取り組む3名の先生方に、研究内容や意義などをお聞きしました。

小野 順貴 教授
Nobutaka Ono
システムデザイン研究科 情報科学域

東京大学大学院工学系研究科計数工学専攻博士課程修了後、同大学院情報理工学研究科助手、講師を経て、国立情報学研究所情報学プリンシプル研究系及び総合研究大学院大学複合科学研究科情報学専攻准教授、教授。2017年より現職。

大久保 寛 准教授
Kan Okubo
システムデザイン研究科 電子情報システム工学域

東北大学大学院工学研究科電気・通信工学専攻博士前期課程修了後、秋田県立大学助教などを経て2007年に首都大学東京助教、2009年より現職。博士(工学)。日本音響学会アコースティックイメージング研究専門委員、超音波研究専門委員などを兼務する。

塩田 さやか 助教
Sayaka Shiota
システムデザイン研究科 情報科学域

名古屋工業大学創成シミュレーション工学専攻博士後期課程修了後、統計数理研究所統計的機械学習研究センター特任助教を経て、2014年より現職。電気情報通信学会音声研究会専門委員や、情報処理学会言語情報処理研究会運営委員などを兼務する。

【研究の原点】「好き!」や「なぜ?」が 何よりの原動力になる

小野 今回のテーマである「音」に関する研究は、多岐にわたる学問領域からのアプローチがなされていますが、現象として物理現象に分類されます。古くは紀元前6世紀のピタゴラスの時代から、協和音を生じる弦の整数比関係などが経験的に語られ、その後ニュートンが、1687年の著書で音速に関する理論を発表するなど、学問としてもとても長い歴史があります。こうした音の研究を私が志した原点は中学時代。ピアノなどの経験はなかったものの音楽への興味は強く、当時のマイコンに楽譜を入力し、音楽を演奏させて楽しんだのが一つのきっかけです。大学時代には中南米の民族音楽サークルにも所属し、民族楽器を演奏していました。

 

大久保 私は小学校から中学校まではピアノを習い、吹奏楽部でトロンボーンを吹いていました。当時は「なぜ楽器ごとに音色が違うのか」といった音への興味はありましたが、大学と大学院で専攻したのは電磁波。音の研究を本格的に始めたのは教員になってからです。ただ、学生時代に波動方程式を学んだことで、“音の不思議”に関する理解も深まり、音の専門的な研究もスムーズに進めることができました。

 

塩田 私がこの分野に飛び込んだきっかけは、大学で研究室を選ぶ際に、当時はまだ認知度の低かった音声認識のリアルタイムデモを見たことです。先輩の学生がニュースサイトの原稿を読み上げると、一言一句正確に、100%の精度で認識されて活字になっていったのです。SF映画のような光景に衝撃を受けたことが、現在の研究につながっています。

【人知を超越する技術】革新的な進歩の一方で求められる対策がある

塩田 私の研究テーマは、人間が発する音声を活用したセキュリティ技術である話者照合技術です。と同時に、誰かの声を録音して不正に認証させようとしたり、合成した音声でセキュリティが解除されてしまったりすることを防ぐなりすまし音声検出の実現に向けた精度の向上にも注力しています。近年は限りなく人間に近い「声」をつくる合成音声技術が発達しており、公共交通機関の駅や車内でのアナウンスをはじめ、さまざまな分野で活用されています。特に国内外の学会で発表されている最先端の合成音声を聞くと、人間の発声と判別できないほど、極めて自然なレベルに到達しています。ただ、話者を認識するという観点から言うと、そもそも人間は耳だけで相手を認識・特定しているわけではありません。電話なら、相手が名乗った名前をはじめ、複数の要素を総合的に解釈して相手を特定しています。電話で聞こえてくる声にしても、本当は変換・合成された音を聞いているわけですし、生身の声ではないのです。その点、話者照合は声だけで個人を特定しますが、すでに人間の聴覚レベルを遥かに凌ぐ精度を持っている技術になっています。ただ、話者照合を突破するような音声合成が出てきたため、なりすまし検出という研究分野も注目を浴びるようになりました。

 

小野 合成技術の進歩と比例するように、なりすまし検出の必要性も高まっているということですね。

 

塩田 加えて、今や声のデータさえも個人情報であり、保護すべき対象と見なされ始めています。音声で認証操作などをする場合、現状の多くのシステムではクラウドにアクセスする必要があるため、その過程におけるデータ流出の防止策なども考えています。

 

小野 私の研究テーマは、大きく分けて3つあります。最も長く取り組んでいるのは、音源分離です。視覚情報の場合は、手前の物体の背後の物体は隠れて見えなくなり、これらの視覚情報が混合することはありませんが、聴覚情報として耳に入ってくるのは音。波長が長く、障害物があっても回り込んで伝わるため、複数の音が混ざってしまいます。音源分離は、これを分離し認識するための技術です。現在は補聴器への実装を目標に、メーカーとも連携して研究を進めています。一方で、複数の録音機器を用いる「非同期マイクロフォンアレー」の開発にも挑んでいます。いわゆるスマートスピーカーやスマートフォンは、一つのデバイスに複数のマイクを搭載することで雑音の処理などを行っていますが、その際には搭載する複数のマイクが同期して録音することが大前提になります。これと異なり、同期していない複数のデバイスによる録音を統合し、活用するための信号処理技術を研究しています。また、音の情報を光に変換してセンシングする「ブリンキー」というデバイスの開発にも取り組んでいます。多数の「ブリンキー」を空間的に配置し、音に応じて光る「ブリンキー」のLEDをカメラで撮像することにより、どこでどのような音が生じているかをセンシングする新しい枠組みです。なお、かつては生物の聴覚をモデルにした信号処理やセンサー技術なども研究していました。メンフクロウは耳の向きが非対称になっており、音の強度差と時間差から上下左右の音の方向を判別します。生物の多様な感覚器の仕組みは面白く、センシングや情報処理の参考になります。

 

大久保 私は波動情報工学を専門としており、音響に限らず、電磁波なども含めた波動全般が研究のターゲットです。音や電磁波や地震波は、どれも基本的には波動方程式を満たすため、バックグラウンドにある物理や数学を共有して研究を進めることができます。研究では「音で楽しいことをしよう」というコンセプトのもと、「アメイジング・アコースティックス」と銘打って音の力で物体を動かす研究や、シェル構造のスピーカーの開発などにも携わっています。近年注目しているのは、ハイレゾ音響計測技術。人間の耳には聞こえない周波数の音を“採取”し、活用する方法を検討しています。普段は人には聞こえない音のため、どこで何の音を録音できるのかを探ることが出発点になりますが、実際に録音してみると、私たちの身近な音空間には、さまざまな聞こえていない音があることがわかります。

【基礎と応用】社会実装を急ぐより基礎研究を重視したい

大久保 津波が起きると、人の耳には聞こえない低い音が発生します。その音を検知することで津波の到来時刻を予測し、避難行動につなげるための研究を行っています。音は大気中の圧力変化で、その変化する周波数が耳にフィットすれば人間は音として認識できますが、津波によって発せられる音は1ヘルツ未満。人間の可聴域ではないのですが、高精度の気圧計を使えば認識できます。現象自体は以前から知られていて、観測に成功した例もありました。ただ、防災システムとして機能させられるまでは機器の性能が追い付いていなかったのです。そこにきて近年は、情報通信技術の進歩によってこの研究も発展。従来はできなかったアプローチができるようになってきています。

 

小野 私の研究でも、センサーの感度や、機械学習の発展による恩恵は計り知れません。深層学習技術によって音声認識は著しく精度が上がりました。10年前に比べれば、条件次第では人間よりも優れた性能を発揮するほどです。ただ一方で、「機械学習は魔法の杖であり、何でもできる」と考えがちな社会の空気には違和感を覚えます。膨大なデータを機械学習と結びつけることで応用ばかりを優先させようとする風潮を、手放しでは喜べないのです。

 

大久保 そうなんです。データサイエンスの発展には目を見張るものがあり、研究が好転する側面は確かにあるのですが、仮に膨大なデータを解析できたとしても、解析のプロセスやデータ間の因果関係、相関関係がわからなければ、次にどう活用すべきなのか、本当に活用できるのかが見えてきません。また、いくらデータ量が多くても、質の悪いデータでは目的とする結果や、エビデンスとして有効な結果は出てきません。そう考えると、私が期待したいのは、より高性能なセンサーの開発と、その関連研究の発展です。データサイエンスに傾きすぎた振り子はセンシング技術のサイドに戻ると思っています。

 

塩田 私もデータさえあればそれでよしとするような風潮を、ときに残念に感じています。データサイエンスの知見によって何らかの現象の存在や傾向を認識できたとしても、その要因を理解する大切さは不可欠かつ普遍的なものです。にもかかわらず、「なぜ」が未解明のまま応用ばかりが注目され、骨抜きのまま社会実装が進んでしまっているように感じるのです。ただ、ブラックボックスをブラックボックスのままにしないために知見を深められるのが大学であり、教員の役目だとは思います。

 

小野 私も「何ができて何ができないのか」「この結果はおかしい」などを判断できるように、学生のうちに学びを深めてほしいと思います。

【都立大の強み】教員も学生も果敢にチャレンジできる環境

大久保 音は音響学や心理学をはじめ様々な学問に及ぶ、とても学際的な研究分野です。その点、都立大には多様な分野の先生方がいますので、学生が興味ある研究テーマを見つけて、とことん突き進んでいける環境だと思います。大学は研究のやりがいを知るチャンスに溢れていますので、待ちの姿勢ではなく、主体的に自分の専門性を高めていってほしいと思います。都立大は学生と教員の距離感もちょうどいいですし、教員としてもとても自由度の高い研究教育環境です。その中で私は、まず学生や私自身が楽しい、おもしろいと思える研究に取り組み、それが社会の役にも立てればいいなというスタンスです。自分でニーズを探って研究テーマを考えようとしたこともありましたが、あまり向いていないのかもしれません。世の中には学術的な研究と社会的なニーズをマッチングさせることが上手な人もいます。それならば私は研究者として技術シーズを育てることを重視して、結果的に社会に資する成果にもつながればいいと考えています。

 

小野 都立大のよさは、テーマの自由度にあります。大久保先生のようにある研究を深めながら、いざ何かに着目した際に、柔軟に新たな研究テーマにチャレンジできる環境であることが都立大のいいところですね。

 

塩田 私が学生時代にいわれたのは、「人生においてこれは凄いと心底感動できることとの出合いはあまりないからこそ、出合えたら幸せなのだ」ということ。私の場合は出合えたのが音声という現在の研究テーマです。都立大は学生も果敢に挑戦できる環境ですので、何かを「凄い!」と感じたら、ぜひチャレンジしてほしいと思います。教員の目が学生に行き届きやすい環境でもありますので、学生の理解も深まりやすいと思います。もちろん、心の底から「凄い!」と思えることに出合えるか否かは意識次第ですので、日頃から多方面にアンテナを広げておくことが大切です。

 

小野 そうやって研究に打ち込み、かつては不可能といわれたことを可能にした瞬間は本当にうれしいものです。私自身、いまだに未開拓の領域を切り拓く喜びが研究に臨むモチベーションになっています。都立大の学生は真面目な印象ですが、より主体的に能動的に、興味ある研究を深めていってほしいと思います。

ワタシの研究

小野先生

 

研究テーマは、音響信号処理、マイクロフォンアレイ、音源分離など。人間の聴覚を超える高度な音情報処理の実現を目指し、音声、音楽など、多彩な情報を含む音を対象とした信号処理と情報処理の研究を行っています。

大久保先生

専門は波動情報工学、音響工学、電磁波工学など。高性能計算科学、先端計測・信号処理技術を融合・駆使して、身近な波動からアッと驚く波動まで、音波・電磁波・弾性波・地震波など様々な波動現象の研究を行っています。

塩田先生

音声信号処理や機械学習、パターン認識などの知見に基づいて、機械を音声で操作するために必要な音声認識や、音声を発したのが誰かを識別する話者照合、話者照合での不正を防ぐためのなりすまし検出などを研究しています。