2016/04/04
| 更新
2022/06/20
「スマホの声は、本人の声ではない」説は本当?人の声が届く仕組みを解説
ネット上ではしばしば「スマホから聞こえる声は、実は本人の声ではない」という説が話題となっている。
「本人の声ではない」とは本当なのか?そうだとしたら、いったい誰の声なのか?誰もが当たり前に使いこなしているスマホの意外と知られていない「音声通話の仕組み」について、KDDI総合研究所で音声・音響技術の研究開発に長年携わってきた堀内俊治に聞いた。
固定電話の音声と携帯電話の音声は違う
――ネットなどで「スマホで聞こえる声は、本当の相手の声ではない」という説がしばしば話題になりますが、本当のことなんでしょうか?
堀内「実は本当なんです。ただそれを理解するには、「人はどのように声を出しているのか」という仕組みを知っておく必要があります。
まず、人の喉の奥下には「声帯」という器官があり、声は、肺やおなかからの空気によってこの声帯が振動するかしないか、そして通り道となる喉、口や鼻の形、舌、唇や歯の位置が変わることで、音として出てきます。
その声は、大きく「有声音」と「無声音」に分類できます。有声音とは、母音をはじめとして、聴き取りやすい「ア」のような音。無声音とは、ただ空気を吐き出したような「スッ」「シッ」のような音のことです。もっと言うと、有声音とは声帯の振動を伴う音で同じ波の繰り返し、無声音は声帯の振動を伴わない音のことです。
――声帯が震えるか震えないかで、声の出方が変化するわけですね。人が声を出す際には、声帯が重要な役割を果たしていると。
堀内「はい、この声を発する仕組みと電話の通話とのあいだに大きな関係があるんですが、同じ電話でも有線の固定電話の場合、原理的には人が口から出した声をそのまま届けています。これは声が糸を震わせて相手のところに届く「糸電話」とおおむね同じ仕組みで、固定電話では声を「波形」のまま、届けています。
しかしスマホのような無線で通話をするときには「限りなく本人の声には近い、つくられた声=合成音声」を相手に届けているんです。」
合成音声にはどのような種類があるのか
――合成音声というと、ボカロ(ボーカロイド)やSiriなどが浮かびます。スマホの通話の声も同じ仕組みなんですか?
堀内「同じ合成音声でも、実はつくる方法が違います。ボカロやSiriなどは、もともと声優さんがいて成り立つ方法を使っています。もともとは声優さんの声で、その声をひと通り収録したら、それらの素材をつなぎ合わせて、多様な発声表現を可能にしているんです。
一方で、スマホで使われている合成音声には声優さんがいません。人間の発声の仕組みを応用して、限りなく本人に近い声をつくり出しているのです。」
――なるほど。ボカロやSiriの、声優さんの声を素材に切り貼りするというというのは感覚としてわかるんですが、「人間の発声の仕組みを応用して、限りなく本人に近い声をつくり出す」というのはいったいどういう原理なんですか?
堀内「それを実現するのが「音声符号化」という技術です。これは人の声などのアナログの波形をデジタル化したり、そのデータを圧縮したり、あるいは元に近いアナログの波形に戻す処理のことです。」
――電話でいうと、自分の声をデジタル化して相手のところまで送り、そこでまた声に戻して聞ける状態にするわけですね?
堀内「そうです。少し専門的になりますが、順を追って説明しましょう。」
通話の際の音声符号化の3つの方式
①波形符号化方式
堀内「まず、「波形符号化方式」。これは固定電話に使われている方法で、先ほど説明したように、声の波形をほぼそのまま届けています。アナログの波形をデジタルの波形にしただけです。ここではわかりやすいように「波形そのまま方式」と呼びましょうか。この方式を使った場合には「本人の声をそのまま届けている」と言えます。」
②分析合成符号化方式
堀内「次に「分析合成符号化方式」は、人の発声器官をモデル化した方法です。人が話した声を、喉や口などがどのような形になっているかという声道を再現する「フィルタ」の情報と、声帯がどのように振動しているかという「音源」の情報に分解して伝送し、それらの情報をもとにあらためて音声を合成します。
伝送するデータの量をかなり抑えられる方法ですが、相手に聞こえる声はロボットの声のようになるので、ここでは「ロボット方式」としておきましょう。この方式は「話した内容がわかれば十分」という目的に適しているので、たとえば軍事用途などに使われたりします。」
③ハイブリッド符号化方式
堀内「そして最後に紹介する「ハイブリッド符号化方式」が今の多くのスマホに使われている合成音声の仕組みです。話した声を「フィルタ」と「音源」に分解するのは「ロボット方式」と同じですが、それをあらためて音声として組み立てる際に「コードブック」という、いわば“音の辞書”のようなものを参照します。
そこで「固定コードブック」から本人の声に近く聴こえる音声コードを探し、声色に合わせて一瞬にして音声をつくります。また、「適応コードブック」という直前につくられた音声コードをメモ書きしたような辞書も使って、効率よく選ばれます。「波形そのまま方式」と「ロボット方式」の長所を兼ね揃えているので、いわば「良いトコどり方式」というわけです。」
通話中のスマホのなかで起きていること
――“音の辞書”から似た声を探すということですが、似たような声がそんなにうまく見つかるものなんですか?
堀内「「固定コードブック」には、声を組み立てる際の"音の素"となる組み合わせのパターンが2の32乗、つまり約43億あります。データの量が多そうに思われますが、数学的につくられるので、辞書といっても、記録されているわけではないんです。
スマホで通話しはじめた瞬間に、話した声は「音源」と「フィルタ」に分解され、「音源」については「固定コードブック」と「適応コードブック」に探索をかけ、その声に似たパターンを見つけたら、「フィルタ」の情報と一緒に電波にのせて、相手のスマホに届けます。そこであらためて、相手のスマホで「元の話し声に似て聞こえる音」を組み立てることになるのです。」
――たとえば、ものまねタレントみたいなそっくりさんの声でもちゃんと区別されるんですか?
堀内「はい、ものまねタレントさんの声でも波形としてみると、まったく違う形になりますので、区別されます。たとえば親子の場合、娘さんが電話を受けたのに「奥様ですか?」と母親に間違われた、みたいなことは起こりえますが、この仕組みの影響というより、そもそも電話では送る音の高低の範囲(周波数帯域)が絞られているからなんです。」
――KDDIの社内に音声符号化を行うセンターのようなものがあるんでしょうか?
堀内「いえいえ。すべてスマホの中で行われています。誰かに電話をかけて話しはじめた瞬間から、一連の作業がすべて行われ、みなさんの声によく似た声が合成されて相手のスマホに届くのです。もちろん相手の声についても同様です。」
スマホの音声はこれからどのように進化するのか
――ここまで伺ってきたのは、携帯電話で電話番号を呼び出して通話する、いわば「電話番号を持つ声」についてですよね。SNSなどのアプリで通話する場合も同様のことが起きているんですか?
堀内「アプリでの通話においては、ご紹介した音声通話向けのハイブリッド符号化方式を使うこともありますが、波形符号化方式を使ったり、音楽向けの音響符号化技術を使うケースも増えています。今回ご説明したのは、限られた資源で多くの通話を実現するためのデータ圧縮技術のひとつなのですが、無線技術の進化によって送れるデータの量はどんどん増えているので圧縮せずとも音声のやり取りができるようになってきているんです。」
――いろいろな通話の手段が増えている一方で、音声符号化技術自体は進化してきているんですか?
堀内「新しい方法が登場しはじめています。より高い周波数まで送れるようにしたり、音声だけでなく、音楽などもきれいに送ったりすることもできる、さらに新しい方法が登場しはじめています。今後は、そうして原音を忠実に届けることのさらに先にある、臨場感や没入感なども伴う音声をやり取りできるように進化していくでしょう。」
――今回は音声符号化技術について教えていただきましたが、これに限らず「スマホと音声」にまつわる進化はあるのでしょうか?
堀内「昨今、通話の音声から周囲の環境音を分離し、声をより際立たせる機能や立体的に聞こえるようにする機能なども出てきています。今後も我々のコミュニケーションをより快適にし、アシストしてくれるような機能がどんどん登場してくると考えています。」
スマホは私たちの生活においてさまざまな役割を担い、必要不可欠なものとなった。そんななかでも音声による通話というコミュニケーションはそもそものベースにあったもの。KDDIはこれからも、きれいでスムーズな音声通話はもちろん、通信とそれを取り巻く環境を進化させ、人々をつなぎ、生活に貢献していく。
文:TIME&SPACE編集部
絵:田中裕子
※掲載されたKDDIの商品・サービスに関する情報は、掲載日現在のものです。商品・サービスの料金、サービスの内容・仕様などの情報は予告なしに変更されることがありますので、あらかじめご了承ください。