2017/11/07
スマートスピーカーが家族全員の声を聞き分ける理由 カギは『声認証技術』にあった
指紋で本人かどうかを判断する指紋認証に、顔で判断する顔認証。スマホでもすでにおなじみになっている、さまざまな生体認証(バイオメトリクス認証とも言う)だが、スマートスピーカーが続々登場する昨今は、どうやら声認証に注目が集まっているようだ。
声認証とは文字通り、声で本人かどうかを判断する技術だが、Android系のスマホではすでに取り入れているものもあるから、「前から使ってるもんね」という読者も多いだろう。
この技術によってスマートスピーカーのGoogle Homeでは、6人まで声を聞き分けられるという。つまり、「OK Google。きょうの予定は?」と話しかけたその人が誰かを判断して、たとえばお父さんだったらお父さんの予定を、お母さんだったらお母さんの予定だけを教えてくれるのだ。
だから、たとえば、娘のデートの予定をお父さんがこっそりGoogle Homeを使って聞き出すということはできない。一体どういう仕組みで、誰の声なのかを判断しているのだろう。
人それぞれで違う声紋
声紋という言葉を聞いたことがあるだろうか。指紋のように、声にも紋(模様という意味)がある。それを声紋という。音に模様なんてないと思うだろうが、いや、あるんです。とはいえ、肉眼で見えるわけではない。人の声をコンピュータで分析し、サウンドスペクトログラムという音声信号の分布図が声の模様――つまり声紋となるのだ。
下の図がそのサウンドスペクトログラムの例。横軸が時間、縦軸が声の周波数を示していて、色の濃い部分は音声信号が集まっているところとなる。左と右の声紋は別の人のものだが、このふたつがはっきりと違うことがわかる。
声が人によって違うのは当たり前だし、友だちから電話がかかってきたら声を聞いただけで誰かがわかる。それは声帯など身体の発声器官が人によって大きさも形も違い、また出身地や生活スタイルなどでアクセントや発音もまた微妙に異なるからだ。
そんな人の声の特徴を「見える化」し、デジタルデータに変換する。つまり、指紋を登録するようにあなたの声紋を登録し、認証のたびにあなたの声をデータベースの声紋と比較して本人かどうかをAIが判断するのが声認証というわけだ。
声紋登録の方法には2種類ある。まずはGoogle Homeなどで用いられるキーワード方式だ。「OK Google」などと決められたフレーズを何回か声に出すことで登録する。数秒で済み、認証時間も早い。ふたつ目はフリーワード方式といって、自由にしゃべっている会話から声紋を取り出すやり方だ。キーワード方式より登録に時間がかかるが、精度はより高くなる。
今後は声認証が一般的になる?
スマートスピーカーなどのIoT機器のほかに声認証と相性がいいのは、コールセンターなど、電話口での本人確認が必要なサービスだろう。これまでのように、電話の相手が本当に登録者かどうかを名前や住所、IDナンバーなどを電話で伝えるだけよりも、声認証をプラスしたほうがよっぽど安全確実だ。
ロボットもまた声認証テクノロジーを搭載してどんどん賢く、かつフレンドリーになっていくはずだ。たとえば、千葉・幕張で開催されたCEATEC JAPAN 2017でNECが発表したロボット「TAPIA」には、話しかける人物の声を聞き分ける最新型の声認証システムが搭載されていた。
今後、技術が進化してAIの学習も進んでいけば、信頼性や便利さはさらに高まっていくはずだ。スマートスピーカーやロボットが日常生活のなかに溶け込んでいくこれからの社会では、声認証はもはやなくてはならない必須のテクノロジーとなりそうだ。
文:太田 穣