人間はAIが模倣した合成音を本物と区別することができない。学習する人工知能システムの開発（米研究）

公開： 2016-07-23 09:50

　アメリカ、MITのコンピューターサイエンス人工知能研究所では、コンピューターに音と映像との関係を教えている。研究チームが開発した人工知能システムは、あるイメージに結びついた音を予測するだけでなく、音自体を真似することができる。そのディープラーニングアルゴリズムが再現する音は非常に巧みで、人間ですら騙されるほどだそうだ。これについて研究者は一種の「音のチューリングテスト」と語っている。

Visually-Indicated Sounds

　AIに音を教えるために、まず1,000本ほどの動画が録画された。そこにはドラムスティックを使ってさまざまな表面を叩く場面が映っており、計46,000種の音が録音されている。AIはこれらを通じてどの音がどの場面に対応しているのか自己学習した。例えば、水面を叩く場面、葉っぱをカサカサ搔き回す場面、金属の表面を叩く場面とそこから生まれる音の違いを学習するといった具合だ。

　次に学習度合いを確認するために、AIにいくつか新しい動画を見せた。この動画にはやはりドラムスティックでさまざまな表面を叩く場面が録画されているが、音は消されている。するとAIは研究者が「グレイテストヒッツ」と呼ぶ音のデータセットを使用して、新しい動画に応じた音を作り出す。このとき、オリジナルの動画に録音されているごく短い音が取り出され、それをつなぎ合わせて完全に新しい音の組み合わせが作られている。

本物よりも本物らしい合成音も

　このAIが合成した音を人間の被験者に聞かせると、ほとんど本物の音と区別することができなかった。また中には、被験者の耳に本物の音よりも合成音の方が本物らしく聴こえているようなものもあったという。

　研究者は、将来的にこのAIを利用して映画やテレビにおいて自動的に効果音を鳴らすといったことも可能になると話している。またロボットが物質の硬さやなめらかさといったことを区別し、物理世界を理解できるようになるうえでも有効だそうだ。

　「歩道を歩こうとするロボットが、セメントを見てそれが硬いのか、あるいはそこに生えている草が柔らかいのか本能的に悟り、足を乗せたときの状況を予測できるようになるでしょう」とアンドリュー・オーウェンズ氏。音を予測する能力は、世界と物理的な接触があった際の結果を予測する能力への重要な第一歩なのだそうだ。

via:mentalfloss/ written & edited by hiroching

コメントを見る（29件）

みんなの
反応は？

📌 広告の下にスタッフ厳選｢あわせて読みたい｣を掲載中

記事一覧を読込中です。

JavaScriptが無効になっています。コメントの返信、投票などの全ての機能を使用するには、JavaScriptを有効にしてください。JavaScriptが無効の場合、これらのボタンは機能しませんが、新しいコメントの投稿は可能です。コメント投稿フォームはこちらのリンクでアクセスできます。

この記事へのコメント 29件

コメントを書く

名前:匿名処理班 1ID: WVjY•投稿日:2016年7月23日

今どきのケータイやスマホで聞こえてくる声もデータパターンで置き換えられた完全な合成音だしね。
- 評価
名前:匿名処理班 2ID: NTVj•投稿日:2016年7月23日

そのうち声優さんもいらなくなるのか・・・
なんか怖いな・・・（´・ω・｀；）
- +3
1. 名前:匿名処理班 8ID: NDRk•投稿日:2016年7月23日
  
  ※2
  声優さんで考えると、シチュエーションとは真逆の口調とか、一言（一音）ごとの抑揚など
  恐らく人為的に設定しないとAIには表現難しいからまだまだ大丈夫そう。
  うまく嘘がつけないと、感動させられないとは思う。
  - +1
2. 名前:匿名処理班 18ID: NTUy•投稿日:2016年7月23日
  
  ※2
  声優より原稿読みのアナウンサーの方が先に要らなくなりそうだけどね
  訃報の前にちょっと笑顔だったぐらいでクレーム入れられてしまうんだから、
  人間がやらない方がいいのかもね
  - 評価
3. 名前:匿名処理班 26ID: MjYD•投稿日:2016年7月25日
  
  ※2
  声優さんの魅力の一つって｢そのキャラをどう解釈し、どう演じるか」が大きいと思う。
  だからどれほど合成音が人間に近づいても、人物像をキャラクターデザインできて演技指導もできる人間が監修しないと魅力ある吹き替えにはならないと思う。
  私はむしろ需要は増すかも知れないと思ってるよ。
  - 評価
名前:匿名処理班 3ID: Zjk4•投稿日:2016年7月23日

TVアニメなんかそうだよね。
本物よりも本物らしい音を作って当ててる。
- 評価
名前:匿名処理班 4ID: MjYz•投稿日:2016年7月23日

ザルに小豆入れて波の音を出す必要が無くなる、と
- +3
1. 名前:匿名処理班 14ID: ZTdY•投稿日:2016年7月23日
  
  ※4
  マジレスすると、そういった昔ながらの音効さんの手法は最早伝統芸能として存続している状態。
  - 評価
名前:匿名処理班 5ID: Mzg4•投稿日:2016年7月23日

なんとなくT2で受話器越しに相手をだますシーンを
思い浮かべた
- 評価
名前:匿名処理班 6ID: NG3Z•投稿日:2016年7月23日

「モヤさま」でおなじみVoiceTextのショウ君ですら、つぶやきシローが喋ってると思ってた人がいたものね。
- 評価
名前:匿名処理班 7ID: NTBh•投稿日:2016年7月23日

本物よりも本物という哲学
- +1
名前:匿名処理班 9ID: TQ4Y•投稿日:2016年7月23日

音だけじゃなくジョージア工科大学でオンライン講座を履修する学生担当の教育助手（ティーチングアシスタント＝TA）にロボットを紛れ込ませたりしても気付けないらしいからね…
凄い時代だ
- 評価
名前:匿名処理班 10ID: YzQY•投稿日:2016年7月23日

人間を狩るロボが人間を釣るために音声を合成して、おびき寄せるシーンとかを思い浮かべましたよ。「助けて～」「大丈夫だよ～」
- 評価
名前:匿名処理班 11ID: MTY3•投稿日:2016年7月23日

「ウルフィは元気よ。今どこ？」
- 評価
名前:匿名処理班 12ID: Y2FM•投稿日:2016年7月23日

なぜ開発者は自分の子供を産めるのにロボットをつくるのかな｡
- 評価
名前:匿名処理班 13ID: ZTBk•投稿日:2016年7月23日

ジャパネットタカタの社長のあの声も…(笑)
- -6
1. 名前:匿名処理班 15ID: MGJN•投稿日:2016年7月23日
  
  ※13
  そりゃまぁロボットは「人間の道具」だけど、我が子は「親の道具」じゃないし。
  - +2
2. 名前:匿名処理班 25ID: N2Vj•投稿日:2016年7月25日
  
  ※13
  それは、「人はなぜ子供を産めるのに、わざわざ人間の絵を描いたり人体の彫刻を彫ったりするのか」という問いと同じだと思う。
  - 評価
  1. 名前:匿名処理班 28ID: YjQy•投稿日:2016年7月25日
    
    ※25
    まあ、確かに、動物の体の構造は大体似たり寄ったりだから、その生物の体の大きさや体重などを「計算」して、それに適合するような音を「合成」することはできると思う。
    つまり、ゴジラの場合だと、身長が118メートルで体重がこのくらいで、声帯の直径がこのくらいで、肺活量がこの場合だと、鳴き声はこうなるだろう。こういう感じで。
    けれど、こういう計算からは、コントラバスの音から、「生物」の鳴き声を作ろうという発想は、到底生まれてこないと思う。
    それ以外の例だと、馬が走る音の場合だと、茶碗か何かを伏せて「バカバカ」やって、音を出したりするけど、これをAIがやった場合には、かなり一本調子にになると思うし。
    けれど、人間がバカバカやる場合には、意図的にペースを上げたり下げたりして、馬の状態も聞く側にわからせたりすることも、可能だろうし。
    この辺は、※27で書かれている、人間の「肉声」と被ってくると思うけど。
    だからこそ、こういう人間が持っている、「情緒面」とか「想像力」とかをAIが持ち始めたら、「脅威」になるということ。
    - 評価
  2. 名前:匿名処理班 29ID: NWVh•投稿日:2016年7月25日
    
    ※25
    多分、「科学的に」ゴジラの鳴き声を作ったとしたら、低音すぎて人間の耳には聞こえないんじゃないかな
    象の鳴き声だって、俺たちの知っている「パオーン」は人間の「キャー」と同じような、つまり悲鳴みたいな声だそうで、普通の会話は人間の可聴域を下回る低音で行われているんだそうな
    - 評価
名前:匿名処理班 16ID: MzU2•投稿日:2016年7月23日

偽物は、本物になろうとする意志がある分だけ本物よりも本物だ
- +3
名前:匿名処理班 17ID: YmYy•投稿日:2016年7月23日

視聴者側が「自分は映像とそれに付随する録音音声を視聴しているんだ」という身構えが
多少の違和感を許容させてしまっているんじゃないかな。
現実ではまだまだ人間を騙すのは無理だと思う。
- +2
名前:匿名処理班 19ID: NWZk•投稿日:2016年7月23日

効果音に関しては、人間って意外と騙されやすいよね。
フォーリーの動画なんか見ると、音の置き換えに、ただただ感心させられるばかり。
- +2
名前:匿名処理班 20ID: ZjMx•投稿日:2016年7月23日

俺は、さかり中の猫の鳴き声と、虐待された赤ちゃんの泣き声の区別つかない。
- 評価
名前:匿名処理班 21ID: Y2Mw•投稿日:2016年7月24日

音を作る職人さんが失業しちゃう(´・ω・｀)
- +2
名前:匿名処理班 23ID: YjQy•投稿日:2016年7月24日

今の時点でAIに合成させることのできる音は、「既に存在する音」に限られていると思うけど。
だから、音響関係の職人さんのニーズがあるとしたら、「存在しない音」を生み出すことに特化することだと思うけど。
たとえば、怪獣の鳴き声。
ゴジラが咆哮を発する際に出てくる音は、実はコントラバスの音を加工したものだったりするけど、それにしたって、実在しない怪獣の鳴き声を60年以上前に試行錯誤しながら、生み出した経緯がある。
こういう「想像力」はAIでは再現できないのじゃないかな。
あるいは、「ガンダム」で使われている「ニュータイプが能力を使う際の音」。これも、AIに生み出すことはできないと思うけど。
逆に言えば、コメント中の「ざるの中の小豆で波の音を出す」。こういうレベルのことをAIがやり始めたら、これは十分脅威になると思う。
なぜなら、これは、ある種「無から有を生み出す」能力をAIが手に入れたようなものだから。
- +1
名前:匿名処理班 24ID: GMyZ•投稿日:2016年7月24日

架空の生物の鳴き声、ねぇ…
声帯の構造から予想できるんじゃないか？
もしかすると、AIがよりゴジラらしいゴジラの鳴き声を教えてくれる日が来るかもね
- +2
名前:匿名処理班 27ID: ZGFN•投稿日:2016年7月25日

よくネットの書き込みでオワコン言われてるけど、初音ミクみたいな人工音声業界は廃れないよ
むしろ発展していく産業
- 評価
名前:匿名処理班 30ID: ZWRk•投稿日:2016年8月1日

これ録音して再生しているだけで
AI全く関係ないんじゃないか？
- 評価