青山学院大学美添教授

AIの原点を探る。ベイズ統計手法とビッグデータ、AI

青山学院大学の美添泰人教授

　ビッグデータ処理やＡＩ技術の発達がこのところ急激である。これはハードや機械学習などの発達の結果だが、これら技術の基礎を成すものの一つが統計学的手法だ。　今回は、ビッグデータ処理やＡＩ開発に重要な役割を果たしている統計手法、「ベイズ統計」研究に長年携わっている青山学院大学の美添泰人教授にＡＩ学習の原点としての統計学とこれからの課題についてお話頂いた。

「ベイズ統計手法とは」

――まず、先生のご専門であるベイズ統計手法について、他の統計手法との違いを教えてください。

　Ａ：統計は、「記述統計」と「推計統計」が中心でしたが、最近ではこれに加えて「ベイズ統計」が重要となりました。記述統計は、観測や調査で得られたデータを効果的に表現する手法に関するものです。推計統計は、記述統計で得られた結果などを元に数値を予測したり、仮説（理論）が、どの程度現実の観測結果と適合するのかを検定したりするものです。ベイズ統計もデータ分析に用いられますが、確率の解釈に大きな違いがあり、観測値以外の情報の利用方法が異なります。

「ベイズ統計手法の特徴」

　――具体的にはどういうことでしょうか。

　Ａ：ベイズ統計にもいろいろありますが、いずれも解析に「主観確率」（判断確率）という概念を採用しています。古典統計学では、未知でも確率は固定・客観的数値です。ベイズ統計では、確率は意思決定者の持つ情報を反映して、変化することがあります。

　――確率を後から恣意的に変えられ、それがＡＩ機械学習の基礎原理になっている？

　Ａ：恣意的に確率を変更するというのは、ベイズ統計の誤解されやすい部分です。ベイズ流に厳密に構成された主観確率は、人間は合理的判断をするという原理（公理体系）に基づいた理論で、不確実性に直面しても「自分の効用関数を最大化するように意思決定を行う」というものです。当然、人によって効用関数は異なります。しかし、効用が最大になるように意思決定を行うという結論が導かれます。これが、ベイズ統計の原理です。そして、これが重要ですが、意思決定の根拠情報が追加的に与えられれば、それにより、主観確率は合理的手順で修正されます。この手順が「ベイズの公式」と呼ばれる形式です（解説参照）。

　――機械学習の基礎になるということですね。

　Ａ：大雑把にいえばそうで、機械学習では、ベイズの定理を利用して判断を修正します。ただし、原理的なベイズ統計にはあまり関心はなく、経験的に有効だから利用するようです。ハーバード時代の私の恩師たちが聞いたら嘆くと思いますね。

　――ＡＩの技術でベイズの原理を使用した代表的なものには何がありますか？

　Ａ：例えば、迷惑メール振り分けフィルタにベイジアンフィルタというものがあります。
　フィルタ作成者は、あらかじめ、いくつかのキーワードの組み合わせが迷惑メールに含まれていた比率をデータベースとして登録しておきます。あるメールを受信したときの初期状態では、一般的な迷惑メールの比率が、それが迷惑メールである確率です。メールに含まれているキーワードに基づいて、フィルタはそれが迷惑メールである確率を修正します。このときにベイズの定理が用いられます。分類にミスがあり、報告があれば、それに基づいて、フィルタのデータベースはその都度修正、改善されます。

「日本はビッグデータやＡＩで遅れているか」

――ＡＩ開発や利用・活用について日本は米国や中国と比べ遅れているといいますが、データの量が少なく、不利だなどと統計的な面が指摘されています。

　Ａ：技術面で遅れているとは感じませんし、ビッグデータとして使用できるものはいくらでもあります。ただ、米国には、グーグルなどがあるのに対しビッグデータを事業とする大企業が少なかったことと、統計的分析能力を習得できる大学などが少ないということはいえます。

「ＡＩの発展には統計的分析能力向上が不可欠」

――我が国でＡＩを発展させていくためにはグーグルのような企業が必要ということですか？

　Ａ：米国はオバマ大統領が１２年に出した「ビッグデータ研究開発イニシアティブ」でビッグデータ関連技術への研究開発投資が加速し、ＡＩの開発も進みました。日本では、ビッグデータの活用、統計的分析能力向上への支援の必要性は、それまであまり認識されていませんでした。最近、日本でも政府による支援が始まっています。人材育成に関しては、私自身も国際的な水準の統計教育の拡大のため、「統計教育大学間連携ネットワーク（ＪＩＮＳＥ）」などで支援活動をしています。

　――ビッグデータ活用としてのＡＩの統計学的課題はありますか。

　Ａ：世界的に「ビッグデータの分析」という流れがあり、その意味で統計的手法の研究・開発は重要課題です。伝統的な統計学だけでは不十分という批判もありますが、２０年以上前から、新しい統計学は十分に発達しています。問題は、大学等で新しい統計的手法を教えられる人材が少なかったことです。さらに新しい統計的手法の開発と実用化が課題ですが、同時に、ＡＩなどでビッグデータを活用する一般ユーザーは、与えられたデータに対して、適切なモデルを選択できる程度の統計的データ解析能力の修得が求められます。このような人材をいかに育成するかが、今後のビッグデータやＡＩ活用で重要だと思います。

　――ＡＩの発達でいろいろ問題も発生して来そうですが。例えば将来、ＡＩが人間の多くの職業を奪うといわれますが。

　Ａ：ＡＩが深層学習で自ら学ぶにしても、当面、問題解決のためのデータ収集、適切なモデルの設定や手法の開発は分析者が行います。また、ＡＩは汎用的な問題に対しては回答を出せても、その回答を正当化する理論の構築は、まだできないようです。しばらくは、人間に重要な存在意義があると思います。

　――ありがとうございました。
　＜取材協力：青山学院大学経営学部　ＪＩＮＳＥ＞

解説：ベイズ統計手法による意思決定例（モンティホール問題）

　あるゲームで、３つの箱（Ｂ１～Ｂ３）があり、そのうち一つには、現金（Ｍ）が入っている。このゲームの参加者はその現金が入った箱を１回で開けられれば、その中の現金がもらえるとする。参加者は、箱を開ける前にどの箱を開けるかあらかじめ決める（この例では、箱１、Ｂ１を選んだものとする）。
　このゲームの主催者は、どの箱に現金が入っているか知っている。もちろん、主催者はどの箱に入っているかを参加者に教えることはないし、箱を開けずにどの箱に現金が入っているか知るすべはないものとする。
　まず、箱に入っているものを順番に記述していく。例えば、ＭＥＥは、１番目の箱に現金（Ｍｏｎｅｙ）が、２、３番目が空（Ｅｍｐｔｙ）であることを表すものする。
　このとき、参加者が考える現金が各箱に入っている事前確率は、

となる。この後、主催者が参加者が選んだ箱１（Ｂ１）以外の箱の１つを開けてみせてくれるという。もし、開けて見せる箱が３番目だとすると、その事象をＢ３で表す。しかも、開けて見せてくれたあと、開ける箱を１回だけ変更してもよい。当然、主催者はゲームが成立しなくなるので現金が入った箱は開けない。このとき、参加者は開ける箱を変えたほうが有利になるだろうか。
　主催者は、必ず空の箱を開けるので、Ｐ（Ｂ３｜ＥＭＥ）＝１、Ｐ（Ｂ３｜ＥＥＭ）＝０になる。不確定なのは、参加者が１番目の箱を選んでいる場合のＰ（Ｂ３｜ＭＥＥ）（１番目の箱に現金が入っている場合に主催者が３番目の箱を開ける確率）であるが、これは仮にＰ（Ｂ３｜ＭＥＥ）＝πとしておく（図参照）。
　このとき、３番目の箱を開いた後、箱を変更して現金が当たる事後確率は、

となる。これを一般的に書いたものが、ベイズの事前・事後確率の基本公式、

Ｐ（Ａ｜Ｘ）：Ｘが起こったあとでＡが起こる確率（事後確率）Ｐ（Ａ）：Ａが起こる確率（事前確率）Ｐ（Ｘ）：Ｘが起こる確率Ｐ（Ｘ｜Ａ）：Ａが起こった状況下でＸが起こる確率である。三つの箱の問題では、πにさまざまな想定が可能であるが、以下の三つの可能性がもっともらしい。
　　　１
　π＝―、　π＝１、　π＝０
　　　２
　この三つの場合を公式に当てはめると、それぞれの事後確率は、

　２　１
　―、―、１
　３　２　　　となり、事前の確率は、ベイズの定理により変更される。

美添泰人（よしぞえ　やすと）教授（Ｐｈ．Ｄ　統計学）
略歴：１９４６年生まれ
東京大学経済学部　１９６９年卒業
東京大学大学院経済学研究科博士課程　１９７５年修了
ハーバード大学大学院（統計学専攻）　１９７８年修了、Ｐｈ．Ｄ　（統計学）
専門・研究分野：
ベイズ統計、統計科学、経済統計学
所属学会・団体：
日本統計学会、ＩＳＩ（国際統計協会）、他
主な役職：日本統計学会理事長、内閣府経済社会総合研究所客員主任研究官、総務省統計研修所客員教授、統計審議会会長、統計委員会委員、日本統計学会会長などを歴任
現在：日本学術会議連携会員、青山学院大学経営学部招聘教授