ジャパン/コンピュータ・ネット代表取締役 岩戸あつし

最近の人工知能の発達には、ビッグデータが関係していると以前書いた。ビッグデータとは何かというと、主にインターネットを介して集められた大量のデータのことである。最初にそれを行ったのはGoogle社である。

Googleが登場するまで、ウェブ検索用データは、ユーザーがプロバイダのフォームに書き込んで登録するやり方であった。例えば、Yahooの検索エンジンに登録してもらうためには、登録料を支払って、所定のフォームに名前、会社名などの詳細と共に、検索でヒットさせるウェブドメイン、検索用語などを複数書き込んだ。

それに対しGoogle社は、クローラというソフトを使って、世界中のウェブページをスキャンして、それらの全てのデータを取り込むことに成功した。成功の陰にはクローラ・ソフトの発明だけでなく、大量のデータを記憶できるデバイスの発達がある。クローラと大規模記憶装置のお陰で、ユーザーから登録してもらわなくても自分たちで情報を集積できるようになった。

クローラによって取り込まれた生データは、ウェブに書かれたテキストそのままであるので、これだけでは、ただの粗大ゴミになってしまう。DNAからすべての遺伝子を探し出すというゲノム・プロジェクトがあったが、大量データをゲノムに見立てて、どのように区切って、どのようにカテゴライズし、どのように検索利用可能にするかというソフト技術の発展がその後の課題であった。

Googleは、独自のアルゴリズムを開発して、これに対応した。具体的な方法は明かされていないが、要は、取り込んだすべての文字を検索対象にするのではなく、ある特別なインデックスを作って、そのインデックスを検索することでスピードを速めた。勿論、世界最速のコンピュータを使うという前提がある。でも、ただそれだけでは検索スピードは速くなるが、翻訳等に使える人工知能の精度を上げることにはならない。

今日の人工知能研究の隆盛は、2012年ころに起こったとされる「深層学習」と呼ばれる手法の成功によってもたらされている。(参考:「人工意識」茂木健一郎著)「深層学習」というのは、人間が脳で学習するやり方をコンピュータが真似たものである。人間の大脳新皮質は6層からなる。例えば第1層は、丸、三角、四角など簡単な図形に関する学習をする層で、層が深くなるにつれて概念的なもの、哲学的なものの学習、例えば「幸福とは?」「人生とは?」になると言う。この人間の脳で行われている学習方法をコンピュータに真似させたところ、人工知能の精度が飛躍的に上がり、機械翻訳の精度も上がったと言われている。

あと、ビッグデータを扱うときに大事な理論は、確率論である。よく統計において、どのくらいデータを集めるとどのくらいの確立になると言われる。例えば、米国大統領選挙の勝敗を占うのに出口調査を実施して、何人のデータが集まればどのくらいの確立でその結果が有効なのかがわかり、当確を打つときの重要な要素になる。昔「トリビアの泉」というテレビ番組で、統計学者が登場して、この実験結果を確実にするために何人からデータを集めてくださいといわれたのを覚えているだろうか。一万人のデータと一億人のデータとでは全く異なった結果が出る可能性がある。データは多いに越したことはない。

まとめると、ビッグデータは山積みされた本のように、それだけではほとんど役に立たない。区分けされ、インデックスされ、統計に必要な数が集められて初めて利用可能になる。機械翻訳がビッグデータによって飛躍的に伸びたのは、コンピュータが文法を理解したからではない。多くの人が書いた、似たような翻訳文章をコンピュータが解析して、統計的に多いものを選んだ結果が、正しい翻訳と一致するということなのだ。

最近は、コンピュータが書いた小説というのがある。文法的に正しく、なにも違和感がないのであるが、なぜかインパクトがないと言われる。それは、統計的に纏め上げられた文章が必ずしも人の心を打つとは限らないということであろう?

Share This