AIは人間の仕事を奪うのか?データサイエンスの視点から考える

2019/03/29

データサイエンスやAIの意味するところは広く、その定義も人により異なる。そうは言っても、データサイエンスの目的の一つはAIの実現であることは間違いない。「AIは人間の仕事を奪うか?」という普遍的なテーマも、データサイエンスの視点から考察するのも的外れではないと思う。

分析の自動化

かつて、人より多くの分析手法を知っていたり、ちょっと難しそうな名前の分析手法を知っていれば、重宝されている時代があった。データ分析はデータサイエンスの世界で中心的存在である。

今、最小二乗法を知らなくてもデータ分析はできるか?答えはイエスである。それは、分析のハードルは下がり続け、現在は分析環境がコモディティ化したことにある。新しい分析手法は今でも世界のどこかで産声を上げている。事実、新規手法発表の場であるデータサイエンス関連の学会の論文投稿数と参加者数は増加の一途で、学会によっては数年前の倍以上になっている。新規手法誕生の理由は、各手法の得意分野が違い、全てを得意とする手法が存在しないためである。

例えば、古くはTopic modelの名代ともいえるLatent Dirichlet Allocationや最近ではEmbeddingsの金字塔、Word2Vecなどはその成功もあり、多くの拡張モデルの誕生を促した。自分もそれに加担してきた。これらモデルを含め分析手法の多くは論文発表と同時にソースコードやツールとして公開され、機械学習のライブラリに組み込まれつつあり、分析環境は充実した。結果、例えば、需要予測や売上予測といった分析をする際に、その背後で使う手法の名前やその仕組みを知らなくても分析できるため、データアナリストの数も増える一方である。

目的に合う手法の選択肢が広がった一方、最近は手法の選択よりも、複数手法を組み合わせて実行することが主流となっている。具体的にはStackingやEnsembleなど。その場合、組み合わせる手法の重みや各種パラメータのチューニングの作業が必要になる。この作業はどちらかと言うと経験が物を言う職人芸の世界だったが、これに対応したツールの登場により、この世界も自動化が進んでいる。場合によっては殆ど人が介在せずに分析が完了するケースも増えてきている。データサイエンスの住人にとり分析手法を知っていることだけでは強みではなくなってきている。


結果の説明力の向上

今では見つけることが難しくなったが、どの駅前にも書店やCDショップがあった。CDショップであれば、音楽に詳し過ぎる店員さんが必ずいた。数回通って、顔見知りになれば、お薦めのレコードあるいはCDとその推薦理由を熱く語ってくれた。

データサイエンスの住人は分析結果の根拠やその理由を詳し過ぎる店員さんぐらい熱く語ってくれるか?例えばデータサイエンスでも利用頻度の高いクラスタ分析。この分析結果を人に見せたときに「どうしてこのクラスタ数なの?」、「このクラスタの意味は?」などと質問された、あるいはしたことがあるだろう。質問の答えは「ノンパラメトリックな方法で分析したので、このクラスタ数が最適解になります」「このクラスタ数の時に目的関数を最大となります」だったら、結果に納得できるだろうか?結果が直感的に分かり易いクラスタ分析でこの状況なら、AIで話題の手法、例えばDeep Learningでは更に難しくなるだろう。というのもAIでは学習過程がブラックボックス化されている手法が多く、結果が正しい理由を理解する事も説明する事も難しいことが多い。

現時点で、この説明力の向上の研究が進んでいるのは、CDショップと店員さんを追いやったレコメンドシステムだったりする。レコメンドシステムはユーザ毎に好みに合う商品やコンテンツを推薦するシステムである。レコメンドシステムは売上やブランドロイヤリティの向上に直結することから、データサイエンスの黎明期から今でもその研究が進められている。

研究テーマの大半は長らく「顧客の購入/クリック予測」に関するものだった。高い予測精度を達成した一方で、長らく、商品の推薦理由があっても、「この本を買った人はこの本を買っています」というものがメインだった。これがユーザの推薦された本の購入の後押しになっているので、十分に推薦の説明を果たしていた。推薦対象によっては購入の意思決定においてレビューの影響が強いことも分ってきたため、最近では、例えば、ホテルの比較検索サイトであれば、顧客の過去の宿泊傾向から、レコメンドシステムは顧客の好むホテルの特徴を学習し、その特徴に合致したホテルとそのレビューを顧客に推薦するようになっている。最新の研究では、過去のレビューから顧客毎にレビューを自動生成する試みが行われている。

こういった結果に対する説明力の向上がデータサイエンスの世界に求められてくるだろう。またリアルの店舗もしっかりお客さんに説明ができないと、ネットの世界にお客を奪われるかもしれない。説明できても奪われるのだから。


データ及びコンテンツの生成

私は漫画に詳しくないのだが、休載期間が長くてなかなか話が進まない漫画や大人の事情で打ち切りに遭った漫画が結構あることと、そして、漫画の完結を望む人が多いことは知っている。漫画に限らず、音楽、書籍や映画などのコンテンツでも、現状のコンテンツに対して、「亡くなったあのアーティストの新曲が聞きたい」「未完の小説を完結して欲しい」「あの映画を別の俳優で見てみたい」とニーズを持つ人が多いことも知っている。何故なら私もその一人だから。この悩みにデータサイエンスは応えられるのか?

データサイエンスの世界はデータが命にもかかわらず、学習に必要なデータが不足することがよくある。その解決策の一つとして、GAN(Generative Adversarial Network)という技術がAIの分野から出てきた。GANは生成ネットワーク(generator)と識別ネットワーク(discriminator)の2つのネットワークから構成され、生成ネットワークは贋作者、識別ネットワークは鑑定家のような振る舞いをさせる。具体的には生成ネットワークは少量の現実のデータ(本物)から、現実のデータに似た大量の人工データ(偽物)を生成し、識別ネットワークは少量の現実のデータと生成ネットワークの生成した人工データを識別する。この二つのネットワークを交互に学習させることで、GANは少量の現実のデータを使った場合よりも識別精度の高い識別器を構築する。

GANは識別器の学習支援だけでなく、生成ネットワークの産むデータにも可能性を秘めている。例えば、数百枚の本物の顔画像から生成ネットワークが生成した偽物の顔画像は、本物と見分けが付かない。このフレームワークを応用すれば、アーティストやミュージシャンの作品から新しい本物のような作品を生成することも可能になるだろう。これらを応用してAIが書いた小説、写真、絵画が発表されている。クオリティが向上すれば、第一話を学習データに、GANが最終話まで生成してくれるだろう。これに危機感を抱き、漫画家も打ち切りにならないように、漫画の休載も無くなるだろうから読者にとっては悪い話ではない。GANが読者の手に渡ることになれば、キャラの描き分けができない漫画家の単行本は売れなくなるかもしれない。また、漫画とその原作を合わせて学習すれば、難解な本を面白い漫画に変換するサービスも出てくるだろう。今まで漫画を買ったことが無い私だが、難解で有名なJames Joyceの作品、中でもFinnegans Wakeが漫画になったら買ってみたい。

結局、人間の仕事がなくなる以前に人間の仕事が変容するのだろう。変容できないときに人間から仕事を奪うのはAIよりも先に、職場の同僚だったり優秀な後輩だったりするのではないか。