AI実装フルオート型ナレッジ活用ソリューション
「Knowledge Explorer」
リリース記念 特別対談
(左から : ギリア 増田様 / 図研プリサイト 上野 / ギリア 近田様 / 図研プリサイト 外村)
(左から : ギリア 増田様 / 図研プリサイト 上野 / ギリア 近田様 / 図研プリサイト 外村)
AI実装フルオート型ナレッジ活用ソリューション「Knowledge Explorer」のリリースを記念して
ギリア株式会社(以下 ギリア)と図研プリサイトの特別対談を3章に渡りお送りいたします。
ギリア株式会社
取締役 HE事業部 AIソリューション部 部長
ギリア株式会社
HE事業部 知能技術開発部 部長
株式会社図研プリサイト
代表取締役社長(2018年10月当時)
株式会社図研プリサイト
開発部 コグニティブテクノロジー開発課 課長
上野:この度、ギリア、UEI両社様から多大なるご協力をいただき、Knowledge Explorerのリリースを迎えることができましたこと、大変感謝しています。
御社との協業は2017年に主催した当社セミナーで、当時UEIの清水社長に基調講演を頂いた事をきっかけとしております。その際に、図々しくも、AIを使って当時のKnowledge Explorerをもっと良い物に出来ないかというご相談を、清水社長にお願い差し上げました。今回の取り組みはそこから始まったんですよね。
増田:そうです、私はその日から巻き込まれて、今日に至っております(笑)。
上野:最初のやりとりで、「どのような語句が抽出されたら精度が上がったと判断できますか?」と質問された時に改めて、我々は何の基準も持たずに製品開発していたことに気づかされました。他にも、御社から見て、曖昧な点は多かったと思います。でも増田さんは、「これ、むずかしいな」と言いつつも、次々とアイデアが出てきて、「こういったアプローチがいいのではないか」とか「社内にこんなスキルがあった」ので試そうとか、逃げずに対応いただけてありがたかったと言うのが正直なところです。
増田:逃げずに対応ですか?逃げる前に抱きつかれたのかも知れませんが (笑)
上野:正直なところ、御社以外のAI関連企業にも何社か相談をしていましたが、言語処理を得意とする企業には、あたりませんでした。ほとんどが、画像処理です。「おもしろそうなテーマですが、いきなりパッケージ化は難しいので、まずは教育から始めましょう」とか、正面からの対応では無いんですね。そんな中、増田さんは「最初から大きな期待しないで下さいよ」と言いつつも、期待以上に真摯に向き合っていろいろ提案くださったと我々は思っているんです。
近田:我が社でも、増田の対応力はずば抜けていますので。
外村:増田さんの対応力がずば抜けているからこそ、我々のあいまいな要求からスタートしたこの共同作業が、今回の期日までに仕上がったのだと、思っています。そして先日、プレスリリースもできたのですが、その際にギリア社長として、清水社長から「言語領域についてのこだわり」を感じるコメントをいただきました。そこで御社の言語領域での強みというか、こだわりというか、そういったところをぜひお聞かせください。
増田:言語領域に関するこだわりとしては、もともとギリアをつくるきっかけになったUEIとソニーCSLですすめていたプロジェクトがありまして、そのプロジェクトは、言語領域に関わるところに力を入れておりました。その後に、実際UEIとソニーCSLでギリアを設立したときに、やっぱりそこで培ったノウハウみたいなものはあるし、培ってきたメンバーもいるので、「せっかくのノウハウなので、なんとか案件に活かしていきたいよね」という話があって、積極的に使っていくという感じになってきました。
近田:もともとenchantMOON(ノートテイキングするタブレット。現在は既に販売終了。http://enchantmoon.com/)の開発途中くらいにソニーCSLの北野社長やメンバーからUEI清水社長にコンタクトがあって、今後一緒に何かをやっていけないかと言う話をし出したのがギリア誕生のきっかけです。
増田:enchantMOONの時代から手書き文字には重要な知識が隠れていて、その知識を掘り下げていく過程でやっぱり自然言語処理と言うのは重要な事になるよねと。そのための要素技術はあり物の技術を評価する事と並行して自分達でもいろいろ研究していくことも重要だねと言う話は以前からしてきました。
外村:言語領域は御社誕生のルーツでもあるのですね。改めてそこへのこだわりの強さが分かりました。ありがとうございます。それでは、実際にどのようにしてAIを実装していくことになったかについて、ちょっと振り返ってみたいと思います。
上野:まず今回の取り組みでは、Knowledge Explorerの重要語句自動抽出について、AIを用いて精度向上面でブレークスルーすることができないかという相談をさせていただきました。
AIについては、世の中は専ら画像中心でしたが、言語についても研究は進んでいるだろうし、ディープラーニングをどこかで使えば、少なくとも今よりも精度が上がるのではという、軽い気持ちや淡い期待がありました。
増田:当社はもちろん、深層学習を得意としていますが、お話を聞いた時点で、それも含めいくつか取り得る手法があるのではと考え、それを伝えさせていただきました。
外村:最初のトライアルは、文節と重要語句をセットにした教師データを準備して学習モデルを作るという方法でしたね。社内で手分けして、10000件ほどの教師データをつくりましたが、重用語句がどれかと意見が分かれたり、時間だけで無く結構頭も使ったのを覚えています。
増田:そうでしたね。途中で学習データを増やしたりして。でも結果として、なかなか学習精度が出せませんでした。
上野:それなりの数量の教師データを準備したつもりでしたが、これだけ準備しても、やっぱり難しいのかという感じでした。もしこれ以上の教師データを、お客さんに準備させるとなると、ビジネスとしては厳しいなと思いました。これは増田さんも、同じく考えられていたことですよね。
増田:数量だけが不十分だったとも言い切れなくて、データ自体の問題や学習するための技術的な問題もあり、総合的に難しかった試行だったと思っています。それもあって並行して準備していた、もう少し現実的なプランBを、提案させてもらいました。
外村:我々は取り組みの過程で「教師データを準備する大変さ」に気付けた訳ですが、いろいろな企業から御社にご相談が来ると思います。そういった企業では相談する際に、教師データを準備されているのでしょうか。あらかじめ準備されているのか、もし準備されていない場合にどのようなご苦労があるのかを教えていただけますか。
増田:大体、まず相談が来る段階で「教師データあります」ってどの企業もおっしゃいます。大体7割ぐらいのお客様が「教師データはあるので、来てください」というので、実際にお伺いします。「こういうサンプルデータが10万件、20万件ありますので、お願いします」と。そして、いざ案件をスタートさせる際に、データの取りまとめていただくと、「20万件あると思っていましたが、よくよく見てみたら、きちんと整理されているのは3万件でした」と。話が違う!みたいなことは、やっぱり往々にしてあります。
上野:でも、3万件もあれば、結構な教師データになるように思うのですが。
増田:それが、件数は3万件だけど、データの形が整っていなかったりすると、まず先にデータを精査するという作業が別途発生する場合があります。それに時間がかかっていては、試行が始められないので、グループ会社にデータセットの補完作業を行わせたりしていますが、そこにも難しさがあります。専門家であるお客様に、例えば最初にサンプルとして1000個ラベル付けしてもらって、それをお手本として弊社が10万件ラベル付けすることってあるんですけど、やはりサンプルだけでは判断できない曖昧な物があって、そこに関しては、お客様と都度すり合わせが必要になります。そのコストはわりと大きくなります。当然、お客様のほうにも人的な負担がかかるわけですが、それを負えないお客様だと、データ精査が十分にできない状態で学習をすすめざるを得なくなり、結果精度が出なかったなんていうこともあります。教師データに関しては、お客様のほうに協力してもらわないと、最終的に精度は出ません。そこへの手間を惜しむとそれは後々、期待との乖離として、はね返ってきますね。
外村:そこも人工知能でできるのではないんですか?と言う様な話はありませんか。実は、私自身も、そういうものはすでにあるのではと、思っていたところがあります。「データの入口から出口まで全てが自動化されている」というイメージで語られると、過剰な期待が生まれてしまう
増田:とある会社の人が、教師データさえも自動で作りたいという話があって、どうやらどこかのイベントの基調講演で、そのうちそういう世界も来ますよっていう話を、誰かがされたそうなのですが、「そのうち」っていうのを端折って言ったのか、受け取り側がそこを受け取り損ねてしまったのか「教師データさえも今、ディープラーニングで全部できるんです。そのディープラーニングで作った教師データをさらにディープラーニングして、どんどん賢くなります。未来は明るいです」みたいなことに、なっちゃってますね、一部では。
近田 :データ拡張というのは、実際にやっています。例えば、100のサンプルをちょっとずらして、200にして、それを教師データにするとかは、普通にやっていますね。
増田:そうなんです。ただそれをゼロからっていうのは無理だろうという話なんですよね。過度な期待っていうのはいつもある話なので、お客様の期待値コントロールというのはやっぱりすごく難しいですよね。