何だか難しいイメージのある「データサイエンス」。そもそもAIとは何が違うのか。自社で実践する際のポイントは? 宇宙物理学を研究していたデータサイエンティストが、華やかに見える職業イメージとのギャップや業務の苦労話を通じて、データサイエンスのツボを余すところなく解説した。
機械学習やディープラーニングなどのAI(人工知能)技術を使い、データから新たな価値や知見を引き出すデータサイエンスに関心が集まっている。しかし、ITとビジネスの双方の分野で高度な知識を持つデータサイエンティストを教育、確保できる企業は多くなく、データサイエンスのノウハウを得ることは難しい。
10月25日に豆蔵が開催した「豆蔵DX day 2019」では、「データサイエンス、その秘孔を突く!」と題したセッションに、九州大学の名誉教授であり豆蔵の最高科学技術顧問を務める村上和彰氏が登壇し、豆蔵のデータサイエンティストである松永和成氏、石川真之介氏とともにデータサイエンスの定義やその仕事の難しさ、今までに経験した成功および失敗事例、データサイエンティストが職業として「セクシー」だと思える部分などを議論した。
松永氏と石川氏はともに大学やJAXAなどの研究機関で宇宙物理学の研究経験を持ち、豆蔵入社後はデータ分析に基づいた意思決定や業務改善を支援するプロジェクトに従事している。
華やかな経歴を歩み、誰もが憧れる職業についている両氏だが、実際の業務は「苦労も多い」という。両氏が語る“リアルな”話から、企業でデータサイエンスを実践する上で重要なポイントが見えてきた。
村上氏: 皆さまは「秘孔」とは何かをご存じでしょうか。漫画「北斗の拳」で使われる、ツボを指す言葉です。今回のセッションを通してデータサイエンスで押さえるべき「ツボ」を理解していただければ幸いです。2人のデータサイエンティストをご紹介しましょう。
松永氏: 私は2年前まで、名古屋大学大学院の理学研究科でNASAの火星探査機プロジェクトから得たデータを解析し、火星でなぜ大気流出が起こるのかを研究していました。博士号を取得した後に、豆蔵のデジタル戦略事業部に入社し、今はセンサーから得られるデータの解析やログデータの分析、RPA(Robotic Process Automation)の導入支援などのプロジェクトに従事しております。プライベートでは神社仏閣巡りが好きです。
石川氏: 私も宇宙物理学の分野で博士号を取った後、8年ほど研究活動をしていました。研究者として最後に在籍したのが、松永さんのいた名古屋大学でした。松永さんと入れ違いで、同じ研究所の同じ部屋の同じ机を使っていたという数奇な運命をたどっています(笑)。
2019年の4月に豆蔵に入社し、データ分析のプロジェクトや新規ビジネスの立ち上げプロジェクトに参画した他、AIや機械学習などの先端技術教育の講師も務めています。
村上氏: お二人とも大学での専攻はデータサイエンスとは異なりますが、最先端技術を扱う今の仕事についてどう感じていますか。難しさを感じることはあるでしょうか。
松永氏: 研究も今の仕事も、データを分析するという意味で大枠のところは似ています。火星から得られるデータも、企業で蓄積されるデータも結局は時系列に取得する情報です。
一方で、データサイエンスはお客さまの業務を素早く理解しなければなりません。研究の場合は過去の論文から知見を得ますが、データサイエンティストの仕事の場合は顧客の担当者と実際にやりとりをして、限られた時間の中で成果を出すことが求められます。研究と違って、難しいと感じるポイントです。
石川氏: 私は8年間研究者をしていたので、当初は民間企業でやっていけるのかという不安がありましたが、社内外の皆さまに大変やさしくしていただいたおかげで頑張れています。
データサイエンスの面では、最先端の技術に追随できるのか不安でした。しかしふたを開けてみると、物理学の研究でやってきたことが世間一般ではAIや機械学習といった言葉で語られているだけだと感じました。これまでの経験を生かして、データ分析のプロジェクトに向き合っています。
村上氏: 専攻は違えど、あまり苦労せずに今の仕事に取り組めているということでしょうか。
石川氏: 苦労は絶えないです(笑)。仕事では、個別の業務の知識はもちろん、ビジネス全般に関する前提知識が必要です。新規プロジェクトが始まって数日は、「お客さまの言っていることが分からない」こともあり、一般のコンサルタントやデータサイエンティストよりも苦労しているという感覚があります。
松永氏: その他、研究では既に整理されたデータを分析しますが、企業に蓄積されるデータは間違っていたり、整理されていなかったりして、ざっくりいうと「きたない」――。このクレンジング作業には骨が折れます。
村上氏: お二人が具体的にどのような仕事をしているのか探りたいと思います。まずデータサイエンスの定義とは何で、AIとはどう違うとお考えですか。このすり合わせができていないと、お客さまとの意思疎通が難しくなると思うのですが。
石川氏: お客さまの中には、自社のビッグデータをどう使ってよいか分からないという悩みを持たれている方が多くいらっしゃいます。データサイエンスの定義というよりは、その悩みをデータを活用することでどう解決できるのかという話から始めるようにしています。
一方、私自身はあらゆる情報に基づいて合理的な判断を下すことは全てデータサイエンスだと思っています。私の信奉しているドイツ古典主義哲学の祖であるイマヌエル・カントは、全てのデータ、つまりあらゆる人間の理解可能な現象は、時間および空間という文脈において語られるべきものだと言っています。先ほど松永さんが、データは時系列に発生する情報のことだと話されましたが、時間や空間に付随するデータを使って客観的、合理的判断を下すことがデータサイエンスなのではないでしょうか。
村上氏: 難しいですね。その話はお客さまに理解してもらえますか?(笑)
石川氏: お客さまには、最初に述べた方の話をするようにしています(笑)。松永さんはどうですか。
松永氏: データサイエンスという言葉は漠然としているので、お客さまにはデータサイエンスを実践する上で必要となる作業について説明します。例えば、データを分析する際は、「データをどう集めるのか」「どうクレンジングするのか」「得たデータを可視化するのか、レポーティングするのか」を考えなければなりません。
データを集めるとなれば、センサーから収集した情報をクラウドやオンプレミスのサーバに格納する作業が発生します。データを可視化したいのであれば、BIツールを使うのもよいでしょう。分析の場合は、統計学的なアプローチや機械学習、深層学習といったAI技術を使う手法があります。私は、こうした末端の作業を集約したものがデータサイエンスだと思っています。
村上氏: ありがとうございます。私は、データサイエンスとAIとでは、顧客に対する価値の与え方が違うのかなと思います。AIは「人工知能」というだけに、人間のルーティンワークなどを機械に置き換えられる点で価値があります。一方で、データサイエンスはデータの中から隠れた知見を見つけ、それを業務改善や新規ビジネスの立ち上げなどに生かすことで顧客価値を生むと言えるでしょう。データサイエンティストは、科学だけでなくビジネスの面でも「お客さまの役に立てた」という喜びがあると思います。
村上氏: 今までのプロジェクトの中で自慢できる成功事例はありますか。
松永氏: データから新しいインサイトを得られるようになったことで、お客さまの本業の効率化につながった事例がありました。
石川氏: 私が広い意味で「成功した」と思った事例ですが、数学的な考え方やAI技術、統計学を用いてデータを分析することの重要性をお客さまに伝えられたと実感できることがありました。
村上氏: 教育的な面で良い影響を与えられたということですね。
人材育成という観点では、政府もこれからの日本人が身に付けるべき基礎的なリテラシーとして「AI」「データサイエンス」「数理」の3つを挙げています。データリテラシーやAIは歴史が浅い分野だと思いますが、どうすれば周囲の人にデータサイエンスの意義を伝えられると思いますか。
石川氏: データサイエンスは、数式やアルゴリズムを使うことが多い分野ですが、お客さまには具体例を示しながら、分析によってどういった結果を得られるのか、その結果がビジネスの方向を決める上でどう役立つのかをきちんと説明するようにしています。
最終的にデータから得られた結果を意思決定に生かす際にも、この説明力が鍵を握ります。
松永氏: あとは、データサイエンスを繰り返し実践する重要性を伝えることも大切です。データやそれを取り巻く環境は日々変化し、更新されていくものです。一度知見を得て終わりではなく、新しい知見を得るサイクルを回していかなければなりません。
「データサイエンスの秘孔」として、どこを突いたら「お前はもう死んでいる」という北斗の拳の決めゼリフが言えるのかという質問もあると思いますが、実際には秘孔を突いて死んでしまったら困るのです(笑)。
村上氏: データサイエンスのツボは、一度で終わるのではなく、日常業務としてデータサイエンスを実践すること、さらにその重要性を現場のお客さまに理解してもらうことというわけですね。
村上氏: 逆に「これは失敗したな」という事例はあるでしょうか。
松永氏: 失敗とは少し違いますが、私たちが試行錯誤の中で実施したデータ分析の手順やノウハウがお客さまにも伝わるよう、文書に落とし込む作業にはとても苦労します。
試行錯誤の段階では、自分のやりやすいようにデータを扱っていますが、その手順を誰もが分かるように修正したり、スクリーンショットで説明したりといった作業に時間がかかったことがありました。私は石川さんにように教育関連の仕事はしていませんが、お客さまとのやりとりの中で「伝える難しさ」を感じた点です。
村上氏: 私の周りにもデータサイエンティストの知り合いがいますが、彼らは自分で「ささっと」手を動かしてしまうので、優れたデータサイエンティストほどそのスキルが周囲に伝わらないジレンマを感じています。
石川さんは何かありますか。
石川氏: 私の場合、「この解析に何の意味があるんだろう」と思うような依頼を頂くことがあります。依頼された以上その通りに分析をしてみるのですが、案の定、分析結果があまり活用されていなかったり、何の結果を得られたのかイマイチ分からなかったりという結果に終わってしまいます。何をどう分析するのかということまで踏み込んで相談しなければならなかったと反省しています。
村上氏: 現場で働く人はデータサイエンティストにデータだけをぽんと渡して「これを分析して」と言いがちですが、これが一番困るパターンですよね。理想は、現場に分析のノウハウを持つ人材がいて、ルーティン業務として解析を実施できることですが、それも難しい。現場とデータサイエンティスト分断されていることが、失敗を招いてしまうと言えます。
松永氏: 現場と分断されないためにも、データサイエンスティストは、ビジネスを理解する能力やコミュニケーション能力が求められているのではないでしょうか。
村上氏: では、データサイエンティストが現場を理解することと現場の人間がデータサイエンスについて理解することとについて、経験上どちらの方がより重要だと考えますか。
石川氏: 必ず両方必要だと思います。一方が双方の分野を完璧にカバーすることは難しいので、チームで取り組むことが大事です。
村上氏: お互いの語彙(ごい)を理解し、しっかりとコミュニケーションをとって、ラグビーのように「ワンチーム」になることがツボだということですね。仮に、データの分析を外注するにしても、現場と分析する人間ががっつりとスクラムを組まなければならないと思います。
村上氏: 「データサイエンティストは21世紀で最もセクシーな職業」と言った人がいますが、お二人はどう思われますか。自分自身をセクシーと思ったり他人からそう思われていると感じることはあるでしょうか。
石川氏: 僕は、村上先生にセクシーの意味を聞きたいです(笑)。
村上氏: それは霞ヶ関の方に聞いたらよいかもしれませんね(笑)。冗談はさておき、例えば「生まれ変わったら同じ職業につくか」あるいは「自分の子供を同じ職業に就かせたいか」と言い方を変えればどうでしょう。
松永氏: バリバリとプログラミングをしたいというような天才肌の人にとっては、データサイエンスはセクシーな職業に見えるのかもしれません。しかし、実際には地道に業務担当者にヒアリングして、整理されていないデータをクレンジングする必要があるなど、セクシーというよりはやることが多い職業だと感じます。
村上氏: ランプが光るように天啓を得た瞬間のことをよく「Aha moment」と表現しますが、そうした気付きがあった際にこの仕事をやっていてよかったなという実感は湧きますか。
石川氏: もちろんありますが、それはデータサイエンスに限らず、研究でも得られるものです。データサイエンティストならではのやりがいというのは、人前でその気付きを語ったり、成果に結び付けられたりすることではないでしょうか。それによって、人から「この人がやったことが役に立つな」と思われることがセクシーな点かと今思いました。
村上氏: 会場の皆さまにお二人がセクシーと思うかどうか聞いてみましょう――。ほとんどの方が手を挙げましたね。データサイエンティストの仕事やデータサイエンスのツボについて少しでも理解いただけたでしょうか。データに基づいた意思決定や業務改善、あるいは新しい顧客価値の創造のために、データリテラシーを持った若いデータサイエンティストを育てなければならないと感じた方もいらっしゃるでしょう。何かありましたらこのお二人にぜひご相談ください(笑)。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。