『データサイエンティストに必要なスキルとお客様の接点とは』

データ分析を仕事に活かしているキーパーソンに「データで考える力」イニシアティブがインタビュー。

今回はビッグデータビジネスもリードしているIBMのマーケティングマネージャの中林さんにデータ分析、データサイエンスへの取り組みについてお伺いしました。

データサイエンティストのIBM 中林さん  中林 紀彦 氏のプロフィール
・大手電子部品メーカーIT部門SE、営業戦略部門を経てIBMへ入社
・IBMではインフォメーション・マネージメント(IM)事業部でIM製品のマーケティングマネージャを担当
・XML のスペシャリスト
・エンタープライズマッシュアップ、BAO(ビジネス・アナリティクス&オプティマイゼーション)などデータサービスに関するエバンジェリストとしても活躍
・年初より「データサイエンティスト」の肩書きを持ちながら、 現職に従事

 データ・インサイトミーティングはデータをビジネスに活かしたい企業では必要 

—–先日はデータで考える力イニシアティブ(以下TiD)開催のデータ・インサイトトレーニング※1(12/1実施)に受講者としてご参加いただきありがとうございました。

データ分析に明るい中林さんから見て、トレーニング内容はいかがでしたか?

※1  Tidが開催している「ビッグデータ」をビジネス戦略に活かす、最新のデータ分析トレーニング

中林: TiDのトレーニングで飲食業界の事例として取り上げていた「データ・インサイト・ミーティング」は、データ分析を経営に活かす企業にとってすごく大事だと思いました。

—–我々も重要だと感じていますが、テクノロジーも営業の現場も詳しい中林さんから見てどこがポイントでしょうか?

中林: 今後、データサイエンスチームを作っていこうと思っています。

お客様のビジネスはお客様自身が一番ご存知で、我々(IBM)が仕組みを作るところをお手伝 いしてシステムを構築するのですが、お客様にとっては稼働してからが本番です。その際にデータをもとにディスカッション、ディシジョンを継続していくに は、データ・インサイト・ミーティングが必要だからです。

—–たくさんの言葉が出てきましたね。お客様側にもデータ分析(結果)を正しく読み取って、ビジネスに組み入れる継続したアクションが必要だということだと思いますが、1つずつお伺いします。

漠然とした状況からスタートするプロジェクトこそデータ・インサイトを持ち込む

—–最初にデータサイエンスチームとはどのようなミッション、構成メンバーなのでしょうか。

中林: チームのミッションは「お客様が持っているビジネスセンスをデータ分析で引き出す」ことです。

メンバーはビジネス、データベース、モデリングのスペシャリストで構成します。

お客様と我々との接点は漠然とした状況からスタートする事が多いです。その時点で、お客様は「データがあって、このあたりを掘り出すと何かあるのではないか?」といった考察(データ・インサイト)をされています。

それに対していきなりPureData(Netezza)SPSSなどの製品・ツールを紹介しても前に進みません。そこで、チームがデータを使って仮説を立て、実際に検証し、それをもってシステムを作り、その中でツールやインフラを提供していくのです。 

その接点となるミーティングがデータ・インサイト・ミーティングです。システムの運用開始後にお客様自身もデータを見てプロジェクトを進めていく、これもデータ・インサイト・ミーティングとなります。

—– データサイエンスチームは皆、データサイエンティストなのでしょうか。

中林: データサイエンティストはビジネス、データベース、モデリングの3つスキルが必要だと思いますが、ひとりで全てをまかなうのは大変です。

そこでチームを構成するのです。では、データサイエンティストに必要なスキルについて説明します。 

1つ目は「ビジネススキル」です。
ビジネスのオペレーションと実際のデータとを関連付ける力です。 売上でも在庫でもフォーキャストでも、ただデータを俯瞰しているだけではわかりませんか らね。もちろん、ビジネスについてはお客様の方が詳しいのですが、サイエンティストも特定の業界や業種に詳しくなければいけません。 

2つ目は「データベーススキル」です。
データがどこにたまっていて、必要なデータを抽出、切り出す方法を知っているということです。
お客様のデータはサイロ(業務部門別に孤立している状況)になっているので、つなげるためにSQLを書いて自分で取り出せる能力とSPSSやRのようなツールに渡すためのデータの整形ができる能力が必要です。

3つ目は「モデリング」です。
データを使ってどのように突破口を見つけるかという能力です。
ここで大事なのは、ビジネスを変える、行動を起こせる要素です。分析担当やレポート担当はある程度恣意的にアウトプットを出せるので、そこにはビジネスを良くしていくという気持ちがなければ間違った方向にいきかねません。

 

—– なるほど、それらの要素を全部持ち合わせた人が「データサイエンティスト」と定義できる訳ですね。中林さんご自身はその貴重なひとりではないでしょうか。

中林: 私はチームをコーディネートする立場ですが、実際にデータサイエンティストはそうはいないですし、必ずしも一人が担う必要はありません。

 

tid-interview-ibm-nakabayashi_02.jpg_1538110467

 

 既存の統計、数理モデルだけでは限界がある 

中林: 私がデータサイエンティストを目指す際に、手始めに大学で教えられているような統計・数理モデルを勉強してみました。

そこで、統計との違いに気がついたことがあります。既存の統計や数理モデルだけでは今のビッグデータ時代にフィットしないケースがあります。

—–古いということですか?

中林: いえ、基本となる数理モデルは普遍で重要です。

ただ、モデルを自ら作り、組み合わせるアプローチが必要ですし、ビジネスでは教科書どおりのケースは少ないのです。

例えば統計学はひとつの答えを出そうとしますが、ビッグデータビジネスにおいて、ECサイト の会員分析では10万人いれば10万のアプローチがあってもいいはずです。同様にセンサーデータのログ分析では異常が出るパターンは千差万別で、異常系の アルゴリズムを作るのは難しいのです。

—– おっしゃるとおりです。教科書としては誰でも納得する答えを使わないといけないですからね。

「データで考える力」イニシアティブで実施しているトレーニングでは、個々の数理モ デルに入る前に全体を俯瞰して考えるための「Stat Quadrant for Big Data」というマトリックス図を利用することを推奨しています。「比較・構成・変化」という分析軸と「共通性・関係性・集合化・法則性」という軸で分解 し、それぞれのフェーズで必要なアプローチを紹介しています。

column05_quadrant
↑ 「Stat Quadrant for Big Data」

 

中林: はい、あのように俯瞰して考える力は、ベンダー側もお客様側も共通して持っていると共通理解が進み、良いプロジェクトになると思います。

—– 良いプロジェクトになるためのデータサイエンスチームの動きをもう少し具体的に教えてください。

中林: 例えばSNS, Twitterなどのソーシャルデータとお客様企業内のデータをつなげるといったケースがあります。

金融、カード、ECのお客様と購買データやクレーム情報をつなげるなどです。ソーシャルデータもオープンなSNSから収集する場合やネットゲーム事業者のように 自分の土俵にいるユーザのデータを扱うケースなど様々です。

これらは、いわゆるテキストマイニングのスキルも重要であり、サイエンティストチームではIBMの東京基礎研究所にいる数理解析チームを使います。 

その他にもソーシャルデータから商品開発のヒントを得るケースもあります。近年では「たべる ラー油」のように製品特性がとんがっていれば分かりやすいのですが、大ヒット商品ばかりを狙うのではなく、ロングテールのお腹から尻尾にかけてのポジショ ンで隠れたヒット商材を拾うといったトライするのです。

ビッグデータという意味ではマシンデータ(機械から出てくるログ)の分析、活用はまだまだこ れからの領域です。それぞれの機械からログは出し続けているが、垂れ流しの状態で、分析されていないのが現状です。故障の前兆を知るといったフレームワー クもまだ確立されていないのです。例えば、ネットワーク機器を大量に持っているお客様でいえば、携帯事業会社、ケーブルTV、データセンターなどです。

お客様にとっては稼働してからが本番です

—– マシンデータなどは、コマツなどのグローバル企業が利用している事例などを見ますね。もっと進んでいるのかと思っていましたが、サイエンティストチームの活躍の場は多そうです。

さて、冒頭のひとことに戻りますが「システムが稼働した後もデータ・インサイトは重要」という点についてお願いします。

中林: はい。理想的なプロジェクトの進め方をまとめながらお話します。
大抵は、お客様は漠然とした状況からスタートします。
その時期のミーティングでは、活動が具体化できていない、対象データが絞れないという状況です。そもそも実現できるのか不明であくまでもニーズが存在しているだけです。 

そして、ミーティングの中で実現したいスコープ、ゴールを定めていくのですが、そこで、いきなり道具を使って構築しないで、トライアルから始めるのです。 

お互いに学習しながら、要望にフィットしたものができてきたら、実際のプロジェクトで使ってみる。

ここからようやくインサイトを利用してこうすればいいのかな、という実験ができる。我々はPOC(Proof of Concept)と呼んでいます。ここからがインサイト・ミーティングの本番になるのです。

そのPOCで何を採用するかがデータサイエンスチームの腕の見せどころです。
IBMのテクノロジーでいうと、大量のソーシャルデータを扱うためのBigInsights(Hadoop)+テキスト解析エンジン、大量のデータをリアルタイムに処理・分析するためのストリーム・コンピューティング(Streams)、大量データを柔軟に高速に分析するPureData(Netezza)などがあります。

—– 仕掛け、インターフェースを構築して、カットオーバーして受け渡しで終わりという従来にありがちなモデルではなく、カットオーバーしてからが本番になる。そこでインサイト・ミーティングを続けていく価値があるということですね。

中林: はい。ベンダー側の視点ですが、モノ売りから入っても成果がでづらい時代になりました。

—– おっしゃるとおりですね、そのテーマはIT業界だけではないかと思います。

だからこそ、実際の現場でデータ・インサイトの使い方や使うタイミングなどを体系的にまとめて、皆様に紹介するのは価値がありそうです。今度、TiDのセミナーでテーマにしてみすので、是非ご協力ください。

中林: はい、喜んで。

—– それは心強いです。本日は長い時間ありがとうございました。

中林: ありがとうございました。 

 

編集後記:

実はもっと数理モデルの突っ込んだ話になるかと思っていましたが、データ・インサイト・ミーティングの存在とそれを活用したお客様との接点など、営業やプロジェクトマネージャーにとっても有益なお話でした。IBMのデータサイエンスの力に今後も期待しています。