第18回

データドリブンマーケティングで大事なこと:
「Garbage in Garbage out」

データドリブンマーケティングで大事なこと:
「Garbage in Garbage out(ガベージインガベージアウト)」執筆 : 伴 果純

出会い

「Garbage in Garbage out」(ゴミからはゴミしか生まれない)。
まだヒヨッコ社会人だった頃、嫌というほど先輩方から叩き込まれた言葉です。

約20数年前(ああ、歳がバレます)、現在のAIブームの先駆け、Data WarehouseやData Miningなどの成長期、多くの企業が“自社で”保有するビックデータと格闘していました。そのような時代に統計解析ソフトウェアとデータ分析を専門とするITの世界へ飛び込んだ私は、「研修よりも現場だ!」という有難い会社の方針により、多くのクライアントへ赴き、クライアントが抱えるビジネス課題に対して、データから何かしらの答えや示唆が出せないだろうか?と、日々プログラミングと分析結果に埋もれておりました。

しかし、易々とクライアントが満足する答えが出せる訳ではありません。様々な統計処理、マイニング技術を駆使し、データを分析しても思うような結果が出てこない。ビックデータへのアプローチは無限です。やればやるほど深みにはまり、アウトプットだけが膨大にたまってゆきます。(今の時代、大きな声では言えませんが)連日徹夜でアプローチ方法を考え、プログラミングに変換し、実行し、出てきたアウトプットにガックリと肩を落とす時間を続けていました。

こうなるとクライアントが保有しているデータ自体に疑いを持ち、「データが悪い」と他責の気持ちが出てきます。が、当然そのようなことをクライアントに言える訳がありません。自分の力では二進も三進もいかず、最後の手段、常駐先から上司や先輩方に相談する(要は助けを求める)しかなくなり、そして言われたのが前述の言葉「Garbage in Garbage out」と、以下の指摘でした。

  • お前は、きちんとデータをクリーニングしているのか?
  • お前は、きちんと分析用データに変換しているのか?
  • お前は、きちんと必要な変数を作っているのか?
  • そして、お前は、きちんと仮説を持ってデータを分析しているのか?

データクリーニングとは

企業が保有する(蓄積する)ビッグデータのほとんどは、分析に適していません。それは、そもそも保有(蓄積)目的が違うからです。もしくはデータを活用する意図さえも無くただ惰性で蓄積されてきた場合もあります。ビッグデータ分析とは、データの中に潜む“癖”や“傾向”を見つける仕事です。そのためには、データが“きれい”で“定常的”でなくてはなりません。つまり異常値が含まれていては困るわけで、その代表的な“異常値=Garbage(ゴミ)”は、「外れ値」と「欠損値」となります。

アンケートデータと同じで、蓄積データにも「外れ値」が存在します。逆に、現在の(入力不足だと先に進めないシステムが普及している)アンケート調査ではなかなかお目にかかれない「欠損値」が、ビッグデータには多分に存在します。

「外れ値」はきちんと削除、「欠損値」は何かしらのルールに則り埋め合わせるなどをしてきれいにする必要があり、更には“時系列”という視点での対処が重要となるわけです。

このようなプロセスでは、昔ながらの箱ひげ図や散布図を駆使し、きちんとデータを可視化し向き合うことが大切です。ディープラーニングやらAIやら、技術ばかりが先行していますが、分析課題に合わせて、分析データを準備し、統計解析手法を選び、アウトプットにつなげるのは分析者の力であり、なによりも基礎的なところを無視しては先に進めません。

分析用データへの変換とは

現在、ビッグデータと呼ばれるものには、一体どのようなデータが含まれるのでしょうか?個人別購買履歴データ、商品別販売データ、商品別発注データ、原材料別生産データ、商品別マスターデータ、商品別在庫データ、店舗別管理データ、為替データ、WEB閲覧データ、メディア別実績データ、SNSサーチデータ、検索ワード別トレンドデータ、会員属性データ、等々、ありとあらゆる種類のビッグデータがあるのです。

そして、この多種多様なデータが同じフォーマットで保存されている・・・訳がありません!しかしながら、昨今のビッグデータ分析は、消費者を取り巻く環境を‘丸ごとポン!’と分析することを求められます。

「いつ、どこで、誰が、どのような情報をどのメディアで接触し、どのようなキーワードで何を検索して、どこでどの商品に接触、検討し、購入に至ったのか?その理由は何か?金額なのか?商品特性なのか?そして、リピートはしているのか?」
このような要望に対処するには、別々の目的、別々のフォーマットで管理されているデータを、分析という目的に沿った形で、一元的に整える必要があります。そのためには、ビジネス課題の明確化が必要です。消費者視点でアプローチをするのか?ブランド視点でアプローチをするのか?等により、目的に沿った分析用パネルデータに変換する作業が非常に重要となります。

昔から、ビッグデータ分析では、この分析可能な形式への変換、例えばパネルデータへの変換が一番重要であり最も丁寧に時間をかけるべきプロセスと言われてきました。ところが、昨今は、分析者が分析用データの形式を理解せず、システム部門やデータマネージメント部門等に任せきりという状態も見受けられます。ビッグデータ分析に携わる者は、自分が扱うデータの形式や変数構成の理解は必要最低限であると考えて頂きたいところです。

必要な変数とは

ここまで来て、企業に蓄積されているビッグデータがいかに分析に向いていな場合が多いか、ということをご理解いただけたと思います。つまり、そのままの素材を調理しても、ろくな料理は出来上がらない。きちんと必要な材料の準備と仕込みをせねばならない、それが上述したクリーニングや分析用データ作成、そして変数構築なのです。

大根を調理する場合、出来上がりの料理にそって、千切り、乱切り、かつら向きなど様々に加工、時には面取りなどをして大根を整えないと、出来上がりの料理が美味しくありませんよね。また、アンケートの世界でも、何十、何百という設問からニーズクラスターを作成する場合、その事前分析として因子分析により設問を整理することが求められますが、これらと同じと考えてください。

生産データや発注データ、購買履歴データ、WEB閲覧データなど、ビッグデータは多種多様なデータが網羅的に蓄積されます。それぞれの業務管理において必要な情報を抜けもれなく収集する為ですが、分析の世界では細かすぎたり、逆に大雑把すぎたり、要は分析に適した形になっておらず 、素のままでは“Garbage in”になってしまうことが多々あります。分析に適した形にするために、似たもの同士を一つの変数にまとめたり、データからルールを見つけて別の変数に変換したり、フラグ化したり、はたまた第三者データから必要な変数を持ってきて追加することなど、目的に沿った変数を揃えなくてはなりません。では、目的に沿った変数を揃えるには、どうしたらよいのでしょうか?

そして、仮説検証

そこで必要になるのが“仮説”です。
その昔、ビッグデータ分析の世界は“仮説検証”ではなく“探索型”であると言われた時代がありました(Data Miningという言葉が誤解を生んだと思います)。しかし、現在においてそれは全くの間違いです。

ビジネス課題に対して全く仮説を持たず、闇雲にビッグデータ分析することは、広い砂漠の中からたった一つの星砂を見つけることに等しく、無謀の何物でもありません。特に昨今はビッグデータの量も莫大となり、仮説を以てしてもなかなか思い通りの結果にたどり着かないことが多々あり、それこそ結果的に試行錯誤、探索型になってしまうこともあります。では、限られた時間、限れたリソース、そして膨大なデータを相手に、効率的に意味のある結果にたどり着くにはどうすればよいのでしょうか?、1つの指針をお示ししたいと思います。それが“SEMMA”です。

これは、1990年代のData Mining成長期にSAS Instituteが示した、より精度の高い結果を、より早く導き出せることを可能にするアプローチ方法の1つであり、Sample(サンプル抽出)、Explore(探索)、Modify(加工)、Model(モデル化)、Assess(評価)の5つのプロセスで構成されます。

  • Sample(データ抽出)
    ビッグデータ分析は、全データをいきなり相手にするのではなく、データの傾向を損なわずにサンプルを抽出し、データの処理時間や手間を最小限にすることが出来ます。昨今の技術革新で全データ処理にそれほど時間が必要無くなったとはいえ、このサンプリングのプロセスは効率化の視点からも重要です。
  • Explore(探索)
    分析対象のデータの癖や傾向を見極めるために、例外を見つけ出すことに着目するプロセスです。サンプルデータを視覚的に探索し、外れ値や欠損値などの存在を理解します。
  • Modify(加工)
    既存の変数から新変数の作成、変数変換、欠損値補完処理など行います。外れ値や欠損値処理以外にも、日次データの週次データへの変換や、購買金額を絶対値から指数化する、などの、分析目的に沿った作業を行います。
  • Model(モデル化)
    正に、課題に対して解に繋がるモデルを模索し構築する段階です。ここでは“仮説”が非常に大切になります。すでに検討しておくべきことではありますが、改めて目的変数にし、なにを説明変数にするのか、の整理をしましょう。これを考えることも仮説構築の1つです。さらには説明変数に何を含めるのか?自社データだけでよいのか?競合の動向はどうするのか?社会経済指標はどうするのか?等々、検討することは多岐に渡ります。
    これらを考えることが分析者の醍醐味であり、センスの発揮のしどころでしょう。分析の枠を決定するのも分析者次第。AIという機械は、与えられたデータの世界において最適モデルを作ることはできますが、自ら必要なデータを取り行き、分析の枠を決めることはできません。
  • Assess(評価)
    統計的観点とビジネス観点からモデルの精度評価を行う仕上げの段階です。
    前者は、統計的にモデル精度を行うことを意味し、後者はモデルの結果がビジネスにおける意思決定に耐えうるかどうか、の検証になります。
    当たり前の事を言っているだけではないか?きちんと仮説検証がなされたのか、もしくは新しい仮説が創出されていないか、などの視点から評価し、仮に新たな仮説が導き出された場合は、再度その仮説検証を行う必要があります。

結局、大事なことは変わらない

最近のビッグデータの世界は、“データサイエンティスト”という名前だけが独り歩きし、データ処理の基礎や統計解析をきちんと理解していない方が多いように見受けられます。クリック1つ、ドラック&ドロップ1つ、はたまた全部機械任せで、「外れ値」という概念すらなく、全くデータクリーニングをせず、「ディープラーニングしました」やら「ランダムフォレストやりました」などと言う輩が何と多いことか!(チコちゃん風に読んでください)
しかし、皆さんはもう知っています。

ビッグデータ分析の世界も従来のアンケートデータ分析の世界も実は同じで、結局のところ大切なことは、“仮説検証の視点”であり、“分析対象データの理解”と“必要なデータをキチンと整理し準備する”ことなのです。

改めて、最後に、私が諸先輩方から学んだ言葉を再掲します。今後、ビッグデータ業務に携わる皆様のお役に立てればと心から願ってやみません。

「Garbage in Garbage out」。

  • あなたは、きちんとデータをクリーニングしていますか?
  • あなたは、きちんと分析用データに変換していますか?
  • あなたは、きちんと必要な変数を作っていますか?
  • そして、あなたは、きちんと仮説を持ってデータを分析していますか?

お問い合わせ

【調査発注をご検討の方】 調査・お見積りへのお電話でのお問い合わせ 0120-944-907

【アンケート回答者の方】 アンケートモニターに関するFAQを見る・問い合わせをする

キーワード
  • インターネットリサーチ
  • マーケティングリサーチ
  • ネット調査
  • モニター
  • アンケート