簡易的にバイアスを除外する方法

データ分析の本

こんにちわ!kofaです。

この本読みました。

計量経済学の第一歩 有斐閣ストゥディア

感想

内容は統計学の初歩的な部分を計量経済学者の観点から説明してくれていて非常にわかりやすいです。

現場でのユースケースを念頭に書かれている印象で、読み物としても面白いですし、統計学の手法をどう使うか?ということもカバーしてあり、kofa的には統計学を学ぶ一冊目として読んでいただくと良いのではないかと考えています。

また、演習問題の解答が親切だったので、個人的には強くお勧めしたいです。

刺さったフレーズ

実際に推定する際には、外的条件を制御するための全ての変数を共変量として含めようとしても、ありとあらゆる変数を含めなければならないため、ほぼ不可能です。しかしながら、経済学を始めとする、学問的にも検証が積み重ねられてきた理論や、観察対象の背景、その他の要因との関連性についての知識を駆使することで、外的条件をある程度制御するために最小限含めておかなければならない変数の候補を選ぶことはできるかもしれません。

計量経済学の第一歩 有斐閣ストゥディア

意訳しちゃうと、

  • 正確な意思決定をするためにはバイアスを除外して効果検証や因果関係の検証が必要です。
  • 理想的にはすべての変数を考慮してバイアス除外したいです。
  • しかし、すべての変数を考慮することはコスト観点などで非現実的なので、定性的な情報も使って変数を選択しながらやっていきましょう。

という理解をしています。全くその通り。

ちなみにバイアスの説明をなんとなくしてみると、、

  • 例えば、スーパーでリピーター狙いの特定商品を割引したとか、特定の日に特売をしたとかの販促をしたとします。
  • 施策参加した顧客はリピート率が増えました!めでたしめでたしとはなりません。
  • 元々リピート率が高い顧客が施策に参加したのか、施策参加によって顧客のリピート率が増えたのかがわからないです。
  • 正確に施策効果を知りたければ、元々リピート率が高い顧客という偏り(バイアス)を調整して検証する必要があります

経験的にビジネスの現場ではバイアスという言葉を知らないかのような分析結果もそこそこ見かけます

正確な意思決定には、バイアスを除外した検証結果が必要ですから、バイアスの調整は当たり前にしていきたいですよね。

ただ、教科書に書いている手法の品ぞろえが多すぎる印象があるので、kofa的に現場でよく使われる売れ筋の手法は?について話していきたいと思います。

クロス集計でバイアスは除外できる

先ほどのスーパーの例でいえば、リピート率が高い層、低い層に分けてから施策効果を検証すればよいです。

また、層の作り方としては、顧客のステータスで簡単に作れます。

週三回使っている顧客のほうが、月一回の顧客よりはリピート率は高いでしょうし、既存の顧客のほうが、新規顧客よりピート率は高いでしょう。

一変数のクロス集計なので難易度は高くないかなと思いまうすが、やるのとやらないのでは結果の信頼度に天と地くらいの差があります。

バイアスを全く考慮しない集計結果出されると、疑ってしまって、結論とか頭に入ってこないです。

データがあるにやっていないとしたら、それは怠慢です。やっていないことを目撃したら問い詰めてください。笑

余裕があれば傾向スコアマッチング

傾向スコアマッチングは先ほどのクロス集計の発展版の位置づけです。

先ほどの分析はリピート率が高いと想定される顧客属性で層を分けていましたが、こちらはリピート率の予測値を顧客別に算出し、層分けの条件とします。

例えば施策の予算が大きいとか、大きな意思決定のファクトになるなど、重要度が高い分析ならここまではチャレンジしてほしいところです。

使えるなら一択のランダム化比較実験 

前の二つとは少し毛色は違いますが、ランダム化比較実験がリーズナブルにできるなら、それで一択です。それで終わりです。

ただ、制約条件が多くweb配信などデジタル領域の施策以外でお目にかかることは正直ないので、番外にしました。

逆に、デジタル領域のマーケティング施策では、できないケースは少ないと思うので積極的に活用をお願いします。

まとめ 

バイアスの除外について教科書での手法の品ぞろえはすごいんですが、結局どの手法が売れてるの?っていうのは気になるところかなと思ったので、説明してみました。

もちろん自分が見ている狭い範囲での話なので、これが正解というわけではないですが、そんなに外してないと思います。

困ったらクロス集計で乗り切ってください

以上、刺さったフレーズと活用についての考察でした。読書でキャリアを開拓しましょう!

コメント

タイトルとURLをコピーしました