データサイエンス&サイバーセキュリティ備忘録

Python, Data Science, Kaggle, Cyber Security, CTF, などなど

第10回 意思決定のためのデータ分析勉強会 onlineに参加しました

2020年6月20日、第10回 意思決定のためのデータ分析勉強会 onlineというイベントに参加しました。

ishikettei.connpass.com

データ分析や機械学習に関する勉強会には、今までもよく参加していたのですが、意思決定に重点を置いた勉強会は久しぶりでした。

この勉強会では、主に意思決定をするためのデータ分析をどのように行えばよいのかのツールの紹介と手法を学ぶことができました。

また、このイベントタイトルのサブタイトルが、"リモート環境でも使える意思決定術!"ということで、発表者のLTの前に現在のリモートワークの実情を主催者の方がまとめてくださいました。

リモートワークにおける悩みと工夫

・悩み
  ハンコ決済の遅延
  意思決定のスピード低下
  話がなかなか進まない
  ミーティングができない
  コミュニケーション不足

・工夫
  共有できるタスクボードの使用
  些細な情報もグループチャットで共有
  オンライン会議の開催

リモートワークにおいてこれから求められること

・情報収集能力
  自分で情報を収集し、必要な情報の選別

・情報伝達能力
  意思決定に必要な情報を過不足なく伝える能力
  誤解されずに伝える能力

・意思決定をするためのツールの導入と社内環境の整備
  SlackやMicrosoft Teamsなど、チャットツールの導入
  クラウドなど、データ分析をするための新しいツールの導入

参加者に向けたアンケート結果では、新型コロナウイルスの影響でリモートワークになった方が多数で、私自身もリモートワーク中です。

上記でまとめたように、リモートワークではコミュニケーション不足に陥ってしまうので、情報伝達能力が求められることに関しては、確かに...と頷きながら聞いていました。

ここからは、各発表者ごとにLTの内容を簡単にまとめたいと思います。

田中丸 祐治 さん

タイトル

DataFrameをPython数行でEDA(探索的データ解析)

内容
  • EDA(探索的データ解析)

  ・分析する前に、どのようなデータがあるのかを確認すること
  ・データの集計、要約、可視化が含まれる

  • アヤメのデータセットを使用してEDAのデモ
  • EDAをするときに便利な関数&ライブラリの紹介

  ・DataFrame.describe()
  ・pandas_profiling.ProfileReport
  ・pixiedust diplay
  ・plotly.express

github.com

小川 英幸さん (はんなりPython オーガナイザー)

タイトル

衛星画像のAPIをたたいて可視化するダッシュボードを作った

内容
  • 経度と緯度を入力すると、センチネルという衛星のセンサデータを取得
  • 取得したデータを可視化&テーブルを出力
  • Dashというフレームワークを使用し、Pythonで作成
  • データを見たい全ての人がコーディングできるわけではないから、Webアプリケーションを作成してデータの共有を行うのが良い

scrapbox.io

杉山 阿聖さん

タイトル

因果推論入門

内容
  • データから意思決定を行うときに注意すべき選択バイアスと、正しい意思決定をするためのアルゴリズムの紹介
  • 統計的因果推論では、介入を行ったときのアウトカムと行わなかったときの差である介入効果を扱う
  • 統計的因果推論で扱う問題の例

  1. マーケターの業務における仮説立案
   ・ライトユーザーはヘビーユーザーになってほしい
   ・2ユーザの過去の行動履歴を収集、行動の差を特定
   ・ユーザーの行動に関する仮説立案を行う
   ・ライトユーザーにその行動を促すような施策の検討
   ・A/Bテストで検証を行うことによって、仮説が正しいかが分かる

  2. メール施策の効果測定
   ・メール施策の効果があるのかA/Bテストで確かめたい
   ・ただし、会員登録をするときのメールアドレスの登録は任意
   ・ライトユーザーはメールアドレスの登録していなさそう
   ・ヘビーユーザーだけがアドレスの登録をしている模様
   ・メール施策の効果検証をA/Bテストで行いたい
   ・選択バイアスがあり、全ユーザーに対して効果があるのかが分からない
   ・ヘビーユーザーの傾向を見ているだけなのかもしれない
   ・1ユーザーのメールを送った/送らなかった結果は、同時に取得できない

  • 選択バイアスの例

  1. 新型コロナウイルスの抗体検査の結果の比較
    ・東京と大阪で比較
    ・大阪の方が抗体検査での陽性率が高かった
    ・しかし、大阪では抗体検査の被験者を無作為抽出していない
    ・大阪府が抗体検査の希望者を募っていた
    ・自分が抗体を持っているかもしれないという人の抗体検査を行っていた

  • A/Bテストを行うためには、標本を無作為抽出しなければいけない
  • 因果関係は、どのような問題でも分かるわけではない
  • 統計的因果推論では、ATE(Average Treatment Effect)やCATE(Conditional ATE)を推定する
  • 機械学習で統計的因果推論を行いたい場合

 ・アップリフトモデリング

※ LTの時間配分の関係により、ここで終了

speakerdeck.com

スマホで見ている方はこちらからどうぞ↓
https://speakerdeck.com/asei/introduction-to-causal-inference

森 正和さん

タイトル

D2C時代に突入して変革したデータ分析

内容
  • D2C = Direct to Customer
  • D2Cとは、自社製品を小売業者に介さずに、自社のECやSNSを使って直接消費者に販売すること
  • D2Cでは、顧客に関するデータで意思決定をする
  • なので、お客さんは製品開発の一員

※ 資料の公開なし (2020年6月22日 時点)

案浦 浩二さん

タイトル

Neo4jを使った日本のCOVID-19データの可視化と解析

内容
  • Neo4jの紹介
  • Neo4jはグラフデータベースであり、NoSQLに分類される
  • テーブル構造ではない、シンプルな構造
  • Cypherでコードを書く
  • SQLより少ない行で書くことができる
  • Neo4jでMDM(マスターデータ管理)をさせることによって、データを名寄せ*1することができる

※ 資料の公開なし (2020年6月22日 時点)

まとめ

今回のLTでは、意思決定をするための手法や、データ分析を行うときのオススメのツールを知ることができました。

田中丸さんが紹介してくださったPythonのライブラリが特に気になったので、今度試してみたいと思います。

また、杉山さんの因果推論の説明が分かりやすかったので、続きはスライドを読むなどをして、深堀していきたいです。