概要
white-azalea.hatenablog.jp
この続き
第四章まとめ続き
分析設計のためのデータ調査
データ調査はデータの仕様や特徴を調べること。
目的は
- 分析要件の実現可能性の精査
- データの存在確認
- 正確なデータかどうか
- データの利用許可、環境構築等してよいかどうか
- 必要なデータ処理(接続、加工、集計)の工程がどの程度必要かの検討
データ調査の内容
おおよそ3段階
- データソースレベル調査 : データの全体像調査
ざっくり以下の5点の調査
- データソース名 : 特定サービスのWebアクセスログ等
- 提供するデータの概要 : ユーザ単位のページ閲覧履歴、クリック、ページスクロール等の行動履歴
- データの提供元 : 「AWS サーバ」や「外部サービス」などの提供元
- データ記録開始時期 : 最大でどれくらい遡ってデータを保持してるか
- データ利用可否 : BI での接続を含めて、自動アクセス等の権限があるか?接続IFや認証方式など
- 管理部門(or 管理者) : データソース提供元のシステムを管理している部署、担当者などの情報
- 仕様が分かるドキュメントの所在 : データ仕様や提供元サービスの資料の有無と所在。
- テーブルレベルの調査
ざっくり 10 段階の項目を確認する
- データソース名 : 特定サービスのWebアクセスログ等
- テーブル名 : 該当の物理テーブル名
- テーブルのタイプ : マスタデータ*1/トランザクションデータ*2などの属性
- ユニークキー : もしくはプライマリキーと型
- データ記録開始日 : どこまでさかのぼれるか
- レコード総数 : 現時点でのレコード数
- 1か月のレコード新規追加数 : 名前の通り
- 更新頻度 : 名前の通り、データの更新頻度
- 更新方法 : 手動更新か自動更新か、自動ならトリガは何か等
- レコード生成条件 : 何を起因にレコードが作成されるのか
- テーブルカラムレべル調査 : どのようなカラムでテーブルが構成されているかの調査
- データソース名 : 同上…
- テーブル名
- カラム名
- データ型
- 値の特性 : 最大値/最小値、文字列なら利用可能な文字種等、数値型をフラグとしている場合フラグの意味など
- 欠損の割合 : null 入ってる割合…*3
感想
ここまで入ってくると、データサイエンスに足を突っ込み始めましたね…。
Kaggle もちょっとやった身としては、データの補完したい、整形したい、項目の相関性を測定したい、機械学習にかけてデータ予測したい…って脱線してきた(汗