技術をかじる猫

適当に気になった技術や言語、思ったこと考えた事など。

ビジネスダッシュボード 設計・実装ガイドブック(5)

概要

white-azalea.hatenablog.jp

この続き

第四章まとめ続き

分析設計のためのデータ調査

データ調査はデータの仕様や特徴を調べること。
目的は

  • 分析要件の実現可能性の精査
    • データの存在確認
    • 正確なデータかどうか
    • データの利用許可、環境構築等してよいかどうか
  • 必要なデータ処理(接続、加工、集計)の工程がどの程度必要かの検討

データ調査の内容

おおよそ3段階

  1. データソースレベル調査 : データの全体像調査
    ざっくり以下の5点の調査
    • データソース名 : 特定サービスのWebアクセスログ
    • 提供するデータの概要 : ユーザ単位のページ閲覧履歴、クリック、ページスクロール等の行動履歴
    • データの提供元 : 「AWS サーバ」や「外部サービス」などの提供元
    • データ記録開始時期 : 最大でどれくらい遡ってデータを保持してるか
    • データ利用可否 : BI での接続を含めて、自動アクセス等の権限があるか?接続IFや認証方式など
    • 管理部門(or 管理者) : データソース提供元のシステムを管理している部署、担当者などの情報
    • 仕様が分かるドキュメントの所在 : データ仕様や提供元サービスの資料の有無と所在。
  2. テーブルレベルの調査 ざっくり 10 段階の項目を確認する
    1. データソース名 : 特定サービスのWebアクセスログ
    2. テーブル名 : 該当の物理テーブル名
    3. テーブルのタイプ : マスタデータ*1/トランザクションデータ*2などの属性
    4. ユニークキー : もしくはプライマリキーと型
    5. データ記録開始日 : どこまでさかのぼれるか
    6. レコード総数 : 現時点でのレコード数
    7. 1か月のレコード新規追加数 : 名前の通り
    8. 更新頻度 : 名前の通り、データの更新頻度
    9. 更新方法 : 手動更新か自動更新か、自動ならトリガは何か等
    10. レコード生成条件 : 何を起因にレコードが作成されるのか
  3. テーブルカラムレべル調査 : どのようなカラムでテーブルが構成されているかの調査
    1. データソース名 : 同上…
    2. テーブル名
    3. カラム名
    4. データ型
    5. 値の特性 : 最大値/最小値、文字列なら利用可能な文字種等、数値型をフラグとしている場合フラグの意味など
    6. 欠損の割合 : null 入ってる割合…*3

感想

ここまで入ってくると、データサイエンスに足を突っ込み始めましたね…。
Kaggle もちょっとやった身としては、データの補完したい、整形したい、項目の相関性を測定したい、機械学習にかけてデータ予測したい…って脱線してきた(汗

*1:会員情報等の各データの起点になるデータの事

*2:ユーザのアクセス履歴等

*3:null 入れんなや!!!