データ分析フロー
データ分析フロー
1.原データ
2.格納
3.ETL(抽出➡変換・加工➡保存)
4.分析
※1~3番までがデータ分析基盤構築の工程
1.原データ
操作ログや入力ログ、走行ログなどのデータが機械には一時的に保存されている。
(永久ではない)
ログ:コンピュータの世界における、やったことや起こったことの記録
2.格納
原データを取り出して貯めておくところ
構造データ(ある程度整理されているデータ)と
非構造データ(文字、数字の羅列)が存在する
データは、文字ではなく数字で整理し、共通マスタとする
マスタデータ:システムを動かす前から入れておく必要のある基礎となるデータ
トランザクションデータ:システムを動かすことによって蓄積されていくデータ
ex)出退勤管理システムであれば、社員の情報はシステム活用時点で、
すでにシステムに入っているであろうデータがマスタ、
出退勤管理システムが使われることで蓄積されていくデータがトランザクション
3.ETL(抽出➡変換・加工➡保存)
格納してあるデータの状態では、分析のための形にはなっていないので、
①必要データを抽出して、②必要な個所のデータを変換し、データどおしを紐づけ、
③分析に活用できるキレイな状態で保存する(cloud上)
4.分析
データどうしを照らし合わせて、施策、提案を行う
正しく言えば、行いたい分析戦略から逆算して、
現データの取得方法を工夫する必要がある
1~4それぞれに適したツールが存在する
ex)1➡2ツール:トレジャーデータ
たくさんツールを活用することは、扱える人材が希少でありコストも多く発生するが、
扱えるのであれば、速く正確なデータ分析基盤を作り上げることができる