学びのつぶやき

学んだことを日々つぶやいていくブログです。。。

データ分析フロー

データ分析フロー

 

f:id:kaaai0910:20191115183829j:plain

 

1.原データ

2.格納

3.ETL(抽出➡変換・加工➡保存)

4.分析

※1~3番までがデータ分析基盤構築の工程

 

1.原データ

操作ログや入力ログ、走行ログなどのデータが機械には一時的に保存されている。

(永久ではない)

ログ:コンピュータの世界における、やったことや起こったことの記録

 

2.格納

原データを取り出して貯めておくところ

構造データ(ある程度整理されているデータ)と

非構造データ(文字、数字の羅列)が存在する

データは、文字ではなく数字で整理し、共通マスタとする

 

マスタデータ:システムを動かす前から入れておく必要のある基礎となるデータ

トランザクションデータ:システムを動かすことによって蓄積されていくデータ

ex)出退勤管理システムであれば、社員の情報はシステム活用時点で、

 すでにシステムに入っているであろうデータがマスタ、

 出退勤管理システムが使われることで蓄積されていくデータがトランザクション

 

3.ETL(抽出➡変換・加工➡保存)

格納してあるデータの状態では、分析のための形にはなっていないので、

①必要データを抽出して、②必要な個所のデータを変換し、データどおしを紐づけ、

③分析に活用できるキレイな状態で保存する(cloud上)

 

4.分析

データどうしを照らし合わせて、施策、提案を行う

正しく言えば、行いたい分析戦略から逆算して、

現データの取得方法を工夫する必要がある

 

1~4それぞれに適したツールが存在する

ex)1➡2ツール:トレジャーデータ

 

たくさんツールを活用することは、扱える人材が希少でありコストも多く発生するが、

扱えるのであれば、速く正確なデータ分析基盤を作り上げることができる