学びのつぶやき

学んだことを日々つぶやいていくブログです。。。

データサイエンス基礎知識

 1.データサイエンス

 

データサイエンスとは:データから有意義なインサイト(物事を見抜く力)を

           抽出する学問。本来別々の目的を持つ学問の集合体

           (統計学人工知能など)

➡具体的には、個々の観測データから集合の性質を導き出す技術・学問

➡必要な素養は、主に次の3点

エンジニアリング:コンピュータ技術を駆使してデータを収集・処理する

         (プログラミングなど)

サイエンス:統計学・数学・機械学習の手法を応用させて、

      データからインサイトを抽出

ビジネス:データ分析の結果をビジネス課題の解決、意思決定に役立たせること

 

2.機械学習

 

人工知能➡ルールベース:マニュアルを入れ、その決まりごとに従って判断する  

    ➡機械学習:データとその正解を入れ、機械が法則を見つけ出し予測を立てる

 

ルールベース(従来手法)

メリット:人間の理論によって分析を行うため、理解されやすい

デメリット:時間と業務量がかかる

 

機械学習

メリット:短期間で高精度な分析ができる

デメリット:ブラックボックス度が高い(根拠が見い出せないことが多い)

 

Q。なぜ機械学習が可能になったのか?

A.必要な要素である。ビッグデータ(材料)、ハードウェア性能の向上(燃料)、

 アリゴリズムの改善(手法)

 

機械学習には現在3種類ある

教師あり学習

コンピュータに特徴量と正解を全てに与え、予測を立て、未知データの予測値を算出

➡人間が特徴量と正解を認識している

 

教師なし学習

コンピュータに特徴量と正解を全てに与えず、勝手にデータの関係性を導き出し、

未知データの予測値を算出

➡人間が特徴量と正解を認識できていないので、与えられない

 

強化学習囲碁・将棋など)

コンピュータに特徴量と正解を一部に与える

➡人間が特徴量と正解を一部認識できており、目的(ゴール)のためのプロセスに点数

 などの評価を与えて、精度を高める

 

特徴量…データの特徴を定量的(数値など)に表す

 

3.教師あり学習モデル構築の基本フロー

 

①データの読み込み

   ↓

②データの理解:データの特徴を観察

   ↓

③モデルの選択:問題ごとに適切なモデル(ツール)を選択

   ↓

④特徴量の設計:生データを加工する

   ↓

⑤モデルの学習

   ↓

⑥精度評価:制度が十分でない場合、③、④の再構築を行う

 

精度の決め手は、データの質特徴量の設計(上記④)

 

その特徴量設計は最も労力を費やされ、最も分析の精度を左右する工程

➡そこで、特徴量をデータから自動的に抽出できるディープラーニングが登場

 

ディープラーニングニューラルネットワークとコンピュータ技術の組み合わせ