データサイエンス基礎知識
1.データサイエンス
データサイエンスとは:データから有意義なインサイト(物事を見抜く力)を
抽出する学問。本来別々の目的を持つ学問の集合体
➡具体的には、個々の観測データから集合の性質を導き出す技術・学問
➡必要な素養は、主に次の3点
エンジニアリング:コンピュータ技術を駆使してデータを収集・処理する
(プログラミングなど)
データからインサイトを抽出
ビジネス:データ分析の結果をビジネス課題の解決、意思決定に役立たせること
2.機械学習
人工知能➡ルールベース:マニュアルを入れ、その決まりごとに従って判断する
➡機械学習:データとその正解を入れ、機械が法則を見つけ出し予測を立てる
ルールベース(従来手法)
メリット:人間の理論によって分析を行うため、理解されやすい
デメリット:時間と業務量がかかる
メリット:短期間で高精度な分析ができる
デメリット:ブラックボックス度が高い(根拠が見い出せないことが多い)
Q。なぜ機械学習が可能になったのか?
A.必要な要素である。ビッグデータ(材料)、ハードウェア性能の向上(燃料)、
アリゴリズムの改善(手法)
機械学習には現在3種類ある
コンピュータに特徴量と正解を全てに与え、予測を立て、未知データの予測値を算出
➡人間が特徴量と正解を認識している
コンピュータに特徴量と正解を全てに与えず、勝手にデータの関係性を導き出し、
未知データの予測値を算出
➡人間が特徴量と正解を認識できていないので、与えられない
コンピュータに特徴量と正解を一部に与える
➡人間が特徴量と正解を一部認識できており、目的(ゴール)のためのプロセスに点数
などの評価を与えて、精度を高める
※特徴量…データの特徴を定量的(数値など)に表す
3.教師あり学習モデル構築の基本フロー
①データの読み込み
↓
②データの理解:データの特徴を観察
↓
③モデルの選択:問題ごとに適切なモデル(ツール)を選択
↓
④特徴量の設計:生データを加工する
↓
⑤モデルの学習
↓
⑥精度評価:制度が十分でない場合、③、④の再構築を行う
精度の決め手は、データの質と特徴量の設計(上記④)
その特徴量設計は最も労力を費やされ、最も分析の精度を左右する工程
➡そこで、特徴量をデータから自動的に抽出できるディープラーニングが登場
ディープラーニング:ニューラルネットワークとコンピュータ技術の組み合わせ