概要

データ分析、機械学習やディープラーニングを行う場合、データの前処理がとても重要です。様々なデータソースに蓄積された、生データに含まれるノイズや誤差と除去したり、扱い易い形へ変換する手法を本講座で紹介します。

目的

  • データの前処理手法を理解する

対象者

  • Pythonの基礎知識がある方

基本日数

1日(カスタマイズ可能)

研修内容詳細

1.データ分析手法
 1.1 データ分析の重要性
 1.2 CRISP−DM
 1.3 開発環境

2.データソース
 2.1 CSVファイル
 2.2 エクセルファイル
 2.3 JSON

3 . SQL
 3.1 データの選択
 3.2 表の結合
 3.3 データの集計
 3.4 データのソート

4.構造化データ前処理
 4.1 欠損値の確認
 4.2 統計量の計算
 4.3 欠損値の除去
 4.4 カテゴリデータ
 4.5 数値データの集約

5.画像データの前処理
 5.1 画像データの読み込み
 5.2 モルフィロジー変換
5.3 PCAによる次元圧縮
5.4 データセットの作成

6.自然言語データの前処理
 6.1 形態素解析
 6.2 Bow
 6.3 TF-IDF
 5.4 単語の類似度計算
5.5 学習
 5.6 学習結果の評価