中国の人工知能セミナー(機械学習編3)

昨日は人工知能セミナーの5回目でした。

内容は前回に引き続き機械学習についてです。

 

  1. 訓練データの編集(feature normalization、one-hot encoding等)
  2. 学習モデルの最適化
  3. 学習モデルの評価指標
  4. 複数学習モデルの組み合わせ手法
  5. 動物種別判断のプログラミング

インプットデータの正規化の手法や、学習モデルに対して人間が設定する必要があるハイパーパラメータの調整方法、正解率以外での学習モデルの評価方法等を学びました。

 
最後のプログラム実習では、kaggleから取得した動物の特徴データから種類を予測するプログラムを作成します。

 
今まで学習した下記8種類の方法で正解率、実行時間について比較します。

  • kNN
  • LogisticRegression
  • SVM
  • DecisionTree
  • Stacking
  • AdaBoost
  • GradientBoosting
  • RandomForest

GridSearchCVで複数のハイパーパラメータで試した結果、正解率が高かった順はRandomForest > SVM > LogisticRegressionとなりました。

 
講師の話では、機械学習の標準モデル(ディープラーニングを使用しない)ではRandomForestの精度が一番良いことが多いとのことでした。

もちろんデータやパラメータ指定にもよりますが。