中国の人工知能セミナー(ビッグデータ解析編)

昨日は人工知能セミナーの第2回目でした。

今回はビッグデータの解析という事で、

  1. プログラム言語PythonのPandasライブラリの基本的な使い方
  2. データの洗浄方法(解析に邪魔になる不正データの削除、修正)
  3. データのグループ化や結合
  4. データの可視化(matplotlibやSeabornを使用した統計図の作成)
  5. データ解析実践(顧客消費データ分析)

について学びました。

Pandasの基本的な操作や考え方についてはSQLと似ているので、今回はITバックグラウンドの受講者にとっては簡単な内容でした。

最後の実践は、オンラインショッピングサイトの50万件以上の顧客の購入履歴が保存されているExcelファイルからデータの洗浄を行って各種統計資料を作成するという内容です。

非力なPCでも1分足らずでファイル読み取りから数種類の統計図の作成までできたのでかなり高速に処理ができている印象です。

講義で使用する解析元となるデータは下記サイトから取得しているとの事でした。

ICU

kaggle (Kernelsにサンプルコードあり)

結局セミナーが終わったのは夜11時20分。予定をかなりオーバーしていたので一部の参加者からは苦情が来ていました。