中国の人工知能セミナー(文章解析)

昨日は人工知能セミナーの7回目でした。

内容は文章解析について

  • 自然言語処理とNLTK
  • 事前処理(tokenize,normalization,Part-Of-Speech,stopwords)
  • 特性抽出(Bag of Words,TF-IDF)
  • Naive Bayes
  • ニュース記事からカテゴリ分類をするプログラム作成

英文や中国語の文章を解析する方法について学びました。

中国語の文章は1つ1つの単語に分解(tokenize)するのが難しかったり、英語の場合は活用形・派生形を元に戻す(stemming)処理が必要だったりと若干解析するための事前準備が異なります。それぞれの言語処理するためのライブラリ(NLTKとJIEBA)で実現する方法について説明がありました。

プログラム作成では、ニュースサイト「搜狗新闻」の大量のニュース記事に対しカテゴリー分けを行います。事前処理したデータに対して、CountvectorizerとTfidfvectorizerの両方でベクトル化してGaussianNBで機械学習を行います。

搜狗实验室(Sogou Labs)

 「搜狗实验室」では、ニュース記事以外にも1000万枚以上の画像や自然言語処理用のライブラリが提供されており、中国語の文章解析の練習に使えそうです。ただ、データは古いですが。