大手旅行口コミサイト「马蜂窝MaFengWo」からデータを奪う(中国のスクレイピング講座)

先日、中国の大手旅行口コミサイト「马蜂窝」の口コミねつ造事件がニュースになっていました。「马蜂窝」の2,100万件の口コミ情報のうち大部分の1,800万件が同業他社(Ctrip、AGENDA、美団等)のデータからコピーしたものだったというものです。

「やられたらやり返す」という訳で、逆に「马蜂窝」のデータを奪ってやろうというオンライン講座が「小象学院」上でありました。タイトルは「我承认,马蜂窝就是这么好爬(马蜂窝はこんなに簡単にスクレイピング出来る)」

f:id:denim012:20181027235847j:image

スクレイピング講座内容

講義の内容は以下の通りです。

  • スクレイピング基礎
  • 马蜂窝のサイト構造解析
  • プログラミング言語pythonでデータ取得

webクローリングやスクレイピングの基礎について簡単に解説があった後、马蜂窝のサイト構造の説明です。コメント、口コミ情報はajaxや通常のjavascriptから取得しています。それぞれどのようなリクエストパラメータを渡すべきか、どのようにヒントを得るかについて解説がありました。

最後にpythonのプログラムを作成し马蜂窝からコメント、口コミ情報を取得します。途中何度か不正アクセス判断され、马蜂窝のサイトにアクセス拒否される(http403)アクシデントもありましたが、IPアドレスを切替えて対応していました。

講義の内容はわかり易かったのですが、自分でjavascriptでレンダリングされてるサイトからデータ取得するプログラムを作成するのは、難しそうです。