先日、中国の大手旅行口コミサイト「马蜂窝」の口コミねつ造事件がニュースになっていました。「马蜂窝」の2,100万件の口コミ情報のうち大部分の1,800万件が同業他社(Ctrip、AGENDA、美団等)のデータからコピーしたものだったというものです。
「やられたらやり返す」という訳で、逆に「马蜂窝」のデータを奪ってやろうというオンライン講座が「小象学院」上でありました。タイトルは「我承认,马蜂窝就是这么好爬(马蜂窝はこんなに簡単にスクレイピング出来る)」
スクレイピング講座内容
講義の内容は以下の通りです。
- スクレイピング基礎
- 马蜂窝のサイト構造解析
- プログラミング言語pythonでデータ取得
webクローリングやスクレイピングの基礎について簡単に解説があった後、马蜂窝のサイト構造の説明です。コメント、口コミ情報はajaxや通常のjavascriptから取得しています。それぞれどのようなリクエストパラメータを渡すべきか、どのようにヒントを得るかについて解説がありました。
最後にpythonのプログラムを作成し马蜂窝からコメント、口コミ情報を取得します。途中何度か不正アクセス判断され、马蜂窝のサイトにアクセス拒否される(http403)アクシデントもありましたが、IPアドレスを切替えて対応していました。
講義の内容はわかり易かったのですが、自分でjavascriptでレンダリングされてるサイトからデータ取得するプログラムを作成するのは、難しそうです。