Ui Path で簡単スクレイピング
スクレイピングというのは、サイトの内容を自動で抽出する操作の事。
ニュースサイトでは通常、RSSとか配信してるけど、そういう情報がないサイトに対しては有効です。
ものは試しという事で、Engaget からトップニュースをしれっととってみる。
Ui Path のインストール
個人で使う分には Community で大丈夫でしょう。
今はインストーラーが一つにまとまってるので、CommunityLicense でインストールしませう。
インストールが終わったら、Chrome 拡張をインストールします。
これでとりあえずは事前準備済みです。
スクレイピングの設定
まずはサイトを表示してしまいます。
で、Ui Path で新規プロジェクトを開始して、プロセスを作成します。
そしたら「データスクレイピング」を開始して「次へ」
そこで、まずは最新記事を選択
二番目の要素といわれるので、最後の記事のラベルを選択しよう
後はそのまま次へ進んで
完了
複数ページへまたがるので「もっと読む」を選択します。
するとこんな感じになるので
追加でコマンドを突っ込みましょう
そしてシーケンスを作成して、適当なCSVに追加保存。
追加するデータは「ExtractDataTable」
そして実行すると
ひゃっほい