スクレイピングというのは、サイトの内容を自動で抽出する操作の事。
ニュースサイトでは通常、RSSとか配信してるけど、そういう情報がないサイトに対しては有効です。
ものは試しという事で、Engaget からトップニュースをしれっととってみる。
Ui Path のインストール
個人で使う分には Community で大丈夫でしょう。
今はインストーラーが一つにまとまってるので、CommunityLicense でインストールしませう。
インストールが終わったら、Chrome 拡張をインストールします。
これでとりあえずは事前準備済みです。
スクレイピングの設定
まずはサイトを表示してしまいます。
で、Ui Path で新規プロジェクトを開始して、プロセスを作成します。
そしたら「データスクレイピング」を開始して「次へ」
そこで、まずは最新記事を選択
二番目の要素といわれるので、最後の記事のラベルを選択しよう
後はそのまま次へ進んで
完了
複数ページへまたがるので「もっと読む」を選択します。
するとこんな感じになるので
追加でコマンドを突っ込みましょう
そしてシーケンスを作成して、適当なCSVに追加保存。
追加するデータは「ExtractDataTable」
そして実行すると
ひゃっほい