技術をかじる猫

適当に気になった技術や言語、思ったこと考えた事など。

Ui Path で簡単スクレイピング

スクレイピングというのは、サイトの内容を自動で抽出する操作の事。
ニュースサイトでは通常、RSSとか配信してるけど、そういう情報がないサイトに対しては有効です。

ものは試しという事で、Engaget からトップニュースをしれっととってみる。

Ui Path のインストール

個人で使う分には Community で大丈夫でしょう。

qiita.com

今はインストーラーが一つにまとまってるので、CommunityLicense でインストールしませう。
インストールが終わったら、Chrome 拡張をインストールします。

f:id:white-azalea:20201214194954p:plain

これでとりあえずは事前準備済みです。

スクレイピングの設定

まずはサイトを表示してしまいます。

f:id:white-azalea:20201214195725p:plain

で、Ui Path で新規プロジェクトを開始して、プロセスを作成します。

f:id:white-azalea:20201214195931p:plain

そしたら「データスクレイピング」を開始して「次へ」

f:id:white-azalea:20201214200032p:plain f:id:white-azalea:20201214200143p:plain

そこで、まずは最新記事を選択

f:id:white-azalea:20201214200238p:plain

二番目の要素といわれるので、最後の記事のラベルを選択しよう

f:id:white-azalea:20201214200351p:plain f:id:white-azalea:20201214200448p:plain

後はそのまま次へ進んで

f:id:white-azalea:20201214200523p:plain

完了

f:id:white-azalea:20201214200552p:plain

複数ページへまたがるので「もっと読む」を選択します。
するとこんな感じになるので

f:id:white-azalea:20201214200749p:plain

追加でコマンドを突っ込みましょう

f:id:white-azalea:20201214200836p:plain

そしてシーケンスを作成して、適当なCSVに追加保存。
追加するデータは「ExtractDataTable」

f:id:white-azalea:20201214201010p:plain

そして実行すると

f:id:white-azalea:20201214201214p:plain

f:id:white-azalea:20201214201252p:plain

ひゃっほい