pythonとExcelでWebスクレイピング Part3
data:image/s3,"s3://crabby-images/a3cf6/a3cf651a54496de1875bb040e4a01804045fac32" alt=""
はじめに
前回は「スクレイピングしたい要素を取得する」という部分で戸惑っていた。
全体像は以下となる。
1 必要なライブラリをインポートする
2 WEBサイトにアクセスする
3 スクレイピングしたい要素を取得する ← イマココ
4 取得した内容をExcelのA2〜A4に出力する
3回目を進めていこう。
トップページの記事数を変更したので、前回とは記事数に関わる部分で変更がある。
まずやりたいこと
以下のような配列をPythonで作成したい。
[一番上の記事タイトル、二番目の記事タイトル、三番目の記事タイトル]
【試行錯誤1】空の配列を作ってみる
pythonでは配列ではなくリストと呼ぶみたいだ。
data:image/s3,"s3://crabby-images/0ca74/0ca746b7f6faa75e7ba40ddd223c37de353463e0" alt=""
以下のようなリストを作成した。
data:image/s3,"s3://crabby-images/35733/35733f7558c954b459f225c7769ad8369a994243" alt=""
【試行錯誤2】次はFor文
data:image/s3,"s3://crabby-images/8c12e/8c12e6a9b7324ffbdf43379af0491c7e6851b1da" alt=""
いや、これはリストにすでに入っている要素を一つ一つ出力する処理だ。
空のリストに要素を一つずつ入れていきたい。
【試行錯誤3】Pythonで空のリストに要素を一つずつ入れるには、appendを使う
data:image/s3,"s3://crabby-images/eb676/eb676d2d0f8e259de23e030a5dbc88aeefc44834" alt=""
空の配列に記事タイトルを一つずつappendしていくのがいいだろう。
bodyの中身を出力することができた
当サイトのトップページの3記事のタイトルを取得しよう。
data:image/s3,"s3://crabby-images/decce/decceb348a6a65391af71155213d0bbbdeff8ff8" alt=""
一番大きな要素には、front-pageというクラス名があるので、それを変数に入れる。
data:image/s3,"s3://crabby-images/52e17/52e1729acf187a1a5f641138ce2d71502598bcff" alt=""
select_oneを使用する。(select_oneメソッド)
先ほどクラス名を変数に入れると書いたが、それは間違っていた。
CSSセレクタを指定する必要がある。
data:image/s3,"s3://crabby-images/18108/1810898082e9504a188a0237f23dd4656ec936a2" alt=""
idは指定していないので、CSSセレクタはbodyタグのbodyだった。
data:image/s3,"s3://crabby-images/5c67f/5c67f43cecd86fd9452384b39c34068644c09699" alt=""
これを実行すると、大きな括りであるbodyの中身が表示された。
data:image/s3,"s3://crabby-images/4bbe7/4bbe7d7c630661ef18349d013231ff834a196d2f" alt=""
ここから記事タイトルを絞り込んでいく。
全ての記事タイトルをターミナルに出力することに成功した
記事タイトルのCSSセレクタは、div.all-article__ttl。
data:image/s3,"s3://crabby-images/4ad9d/4ad9d8a962a10f1fb0d4c2004dddeb589df45960" alt=""
それを、ttlに格納した。
data:image/s3,"s3://crabby-images/91edd/91eddca586c88ed1cff506086c3cc7833a8001df" alt=""
実行すると、全ての記事タイトルのdiv要素が入った配列を出力することができた。
data:image/s3,"s3://crabby-images/a1ab1/a1ab15ecf763f01e5198ea3af35e0334859004ae" alt=""
ここからタイトルを抜き出そう。
一つの要素に対して、textメソッドを使用したら、テキストを抜き出すことができた。
data:image/s3,"s3://crabby-images/cc79d/cc79dff44c5941506a6a0a29b40c86e595f8555d" alt=""
data:image/s3,"s3://crabby-images/68eef/68eef0624db7d51c5a96b224290e198582f8a663" alt=""
for文で順番に出力していこう。
data:image/s3,"s3://crabby-images/f09a1/f09a17ce24504dc635bed2f7b79c9833a2925016" alt=""
3つの記事タイトルのdiv要素が入っている配列の名前は、ttl_listに変更した。
for文でttl_listからttlという名前で一つずつ取り出して、textメソッドで出力した。
bodyは不要だったので、コメントアウトしておいた。
実行結果はこちら。
data:image/s3,"s3://crabby-images/edd30/edd303c4be432a69cf38c76754b6059bd1563001" alt=""
トップページにある全ての記事タイトルが出力できた。
次回
今回、「3 スクレイピングしたい要素を取得する」を完了させることができた。
1 必要なライブラリをインポートする
2 WEBサイトにアクセスする
3 スクレイピングしたい要素を取得する ← 今回
4 取得した内容をExcelのA2〜A4に出力する
次回は、「4 取得した内容をExcelのA2〜A4に出力する」を行っていく。
data:image/s3,"s3://crabby-images/f6009/f60090b8340613c2715833a055b8abe84ea12e7b" alt=""
コメントを残す