2024.07.29(更新日: 2024.07.29)
googleスプレッドシートに口座残高をスクレイピングしたい(今回は出来なかった)

はじめに
先ほどツイートしたように、googleスプレッドシートに口座残高の情報を出力していく。
普段、googleスプレッドシートでいろんな場所にある残高の合計を計算している。口座残高を取ってくるという作業を自動化できないか?スクレイピングしてみよう。以前書いた記事(https://t.co/X4EetmhwyT)を参考にして、新しい記事を書いていく。応用を積み重ねていき、着実にスキルアップしていこう pic.twitter.com/QVwVokNQTE
— 柴田浩貴 (@2021_shibata) July 28, 2024
懸念点
ログインをどうするのか?
まずはやってみる
SMBCにログインして、そのURLをコピーする。

IMPORTXML関数の第一引数に指定。

要素の検証を開き、取得したい口座残高の数値が書かれている要素を選択。


右クリックして、Copy XPathを選択。

IMPORTXMLの第二引数に指定。

数式の解析エラーになった。

Copy full XPathのほうを指定したら、以下の表示になった。

警告の右に以下の表示があった。

数式を入れたセルにも「アクセスを許可」があった。

クリックすると、「インポートしたコンテンツは空です。」とのこと。

SMBCさんが、スクレイピング対策をされているのかもしれない。
名前の部分は取得できるかどうか試してみたところ、「接続が切断されています」とのこと。

SMBCでリロードをかけてみると、セッションタイムアウトになっていた。

もう一度ログインしてみたが、結果は同じだった。
自分のサイトで試してみる
前回と同じ内容になってしまうが、自分のサイトで試してみるとうまく行った。

第二引数には、ライダムに表示される記事の記事タイトルのXPathを指定した。

この方法で上手くいくかも

Pythonのseleniumを使えば、ブラウザの操作を自動化できたりするらしい。
次回以降に試していきたい。
投稿ID : 23288
コメントを残す