PythonでWebスクレイピイング|たった2時間で自動ログインやデータ取得、画像保存まで学べます【プログラミング初心者でもできる】
\キノコードが作ったプログラミング学習 サービス登場/
学んだ知識をその場でアウトプットできるからスキルの定着が実感できる
Python学習といえば、キノクエスト!
・問題数は充実の350問以上
・環境構築は不要!
・カリキュラムがあるので学習方法に迷わない
▼登録はこちら▼
kino-code.com/kq_service_a/?u...
ーーー
この動画はWebスクレイピングに関する動画をまとめたものです。
WebスクレイピングとはWebサイトから情報を取得する技術のことです。
最初にこれまでの動画で解説した内容を簡単に振り返りましょう。
1本目の動画では、ブラウザを操作してWebサイトにログインし、そのWebサイトにアップされているファイルをダウンロードする方法について。
2本目の動画では、特定のページの配下にある、1000ページ分のURLとタイトルを取得する方法について。
そして3本目の動画では、キーワード検索をしたときに、検索結果に表示される情報を取得する方法について解説をしています。
さらに4本目と5本目の動画では、Webサイトから画像を保存する方法と、キーワード別の検索順位一覧を保存する方法についても、それぞれ解説をしています。
あなたは会社で日々同じ作業をWeb上にて行ってはいないでしょうか?
また趣味のWebサイトやブログを運営していらっしゃる方であれば、情報収集を手動で行ってはいないでしょうか?
もし思いつくものがあれば、今回の動画を見ていただくことで、それらの作業を自動化するヒントが得られるはずです。
また一度自動化のプログラムを作成してしまえば、タスクスケジューラを利用して定期的に実行することができます。
小さな作業でもそれを日々行っているのであれば、年間に直すと大きな時間とコストがかかっています。
ぜひ今回の動画の内容を応用して、自動化にチャレンジしてみてください。
この動画は2時間と、合併版ということもあり少し長い動画になっています。
ただWebスクレイピングを覚えることで削減できる時間に比べたらわずかな時間なはずです。
また人生においてはたった2時間と言えることもできます。
ぜひ最後まで一緒に手を動かしながら、楽しんでご視聴いただければ幸いです。
▼目次
00:00:00 はじめに
00:02:29 Pythonで面倒な「ブラウザ操作」や「データ収集」の作業を自動化しよう
00:42:27 Pythonでサイトに掲載ある大量のリンク先URLを取得する方法
01:02:08 Pythonでキーワード検索した結果ページのデータ取得する方法
01:17:45 Pythonで自動で画像収集→保存する方法
01:30:59 Pythonで検索順位を自動保存(SEOのデータ分析に使える)
01:43:02 おわりに
▼各動画へのリンクと書き起こしブログのリンク
①Pythonで面倒な「ブラウザ操作」や「データ収集」の作業を自動化しよう|Webスクレイピングの基本的な内容をわかりやすく解説|PythonでWebスクレイピング第01回
▼KZreadリンク
• Pythonで面倒な「ブラウザ操作」や「デー...
▼書き起こしブログ
kino-code.com/python_automati...
②Pythonでサイトに掲載ある大量のリンク先URLを取得する方法|PythonでWebスクレイピング第02回
▼KZreadリンク
• Pythonでサイトに掲載ある大量のリンク先...
▼書き起こしブログ
kino-code.com/python_automati...
③Pythonでキーワード検索した結果ページのデータ取得する方法|PythonでWebスクレイピング第03回
▼KZreadリンク
• Pythonでキーワード検索した結果ページの...
▼書き起こしブログ
kino-code.com/python_automati...
④Pythonで自動で画像収集→保存する方法|PythonでWebスクレイピング第04回
▼KZreadリンク
• Pythonで自動で画像収集→保存する方法|...
▼書き起こしブログ
kino-code.com/webscraping04/
⑤Pythonで検索順位を自動保存(SEOのデータ分析に使える)|PythonでWebスクレイピング第05回
▼KZreadリンク
• Pythonで検索順位を自動保存(SEOのデ...
▼書き起こしブログ
kino-code.com/python_automati...
▼自己紹介
ブログに自己紹介を書いております。
kino-code.com/profile/
▼SNS
Twitter : / likes
Facebook : / キノコード -105693727500005/
Website : kino-code.com/
#Python #Webスクレイピング #自動化 #RPA
Пікірлер: 38
【Python学習 といえば、キノクエスト】 キノコードが作ったプログラミング学習サービスが登場! 「やってみたい」から「できた」へ ・Pythonに興味がある ・業務を効率化したい ・アウトプットしてみたい ・学習方法に不安がある ▼登録はこちら▼ kino-code.com/kq_service_a/?.com&ANoxy74O_VE_comment
丁度欲しかったので助かります! ありがとうございます!
毎回説明分りやすい! マジ神
Webスクレイピング講座助かります!
キノさん! エクセル作業効率の色々なパターンの講座を2週間に一回とか、継続的に出していただけると嬉しいです🙆♂️ 頼りにしています👍
おかげで入門できました Gmailとかは専用のAPI使う感じなのかな🤔❔っと思ったので、 次はGmail自動化の動画も見させてもらいます😊
01:13:57の部分のプログラムで一つ前のプログラムのkeywordをjavascriptにするとConnectionErrorが起きてしまうのですが、複数ページがないところにはこのプログラムは使えないのでしょうか?
digital ocean 上で、docker-machine, docker swarm, selenium-gridを使ってスクレイピングしてるのですが、digital ocean (4vcpu 8gb)x4 nodes の使用量が高すぎて2万します。 virtualboxに core4 x 4 nodesをmac内に作ってコードを実行したのですが、重すぎて使えませんでした。 desktopの 12th gen 12900k 使えば解決しますでしょうか? 動画の内容と違くて申し訳ありません。 パソコンについて調べてもゲーム性能等のレビューばかりで、答えが見つかりませんでした。 アドバイスいただけるとありがたいです。
4つめの動画 1:25:00 あたりのコードを実行すると KeyError: 'src' が出ます。HPからコピーしてきたコードを入力しても エラーが出ました。 get_image_link = get_list_image[n].get("src") でエラーの回避が出来ました。 画像URLリストにNoneが含まれてるので、除外した後に保存する必要がありそうです。
質問です #テキスト入力ボックス 20分のところでAttributeError: 'WebDriver' object has no attribute 'find_element_by_id'このエラーが出ました 解決ほうがわかりません
すごく勉強になります。高解像度のバージョンもあると、もっと嬉しいです。360pだと画面の文字がにじんで・・・
@kinocode
2 жыл бұрын
すみません、ただいま処理中のようです。 少しお待ちいただくと4K対応いたします。
@odoru405
2 жыл бұрын
@@kinocode ありがとうございます。アップ直後だったんですね。私が急ぎすぎてしまいました。m(__)m
JavaScriptでのwebスクレイピングも知りたいです
@kinocode
2 жыл бұрын
リクエストありがとうございます!
質問です。 31:20でparse_html = BeautifulSoup(response,'html.parser')を入力した際に 「ConnectionResetError: [WinError 10054] 既存の接続はリモート ホストに強制的に切断されました。」というエラーがでます。 その前の、parse_html = BeautifulSoup(html,'html.parser')では出ません。 どうしたらよいでしょうか?
webdriverでモジュールエラーに。。。 先に進めません😭
いつもわかりやすく解説していただき ありがとうございます! 質問させていただきたいのですが、 17:27のログインするサイトへアクセスのところで WebDriverException: Message: chrome not reachable このようなエラーが出ております。 解決策を教えていただけないでしょうか? クロームを起動までは問題なく読み込んでおります。
@kinocode
2 жыл бұрын
Chrome.Driverが複数立ち上がっていると起きるエラーのようです。 一度driver.quit()でプロセスを終了させてから試してみてはどうでしょう?
動画を拝見させていただいております ご質問になるのですが、 browser = webdriver.Chrome() 上記を入力すると「WebDriverException: Message: Service chromedriver unexpectedly exited. Status code was: -9」が出てきます。 この場合の解決方法を教えていただけますと幸甚です。 M1 Mac macOS Big Surです。
gamefiをプレイする場合は、Tribalpunkをプレイすることをお勧めします
@florodaskam8740
2 жыл бұрын
当初よりプレイしづらく、参加しやすいですが、プレイしにくいです
会員ページに アクセスするには 会員に ならなければ アクセス出来ないのでしょうか ページに アクセス出来ませんでした どなたか 教えてもらえないで しょうか?
9:00
21:00 付近のfind_element_by_id()でエラーが出ます。 Selenium4仕様変更によるものでしょうか? そこから進めず、止まってます。
@user-cn5qk8ey8g
2 жыл бұрын
elem_pass = browser.find_element('id',"swpm_user_name") これでいかがでしょうか?by_idを()の中、つまり引数として指定しているイメージです。 2022年7月、実行確認しました。まとめますと(変数は好みで変更しましたが)、 elem_id = browser.find_element('id',"swpm_user_name") elem_pass = browser.find_element('id',"swpm_password") elem_click = browser.find_element('name',"swpm-login") 25:20 frm = browser.find_element("xpath","/html/body/div/div[3]/div/main/article/div/p[2]/button") 参考にして頂ければ幸いです。
@kenta1104
2 жыл бұрын
私も同じところでつまづきました。 from selenium.webdriver.common.by import By をして、 element = browser.find_element(by=By.ID, value="swpm_user_name") element.clear() element.send_keys(USER) element = browser.find_element(by=By.ID, value="swpm_password") element.clear() element.send_keys(PASS) print("フォームを送信") と書き換えてください。
1:08当りのページング機能について教えて下さい。Google検索を使ってあるキーワードを検索しました。 2ページ目を右クリック-「検証」でソースコードを見ているのですが「pagination」や「page-numbers」が 見当たりません。 「href」というのはあるのですが、これを使うのでしょうか。よくわかりません。 この場合どのように指定したら良いのでしょうか。 お忙しいところ申し訳ありませんが教えて頂ければと思います。よろしくお願いします。
丁寧なのはいいけど、長ったらしくてダメだわ
Code汚いなぁ Response取得に秒設定ってEvent処理も知らんのか? おまけにenvも利用していないし Python語るには3年早すぎる
@basil_283
Жыл бұрын
うわぁ…
16:00 GoogleDriver windowsの場合について、教えていただけますでしょうか。 (あ)を入力したところ、(い)のエラーが表示されました。 「executable_pathは非推奨になりました。サービスオブジェクトを渡してください」 ※Google driverサイトに、自身が使用する最新バージョンがなかったので、近いバージョンを選んだことが原因でしょうか。 -------------------------------------------------- (あ)browser = webdriver.Chrome(executable_path = 'C:\\Users\\ユーザー名\\Desktop\\MyPandas\\chromedriver.exe') browser.implicitly_wait(3) ------------------------------------------------- (い)C:\Users\ユーザー名\AppData\Local\Temp/ipykernel_数字複数文字/数字複数文字.py:1: DeprecationWarning: executable_path has been deprecated, please pass in a Service object browser = webdriver.Chrome(executable_path = 'C:\\Users\\ユーザー名\\Desktop\\MyPandas\\chromedriver.exe') 恐れ入りますが、何卒宜しくお願い申し上げます。
@kinocode
2 жыл бұрын
ご指摘の通り、executable_pathは非推奨になったようです。 次のように書き換えて試してみてください! (手元で実行確認していないため申し訳ないです...) ``` from selenium import webdriver from selenium.webdriver.chrome.service import Service driver = webdriver.Chrome(service=Service('C:\\Users\\k\\Desktop\\MyPandas\\chromedriver.exe')) ```
@namef5207
2 жыл бұрын
@@kinocode ご返信に気づかずに遅くなりまして申し訳ございません。 無事に解決することができました!ありがとうございます。💙