PythonToday
3 жыл бұрын
89,376
1

Обучение парсингу на Python #6 | Как собрать информацию с любого сайта | Requests BS4 Selenium

Обучение (Web-Scraping) веб парсингу на Python. В данном видео рассматриваем как и откуда подгружается контент на динамический сайт, используем библиотеку requests и GET запросы к API, парсим данные с помощью Beautifulsoup, а также рассматриваем как можно получить данные и сохранить страницу с помощью Selenium webdriver.
🔥 Доступ в приват | Поддержать проект:
boosty.to/pythontoday
/ pythontoday
yoomoney.ru/to/410019570956160
🔥 Стать спонсором канала:
/ @pythontoday
****Ссылки****
Музыка из видео:
www.epidemicsound.com/referra...
Дешевый/надежный сервер в Европе:
zomro.com/?from=246874
promo_code:
zomro_246874
Хороший proxy сервис:
proxy6.net/a/149995
Крутой заказ на фрилансе | Подбираем забытый пароль к Excel файлу с помощью Python
• Крутой заказ на фрилан...
Пишем Telegram бота на Python + Загружаем Telegram бота на сервер(хостинг):
• Пишем Telegram бота на...
Плейлист по парсингу сайтов на Python:
• Парсинг/Scraping
Плейлист по Instagram боту:
• Instagram Bot на Pytho...
Firefox driver:
github.com/mozilla/geckodrive...
Chrome driver:
chromedriver.storage.googleap...
Код проекта на github:
github.com/pythontoday/scrap_...
И в telegram канале:
t.me/python2day
****Соц.сети****
Telegram: t.me/python2day

Пікірлер: 222

@maryan17803 жыл бұрын
Дуже цікаво і практичні приклади. Молодець. Почну вивчати програмування по Ваших прикладах, практичний досвід реальний. Дякую!!!!!!!!!!!!
@andrusski78622 жыл бұрын
Спасибо большое за такой отличный контент 👌👍 Благодаря ему втянулся в тему парсинга и сейчас работаю над своим первым проектом в этом направлении. Хотелось бы ещё отдельное видео, посвящённое теме заполнения форм на сайте с использованием requests. Спасибо 🤝
@return_11013 жыл бұрын
Спасибо. Для меня вы гений. Я уже 7 месяцев учу Питон (и в целом програмирования и линукс). Спасибо за качественые видео! Блогодаря таким людям как вы, новичкам легче учить! Буду дальше учить. Удачи и вам!!!
@PythonToday
3 жыл бұрын
Благодарю за фидбэк! Но я только учусь как и ты)
@work_user1510
2 жыл бұрын
Как успехи спустя столько времени?
@return_1101
2 жыл бұрын
@@work_user1510 Уже к лучшему. На степике сейчас делаю курсы. Там очень качественные курсы.
@Lelouch-
10 ай бұрын
@@return_1101 чё там с прогрессом ?
@user-iw2bv5ep8o Жыл бұрын
Спасибо большое за видео!!! Ваши видео просто офигенны! Немного теории + море практики + дополнительная инфа для конкретных задач, которые в будущем может встретить любой парсер
@user-iw2bv5ep8o
Жыл бұрын
P.S. Во время учёбы у меня возникло 2 ошибки и может, кому пригодиться мой опыт, ну-с начнём. Первая ошибка: DeprecationWarning: executable_path has been deprecated, please pass in a Service object Если хотите посмотреть решение в инете вбейте эту ошибку в поисковик и перейдите по первой ссылке. Лично мне, помог совет от пользователя Мори опубликованный 08.11.2021. В чём суть ошибки? Просто библиотека обновилась и параметр, который я использовал executable_path устарел. Решил ошибку так: driver = webdriver.Firefox( options=options, service=Service("C:/Users/N/PycharmProjects/Парсер сайтов/Lesson7/geckodriver")) Заменил устаревший параметр на объект типа Service()
@user-iw2bv5ep8o
Жыл бұрын
Вторая ошибка: 'charmap' codec can't encode character '\u25b9' in position 7943: character maps to Нашёл ответы в инете, но они оказались не для новичка, как я. Да и решения ошибки были основаны на объёмненьком коде, что мне не понравилось. Поэтому начал решать проблему сам. Вспомнил, что такая же ошибка встречалась в каком-то прошлом уроке из плейлиста. Решил ошибку так: with open("index_selenium.html", "w", encoding='utf-8') as file: file.write(driver.page_source) Добавил в параметры записи кодировку utf-8. P.P.S Комментарии удалились во время печати, поэтому пришлось дважды писать одно и тоже :(
@user-LvSerg77710 ай бұрын
Вернулся в данный плейлист после краткого ознакомления с selenium. Летим дальше! Спасибо Автору!
@PythonToday
10 ай бұрын
Благодарю!
@vladimirzelov3 жыл бұрын
Братишка ты просто Красавчек, мотал я душу гугловским алгоритмам, как я долго тебя искал ....... Четко и по делу !!!!!!! Не бросай это дело
@PythonToday
3 жыл бұрын
Благодарю 💪
@vigauss18893 жыл бұрын
Котан снова в деле 😀👍 Спасибо тебе за практику! Аналогов не сыскать. з.ы, не думал постримить, пообщаться "вживую"? Думаю много кто подключится.
@PythonToday
3 жыл бұрын
Спасибо за фидбэк! Думал, но всё никак не решусь. Надо уделить час и разобраться как стрим работает. Да и 200% все про программирование будут спрашивать, а хотелось бы обо всем) Может на 10к соберемся 😀
@vladislavkachaev6507
3 жыл бұрын
@@PythonToday яб тоже подтянулся было бы прикольно! котэ +1
@user-bh5gt3ew9t
3 жыл бұрын
@@PythonToday я в деле босс.
@santilochannel5701
2 жыл бұрын
@@PythonToday уже 100+ к 😃 Когда сбор?))
@sia_si3 жыл бұрын
Спасибо за очень полезный и структурированный контент! После ваших видео не остается ни одного вопроса, а появляется желание открыть атом и начинать писать код :) Хотелось бы увидеть видео о сборе спарсенной инфы в бд (например, sqlite). Столкнулась с проблемой засовования вложенных словарей причем разной структуры и перелопатив интернет ничего годного не нашла. Благодарю за ваш труд!
@user-yd2ye9ls4d3 жыл бұрын
Как всегда на высоте! Больше видео про парсинг богу видео про парсинг! :)
@PythonToday
3 жыл бұрын
Спасибо за фидбэк!
@user-cb2ip1ft6v2 жыл бұрын
Ты бы знал как я рад, чуть стул не сломал во время прыжка на радостях XD Спасибо огромное!!!
@1speede12 жыл бұрын
Опа, оказывается в Python есть библиотека эмулирующая работу браузера. Познавательно, полезно, прекрасно. Благодарю за ценное видео.
@PythonToday
2 жыл бұрын
Благодарю за фидбэк! Рад что видео полезны)
@user-LvSerg77710 ай бұрын
Спасибо за видео! Пойду просматривать плейлист по selenium.
@PythonToday
10 ай бұрын
Рад что полезно, спасибо за фидбэк!
@kat_katchinskiy8 ай бұрын
Спасибо, не хватало этого.
@dieselekin2 жыл бұрын
Спасибо тебе. Ты очень доступно объясняешь !!!
@PythonToday
2 жыл бұрын
Благодарю!
@user-bh5gt3ew9t3 жыл бұрын
за котяру отдельный лайк =)
@dimitrishat86592 жыл бұрын
Хороший контент. Благодарю. Интересно и информативно.
@PythonToday
2 жыл бұрын
Большое спасибо!
@sergeikrasnovskii97673 жыл бұрын
Как всегда супер видео!
@PythonToday
3 жыл бұрын
Спасибо!
@mak322 жыл бұрын
Спасибо большующее! Продолжай делать такие разборы - очень сильно прокачивают нас. Хотелось бы увидеть ролик, где чтобы получить необходимые данные, надо сначала что-то заполнить в input или select, и только после этого появляется страница, которую надо спарсить
@PythonToday
2 жыл бұрын
Благодарю за фидбэк!
@user-qt1bh5qj2d3 жыл бұрын
Спасибо, шикарно, мне этого не хватало
@PythonToday
3 жыл бұрын
Благодарю
@user-eu3yh1qd4e3 жыл бұрын
Огромное спасибо за ваш труд! Это лучший контент. Мне 41 и я решил обучиться программированию для воплощения своих идей в программы которые помогут мне работать с финансами и активами. Но для того, что бы это воплотить я должен понять как всё это работает! Очень много для меня новой, неизведанной информации которая удивляет и завораживает. Изучать новое и не понятное для меня, одно удовольствие. Читать книги это важно, но без практики и хорошего человека который объяснит как это работает очень сложно. Очень много вопросов как это всё работает и всегда хочу находить ответы. Ваш контент отвечает не на все мои вопросы но помогает обрести понимание и самое главное навыки. Благодарю еще раз за ваш труд. Не бросайте это дело так как мало Русского контента который помогает новичкам обрести понимание да и не только новичкам. Да и огромный потенциал в этом направлении как для вас так и для нас.
@kandreyk9159
3 жыл бұрын
это вам надо в сторону датасаенс смотреть (jupyter notebook), если ремесло программиста для вас не главное, то на программировании вы только время потеряете
@PythonToday
3 жыл бұрын
Большое спасибо за фидбэк) Меня как и вас, программирование привлекает безграничным потенциалом возможностей. Успехов в изучении 💪
@bazingos67382 жыл бұрын
Отличнейший контент! Спасибо тебе большое!
@PythonToday
2 жыл бұрын
Спасибо за поддержку!
@CalmDepth3 жыл бұрын
спасибо.здорово.было бы интересно посмотреть ролик,где больше активных действий типа click, onclick, onmouse. а так же парсинг через selenium shadow dom. или же парсинг json
@user-cm1cg2sb1l2 жыл бұрын
Очень здорово! Спасибо Вам!
@PythonToday
2 жыл бұрын
Благодарю за фидбэк!
@kirv24823 жыл бұрын
Только залетел))) и уже лайк и подписка!
@PythonToday
3 жыл бұрын
Спасибо!
@user-go3fe1bl7r3 жыл бұрын
Очень клёво)) Есть наработки по парсингу у меня но это тоже очень полезно)
@PythonToday
3 жыл бұрын
Спасибо за фидбэк!
@user-zo6yb6jf4o3 жыл бұрын
Коротко и ясно. Спасибо.
@PythonToday
3 жыл бұрын
Благодарю!
@Silver_men_rev3 жыл бұрын
Все шикардосно и полезно, не могу понять людей которые дизы ставят, больше чем на 100% уверен что это те которые сами ни чего делать не могут.
@PythonToday
3 жыл бұрын
Благодарю 👍
@user-bh5gt3ew9t
3 жыл бұрын
это паходу двоешники дизят
@set1qs Жыл бұрын
Вау! Просто вау! Буду тестить данный метод с сайтом Zillow который уже сломал мне мозг )) обожаю этот канал!
@PythonToday
Жыл бұрын
Большое спасибо за поддержку!
@gaidjiin99773 жыл бұрын
Спасибо тебе огромное))) Видео супер)
@PythonToday
3 жыл бұрын
Благодарю 💪
@user-ik5hn2hi8d3 жыл бұрын
Спасибо за урок)
@dimk79832 жыл бұрын
Спасибо, очень интересно и полезно.
@PythonToday
2 жыл бұрын
Спасибо за фидбэк, рад что помогает!
@user-xo2bl2vz3o4 ай бұрын
Благодарю за урок Сегодня такое как раз было, столкнулся с невидимыми див блоками
@TheHellishFrog2 жыл бұрын
Спасибо уважаемому автору! Идея для будущего урока: Парсинг и сохранение видео-стримов и данных в формате blob:http
@user-mz6bg7cf6g3 жыл бұрын
Всё круто! Спасибо за видео, только у меня вопрос, а нужно ли ставить слип после get запроса на страницу в селениуме? Как я понял запрос сам по умолчанию ждет когда страница прогрузиться, или я ошибаюсь?
@alekseytrump15862 жыл бұрын
кошак просто стал символом канала. Крутой кошара
@PythonToday
2 жыл бұрын
Спасибо))
@user-cr2yu3tl4w3 жыл бұрын
Видео полезно...👍 Автор подскажи варианты пожалуйста тессеракт или опенСиВи для распознование текстовый картинок?? (Для капчу, мне скорость распознование очень важно)
@Jimmyyroblox Жыл бұрын
Спасибо большое, с первым методом у меня не получилось, когда я переходил по ссылкам сайт меня перенаправлял на главную страницу, а вот со вторым метод все отлично, спасибо за такой контент
@PythonToday
Жыл бұрын
Спасибо за фидбэк!
@road2zion23 жыл бұрын
Спасибо! Полезно!
@PythonToday
3 жыл бұрын
Благодарю за фидбэк!
@silvertruenoobs3402 жыл бұрын
После просмотра видео пошел и залпом просмотрел плейлист по Selenium, и если я правильно понял, он больше служит для автоматизации работы с браузером, ну и для тестов где требуется имитировать нажатия клавиш и взаимодействея с различными элементами на странице. При этом, хоть часть его функционала и позволяет возвращать данные со страниц что бы их сп... кхм... спарсить)), на практике получается bs или чистый lxml будет более правильным выбором, т.к. меньше грузят систему и в целом более ориентированы под данную работу, следовательно имеют более широкий функционал и производительность (например если нужно обработать большой массив данных). Selenium же больше подойдет, если по какой либо причине сайт жмотит данные через отправку запросов (хотя тут оч странно, ведь эмулируя взаимодействие с элементом, например кликом по кнопке, мы по сути просто активируем скрипт отправляющий запрос с определенными параметрами, на сервер... хотя может я и ошибаюсь, поправьте пожалуйста если что не так, буду знать на будущее), то есть когда для того что бы позаимствовать информацию с сайта, нам проще (или необходимо) имитировать взаимодействие пользователя со страницей и собрать данные с прогруженной страницы.
@rand_name67343 жыл бұрын
А диз поставил админ сайта ))
@PythonToday
3 жыл бұрын
Ну 😀
@Andre-ni2ev3 жыл бұрын
Хороший видос!
@PythonToday
3 жыл бұрын
Благодарю 😀
@user-ge9wn2tu9l3 жыл бұрын
Мне кажется пора на частичную монетизацию курсов для новичков надо переходить. Всё видео классные. Было бы прикольно обучаться по группам (платно естественно)
@PythonToday
3 жыл бұрын
Давно вынашиваю идею платформы. Но я далеко не профессионал. Веду несколько человек персонально, на всё времени не хватает) Благодарю за фидбэк!
@user-ge9wn2tu9l
3 жыл бұрын
@@PythonToday да хотя 5 или 10 норм будет. Остальные пуска ждут. Так больше мотивации учится ждущих будет
@kolotovalexander3 жыл бұрын
Очень интересно, хотя я в программировании совсем ламер)
@PythonToday
3 жыл бұрын
Спасибо, вливайся, учиться никогда не поздно!
@namspavlova48263 жыл бұрын
Привет, можно с помощью этих библиотек скачать картинку с лучшим разрешением через «поиск картинки в гугле»? Если нет, то какими библиотечками воспользоваться?
@user-sc5yk5wk3x3 жыл бұрын
Добрый день. Спасибо за видео очень интересно. Немого бы подсказать. Как сделать парсинг с сайта с тестами и как в итоге получается. Спасибо
@user-ur2id1ut9k Жыл бұрын
Очень круто . Как раз именно на это месте вчера остался сам учусь . Только у меня момент может быть такое например KZread selenium открывает так же сохраняю страницу в переменную но там не все ? Это проблема в загрузке или есть что то еще чего я не знаю ??? Пожалуйста 🙏 ответь Огромное спасибо тебе за труды
@AnatoliyUshtan3 жыл бұрын
Топ!!!
@PythonToday
3 жыл бұрын
Спасибо!
@bohdansteshenko5342 Жыл бұрын
День добрый. Смотрю, что работаешь через Visual Studio. Такой вопрос, а как была решена проблема с "UTF-8"? Я делаю запросы на наши сайты , а мне выдает ошибку по этому шифрованию. Когда делаю на английские, то все норм. Как решился вопрос с кириллицей?
@user-bh5gt3ew9t3 жыл бұрын
как говаривают классики: - ничего не понял ,но оч интересно. Лайк и подписон от старичка - студента =)
@blackassasin5246
3 жыл бұрын
стоп а вы вообще программист
@user-bh5gt3ew9t
3 жыл бұрын
@@blackassasin5246 юрист. учусь на прогера.
@blackassasin5246
3 жыл бұрын
@@user-bh5gt3ew9t тогда спрошу один грубый но закономерный ,вопрос почему ты это смотришь ты даже не программист я уже не говорю знаний пайтон и html
@user-bh5gt3ew9t
3 жыл бұрын
@@blackassasin5246 я учусь на прогера, в контексте видосы вылезают вот и смотрю. =)
@user-bh5gt3ew9t
3 жыл бұрын
@@blackassasin5246 в знак поддержки автора, подписался на канал. и в метро смотрю мало-помалу )
@mark.visotskiy2 жыл бұрын
Добрый день, подскажите где искать headers на маке?
@short_aliexpress Жыл бұрын
благодарю.
@ShooterStar2 жыл бұрын
Блин, круто! ПОлучается это все можно делать и с сайтами типа sofascore и подобным им? У софы есть api, но там сложно найти инфу которая нужна
@exeshka Жыл бұрын
Здравствуйте, А как можно получать данные с сайта которые постоянно обновляется?, если сделать запрос то выдается данные на момент запуска кода а мне нужно чтобы всегда данные были свежие
@user-kt7iw7mj1r2 жыл бұрын
1. Параметр executable_path больше не используется в текущей версии selenium`a, теперь вместо него нужно передавать экземпляр класса Service: Python: импортируем: from selenium import webdriver from selenium.webdriver.chrome.service import Service после try ваш код меняется на : try: s=Service('C:/Users/User/Desktop/Python/обучение 2/geckodriver.exe') (указываем свою директорию) driver = webdriver.Firefox(service=s) driver.get(url=url) time.sleep(5) или можно просто добавить chromedriver.exe в PATH и использовать без параметров driver = webdriver.Chrome(). 2. Еще момент: вылезает "'charmap' codec can't encode character '\u20bd' in position 97452: character maps to " меняю кодировку на "utf-8" with open("index_selenium.txt", "w", encoding="utf-8") as file: и потом записаный код в этой кодировке уже не прочитать нормально короче тут я застрял, кто шарит помогите
@user-kt7iw7mj1r
2 жыл бұрын
если что-то не так исправьте меня пожалуйста
@user-al393
2 жыл бұрын
открывай тоже в "utf-8" )
@ffffffffffffvmyt7237
Жыл бұрын
нашел ответ?)
@SAVSAV1212
6 ай бұрын
вместо encoding="utf-8" записать ensure_ascii=False
@user-lc9bn4no7i2 жыл бұрын
какой же ты крутой мужик, дай бог тебе никогда не болеть и жить счастливо!!! ЕСТЬ ВОПРОСЫ не могу разобраться с заголовками: в первом видео плейлиста ты забирал заголовки accept и user-agent в последующих видео тебе хватало только user-agent сейчас ты забрал: accept, accept-encoding, accept-language, cache-control, connection и user-agent как понять какие заголовки мне нужны в переменной headers и по какому принципу их выбирать? А еще есть ли разница в каком гет запросе брать эти заголовки? Часто замечаю что во вкладке network прилетают несколько разных запросов и тот же user_agent лежит почти в каждом, но не в каждом запросе лежат одни и те-же заголовки. И если есть разница, то как определить нужный нам запрос?
@PythonToday
2 жыл бұрын
Благодарю за поддержку! Работа с каждым сайтом индивидуальна. Большинство тебе отдадут контент вообще без указания каких либо заголовком. Где-то нужен user-agent, где-то нужно указывать accept, т.к элементарно надо получить именно json ответ. По поводу "как определить нужный нам запрос", не понятно. Ты ведь к конкретной странице его совершаешь, так и смотри в network.
@aptz71883 жыл бұрын
Бро, запили видос про авторегер аккаунтов на каком либо сайте, где брать интернет запросы и как их повторить на питоне.
@user-pr7pt1tr3d8 ай бұрын
Спасибо огромное за уроки, очень понятно все...Пробую парсить сайт, попробовал все возможные способы, но с помощью request не достается весь код со страницы, а на странице нет api ссылки, вот не знаю как подобраться, все видео посмотрел...
@orthodox-chanel Жыл бұрын
в предыдущих уроках прриходилось гуглить и искать решения, потому что код сайта поменялся с момента как Вы отсняли ролик. Но в этом уроке наоборт сайт изменился в лучшую сторону и его можно спарсить через requests. Но я все равно повторяю пример с селениумом чтобы научиться. Кстати информация для таких же студентов как я: если сохранить страницу а потом удалить из нее все JavaScript элементы то можно без проблем просматривать ее содержимое и полезный контент. Я так понимаю через яваскрипт тут отключено отображение полезного контента. А если просто парсить без просмотра через BeautifulSoup то проблем не будет ведь JavaScript работает только в браузере.
@user-bv7xn8xq7b
11 ай бұрын
Подскажи пожалуйста, а как удалить джава скрипт из кода
@Hi-gjgruncdun5 ай бұрын
Качественные уроки, спасибо, а как ты выделяешь и комментируешь сразу несколько строк? Я когда пытаюсь так сделать, у меня просто одна решетка ставится, а код удаляется
@user-wk9dl9lu2t
3 ай бұрын
в Pycharm делается как Ctrl + / (перед эти выделив, что нужно закоментировать) и это надо делать в En раскладке
@said64342 жыл бұрын
а если у меня драйвер в формате exe я просто установил его? мне тогда просто указать путь до exe?
@sinsgames97583 жыл бұрын
Сделай тему про обход защиты cloudfire
@Fire_li_on_boost3 жыл бұрын
Давай след видос про авторизацию через гугл
@nyakakun33983 жыл бұрын
Спасибо! ;з
@PythonToday
3 жыл бұрын
Благодарю!
@nikitaku43r99 Жыл бұрын
3:27 подскажите почему не создает Html файл когда запускаю код, все сделал так же система Win 10
@software92563 жыл бұрын
есть сайт с которого надо инфу спарсить Но там стоит клауд а селением я так понимаю не проходит его?
@xed-legions22482 жыл бұрын
Можно видео где будешь решать капчу с помощью запросов, ну и какого то сервиса пример рукапча
@maovao3 жыл бұрын
Спасибо за уроки! Сейчас столкнулся с тем, что код сайта не совпадает с тем, что я получаю через requests. Полез смотреть этот урок. Скажите, пожалуйста, если при исследовании запросов я нашел запрос, который при открывании в новой вкладке дает следующий текст: "Error 1020 Access denied. What happened? This website is using a security service to protect itself from online attacks." Такую защиту простому новичку уже не обойти? Это сайт маркета с игровыми предметами. Хотел парсить нужные мне позиции и отслеживать цену.
@ibragiminc8741
2 жыл бұрын
используй proxy должно сработать
@user-bh5gt3ew9t3 жыл бұрын
смотрю на все это, мне это предстоит изучать. Страшно и интересно одновременно )
@PythonToday
3 жыл бұрын
Век живи - век учись. В программировании нужно учиться каждый день. Не важно деть, месяц или 20 лет пишешь код. Но возможности открываются безграничные.
@user-bh5gt3ew9t
3 жыл бұрын
@@PythonToday спасибо за добрые слова =)
@MajinTorankusu2 жыл бұрын
Не создаётся html файл в корне PyCharm, код выполняется а файла нет, подскажите куда копать
@cherevko07053 жыл бұрын
Большая просьба показать как можно спарсить конкретные данные уже из самого расширенного блока страницы к примеру продажи квартир, дата создания и редактирования и № телефона находятся в конкретной отдельной ссылке одного блока куда надо отдельно заходить. Как можно объединить поверхностный парсинг с инфой которую нужно достать через проход в углубленные ссылки данных !!!!
@mikalayvayavoda12492 жыл бұрын
Подскажите, а не сталкивались с выгрузкой, где есть псевдоклассы ::before например...никак не могу их обойти
@PythonToday
2 жыл бұрын
Да постоянно, а в чем проблема. Можно ведь шагать по элементам как хочешь. find_next, next_element, работа с parents и т.д, если мы говорим о BS
@peremysh2 жыл бұрын
котэ 1yoбывает! Спасибо за видео!
@PythonToday
2 жыл бұрын
Спасибо за фидбэк)
@romul233 жыл бұрын
Как отформатировали html на 3:30 что за хот-кей, подскажите пожалуйста
@PythonToday
3 жыл бұрын
ctrl + alt + L, касается не только html
@Katar1x2 жыл бұрын
Что делать, если не дает пройти аутентификацию через гугл, другую нет возможности использовать..
@daddy_eddy2 жыл бұрын
Спасибо большое! Хороший способ. Жаль, что до конца не показана вся работа в одном видео. Сайт-то не из простых. Ведь Вы спарсили только первые 100 ссылок. А хотелось бы посмотреть как спарсить все, а потом получить инфу по каждому отелю.
@Xelt-tc1zn
2 жыл бұрын
Чтобы парсить более 100 ссылок при помощи Selenium можно добавить блок While и прокликать: driver.get(url=url) time.sleep(5) while True: try: driver.find_element_by_id('rsrvme_hc_show_more_dv_a').click() time.sleep(5) except Exception: break
@Igor245390 Жыл бұрын
Привет, подскажите, как можно организовать поиск если нет классов, только теги, а нужная информация лежит в тегах , в них есть style=....
@user-er7dv7ej3i
10 ай бұрын
Через .find_next используя циклы
@krislars7145 Жыл бұрын
Видео класс! НО Вылезла ошибка: "AttributeError: 'options' object has no attribute 'set_preference'" Помогите решить
@orthodox-chanel Жыл бұрын
было бы хорошо показывать паралельно с уроками по парсингу другие полезные фишки питона. Например такие как односторчные генераторы или фильтрация по лямбда функции. Захотелось детально распарсить скачанные карточки(вытащить ссылки на фото, описание и тд) пришла идея сохранить такие данные как ссылки на фото в список а потом записать в json но получилось слишком нагроможденно, а потом вспомнились генераторы списков и функция фильтр
@orthodox-chanel
Жыл бұрын
galery = list(filter(lambda x: len(x) > 50, (photo.get('src') for photo in soup.findAll('img', class_='img')))) это сбор всех ссылок на фото из карточки отеля, фильтрация по длине меньше 50 потому что там много фото с логотипами и прочим мусором имеют длину до 48 символов.
@orthodox-chanel
Жыл бұрын
desccription_list = [desc.text.replace(' ','').replace(' ','') for desc in soup.find(class_='about-hotel__item').findAll('li', class_='about-hotel-list__item')]
@darksniper4073 жыл бұрын
Доброго времени суток Сам подобную решал за счёт одного селениума, именно при помощи get_attribute. Насколько бы тут работало, или лучше, но Вы тут тоже юзали селениум.
@PythonToday
3 жыл бұрын
Привет, не понял твоего вопроса
@darksniper407
3 жыл бұрын
@@PythonToday Это утверждение) По факту requests и bs4 для скрепинга не нужны, только селениум. Другое дело тестить API. Тут без requests никак.
@almartyn37342 жыл бұрын
В благодарность, напишу бота, который накрутит тебе лайки. Огромный респект.
@PythonToday
2 жыл бұрын
Спасибо конечно за респект. Для чего? Думай что говоришь, за такую благодарность, получишь бан
@DIM1710002 ай бұрын
selenium сохраняет пустой файл, в чем может быть причина ?
@ulfatkhalikov2 жыл бұрын
Класс!) Подскажи пожалуйста, как ставить массово комментарии через решетку?
@PythonToday
2 жыл бұрын
Благодарю за фидбэк! Если правильно тебя понял, то выделяешь текст и ctrl + /
@ulfatkhalikov
2 жыл бұрын
@@PythonToday Благодарю)
@joness_77319 ай бұрын
А где можно взять заказы?
@ruslanakhmetzyanov55038 ай бұрын
Подскажите, как можно запарсить яндекс дзен? вообще какую-то фигню выводит
@CumLee3 жыл бұрын
Какой редактор кода используете? Как называется?
@PythonToday
3 жыл бұрын
PyCharm
@CumLee
3 жыл бұрын
@@PythonToday Благодарочка)
@syracuse46122 жыл бұрын
у меня в файле html символы не понятные,как поменять метод шифрования?
@Xelt-tc1zn
2 жыл бұрын
В headers, оставь только 'user-agent', остальные параметры удали.
@user-fl2pc6ld4t Жыл бұрын
Добрый день, не получается скачать библиотеку с терминала подскажите что делать, пишет что 'pip' not recognized
@PythonToday
Жыл бұрын
Приветствую, думаю для начала нужно поставить сам pip если его нет
@user-co6bu9vy4w2 жыл бұрын
Ребята, помогите, пожалуйста, на 3:26 как из строки код привести в нормальный вид?
@RavCHICK1
Жыл бұрын
такой же вопрос
@user-ip6qt4ez9f8 ай бұрын
В headers в этот раз указано много вводных в отличие от прошлых примеров, с чем это связано , кто знает киньте ссылку на правила пл которым эти заглдовки нужно прописывать , я например вообще их не указал и данные с сайта вме равно получил без всяких банов.
@leoworker17522 жыл бұрын
То есть Selenium подгрузил весь HTML, в отличии от bs4?
@fidericofer14323 жыл бұрын
Есть библиотека типо Реквест только с поддержкой JS и она может как раз собирать Такие вот ссылки, я видел как ее использовали но у самого руки не дошли, хотелось бы увидеть примеры ее использования в виде гайда.
@PythonToday
3 жыл бұрын
И что за библиотека "с поддержкой JS"? Название напиши.
@fidericofer1432
3 жыл бұрын
@@PythonToday в том то и суть что я не помню названия, потому что сам не пользовался ей.
@laodj Жыл бұрын
Возможно у вас будет ошибка. Замените в try driver на driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
@zakirovio Жыл бұрын
Только прошел этот урок. Теперь оказывается не надо скачивать драйвер и ставить его в директорию потом в параметрах указывать путь. Сейчас скачивается библиотека webdriver-manager и все импортируется оттуда в проект. Объект driver = webdriver.Firefox(service=Service(GeckoDriverManager().install()))
@zakirovio
Жыл бұрын
Чтобы не передавать settings для маскировки браузера, существует модуль undetected_chromedriver
@user-np8ol2vm2b2 жыл бұрын
Всем Привет, у меня проблема в следующем : когда открывая файл index.html , вместо кода кваказябры какие-то) encoding="utf-8" не помогает( . Подскажите пожалуйста, автору спасибо огромное за его труд!
@PythonToday
Жыл бұрын
Спасибо за фидбэк! Думаю потому, что используешь Windows. Добавляй параметр encoding при работе с файлами, пробуй разные кодировки. Just google или почитай комментарии к видео
@PythonToday
Жыл бұрын
К первому по плейлисту в парсинге
@user-np8ol2vm2b
Жыл бұрын
@@PythonToday Спасибо, уже читал , но все равно не работает) Буду разбираться, или же психану и поставлю линукс))
@Eldos.zhanat
Жыл бұрын
Такая же проблема! Есть решение?
@Eldos.zhanat
Жыл бұрын
@@user-np8ol2vm2b не могу понять какую кодировку надо
@user-cy5vo4ck6f3 жыл бұрын
Сделайте так чтоб данные от парсинга шли в телеграм бота
@serobrine9 ай бұрын
Зачем сохранять страницу в файл и только потом ее парсить bs4, если можно парсить ее сразу средствами selenium без использования лишних библиотек и перезаписей файла?
@user-mw2co3wb9k2 жыл бұрын
У меня у одного отели не грузит?
@intellegetup6941 Жыл бұрын
11:47
@denruslife98452 жыл бұрын
Скажите а на windows это так же будет работать?
@Thallrasha
Жыл бұрын
С некоторыми корректировками да.
@denruslife9845
Жыл бұрын
@@Thallrasha скажите пожалуйста с какими корректировками?
@Thallrasha
Жыл бұрын
@@denruslife9845 В новой версии селениума немного по другому в веб драйвером надо работать(в документации есть поправки) и при сохранении- загрузке html файла надо указывать кодировку utf-8
@user-tg1lw9ux5i3 жыл бұрын
Сделай что нибудь с ВКонтакте , какой нибудь скрипт на что нибудь
@PythonToday
3 жыл бұрын
Есть же видео на канале. Правда до ума не довел пока