Парсим товары Ozon с помощью Python
Получаем данные о товарах в формате JSON.
С июня 2022 этот способ не работает, так как на сайте была установлена защита CloudFlare.
Поблагодарить и поддержать канал:
pay.cloudtips.ru/p/118e1f87
00:00:00 Как ozon подгружает данные
00:06:13 Отправляем запрос - получаем данные в формате json
00:08:25 Как искать нужный запрос с помощью *.HAR
00:13:00 Как из json вытащить нужные данные
00:26:00 Мудрый совет
00:29:13 Выгружаем данные в таблицу
Также в видео - два мудрых совета: как работать медленно, чтобы получать быстрые результаты и что должно быть "результатом" любой работы.
#ozon #парсинг
Ссылка на скрипт в видео:
gist.github.com/DxDiagDx/710a...
Телеграм-чат про парсинг:
t.me/proparsing
Для связи пишите:
Почта lukin@usota.ru
WhatsApp +79053311246
Telegram @lukin_ea
Профи.ру - profi.ru/profile/LukinEA8/
Пікірлер: 81
Евгений, спасибо! Очень нравятся видео на тему парсинга. Продолжайте в том же духе!
@usota
2 жыл бұрын
Спасибо ☺️
Спасибо за гайд! Будет полезно новичкам как урок для простого реверса
Спасибо большое за видео. Вы ответили на многие вопросы.
Супер! Было полезно, спасибо!
Очень круто, спасибо!!!
Ну хоть один человек сделал толковое видео
Тёзка, здравствуйте. Смотрю видео. Дошел до момента -Вступайте в чат- и вступил.))) 1 156 человек уже в чате. Начал парсить, вопросов куча. Уверен, там помогут. Почему уверен? У меня есть подобный чат по питону. Там всегда ребята помогут. Постебаются, как же без этого?! Но не со зла. Так, смеха ради. Но помогают. А тут еще и парсинг. Так сказать узконаправленный чат. Класс!
Добрый день, отличный контент у Вас, дико недооцененный канал ! Сделайте пожалуйста обучающее видео, как заполнить форму авторизации пост запросом, только не на простеньком сайте, а на каком нибудь популярном, потому что популярные сайты, ставят всякие препоны джаваскриптами и прочим, чтобы это было сделать сложно
спасибо
способ помог, обошел проверку ботов через undetected_chromedriver и сохранил страницу с запросом api как html и через lxml уже все распарсил и получил чистый json
@usota
10 ай бұрын
Отличное решение 👍
@user-gk1rn5lm6t
10 ай бұрын
Только undetected_chromedriver помог? без селениума совсем никак сейчас не распарсить?
@unknjown
10 ай бұрын
@@user-gk1rn5lm6t без селениума не получилось, так же пытался воспользоваться cloudscraper (requests) и увы не вышло
а сейчас есть рабочие варианты парсить отзывы с Ozon ?
в этом api запросе не нашел одного из самого главного - цены, кто-нибудь в курсе откуда ее вззять?
хорошо когда ты шаришь (( а я как баран на новые ворота ((
@usota
2 ай бұрын
Поверьте, я тоже знаю чуть больше 1%. Опыт приходит со временем.
Потратил несколько дней чтобы понять, что спарсить по этой методе не получится из-за cloudflare , а потом прочёл описание к видео
@usota
Жыл бұрын
Да, в парсинге постоянно всё меняется. Но это хорошая новость - без работы не останемся )
@user-jw7ki8gv8r
Жыл бұрын
@@usota ждём видео как обойти))
@usota
Жыл бұрын
Любое видео по selenium
А как сделать так, чтобы скачивать инфу по множеству товаров? И ещё Просьба ответить какой редактор json вы используете, а то на видео не очень понятно. Вс, это вижуал студию?
@usota
2 жыл бұрын
Да, VS Code.
@dmitriivanov7010
2 жыл бұрын
@@usota Евгений, спасибо большое за ответ. А есть ли какой-то простой алгоритм парсить json сразу множества товаров. Ну например по товарной группе.
@usota
2 жыл бұрын
Да, алгоритм такой же. Открываем товарную группу и смотрим, по какому запросу отдаётся список товаров.
У меня получилось, только я использовал react js никакую защиту не обходил для работы с api использовал axios
какие плагины вы додавали?
@usota
Жыл бұрын
Не понял вопрос, уточните?
На 7:52 выдает ошибку requests.exceptions.JSONDecodeError: Expecting value: line 1 column 1 (char 0)
@usota
Жыл бұрын
Этот парсер уже не актуален, причина - в описании. Соответственно, ничего не получив, парсер и выдаёт ошибку)
подскажите плиз, а если я не вижу значка как у Вас поиск, а только масштаб, что делать? 3:58
@usota
Жыл бұрын
Немного не понял вопрос… Окно поиска я вызываю комбинацией клавиш Ctrl + F
@WrldsporteventsR.Y..V.1992
Жыл бұрын
@@usota хотел узнать как вызывать окно поиска, благодарю!
@usota
Жыл бұрын
В консоли есть иконка фильтра
Добрый день, скрипт до сих пор актуален? Не удается спарсить таким образом на php curl.
@usota
10 ай бұрын
Прямым запросом уже не получится, сайт обнаруживает скрипт.
@user-pr7oh2fq5l
10 ай бұрын
@@usota спасибо за ответ, есть ли выход?
@usota
10 ай бұрын
К сожалению, в php не знаю. Но мы разбирали этот вопрос в нашем чате t.me/proparsing
@user-pr7oh2fq5l
10 ай бұрын
@@usota большое спасибо!
Скачал pycharm, установил requests, повторил все в точности по видео - получаю ошибку 1, в тексте ошибки вижу в начале просьбу включить javascript, а дальше по тексту вступает cloudflare и просит ввести капчу что нужно сделать/установить/настроить, чтобы повторить тот же самый код, что и у вас на видео (на момент получения сырого json в принте в первой трети видео), чтобы все заработало?
@usota
2 жыл бұрын
Код из видео ещё не знал про блокировку, поэтому нужно доработать, может попробовать Селениум
@MarkTheCat
2 жыл бұрын
@@usota то есть с момента записи и публикации видео Озон принял меры против парсинга?
@usota
2 жыл бұрын
Да, с 19 мая по моим ощущениям
@MarkTheCat
2 жыл бұрын
@@usota ждём от вас новый видеоурок 😁
@usota
2 жыл бұрын
Будем разбираться ) Если будут идеи или другие вопросы - пишите в чат по парсингу, там обсуждаем эту тему.
Парсинг одного товара - это конечно круто. Но если мне нужно спарсить категорию. А там нужен поиск товаров. Список адресов. Это уже все реально сложнее.
Только присоединился к каналу, но пробежал глазами по каналу и немного посмотрел. А нету видео где происходит парсинг двух и более сайтов в одном скрипте?
@usota
2 жыл бұрын
Даже не представляю, когда это может потребоваться. Приведите пример задачи?
@user-re4pu5sy4u
2 жыл бұрын
@@usota в моем случае поиск работы по стране (не РФ) так как отсуствует общий агрегатор и присутствует большое количество сайтов представляющие вакансии. Фактически они однообразные по структуре.
@usota
2 жыл бұрын
У меня много похожих проектов, но все делаю по одной схеме - под каждый сайт свой парсер с единой базой данных. Так проще обслуживать парсеры. А ломаются они регулярно )
@usota
2 жыл бұрын
Сделайте свой агрегатор 😁
@HyiPizdaSkovoroda
Жыл бұрын
@@usotaнапример агрегатор ставок букмекерских контор, - вилочники за это готовы платить гигантские деньги ))
так понимаю такими рода запросами не получится пользоваться - озон быстро забанит либо капчу выставит
@usota
2 ай бұрын
Да, этот способ уже не актуальный.
The Mezanam
маякните как будет найдено какое-то решение против блокировки
@usota
Жыл бұрын
У нас в телеграм-чате есть варианты решений, ссылка есть в описании, присоединяйтесь
А выйдет видео о том, как обойти эту защиту cloudflare ?
@usota
Жыл бұрын
Я думаю не будет. В таких случаях остаётся использовать Селениум. А по селениуму полно видео уже снято, вряд ли я сделаю лучше.
@rolandwalker4434
Жыл бұрын
@@usota Наверное вы правы, спасибо за ответ
@user-xu8ti4zl3n
11 ай бұрын
@@usota cloufare не обходится sileniumom
@usota
11 ай бұрын
Возможно вы правы.
не работает почему-то 7:50.
@usota
Жыл бұрын
Да, в описании добавил об этом инфо
@WrldsporteventsR.Y..V.1992
Жыл бұрын
@@usota ааа, ок!
В данный момент данный способ не работает
@usota
Жыл бұрын
Да, верно - с июня 2022 года сайт защитил доступ к api с помощью CloudFlare.
@usota
Жыл бұрын
Отличная идея, спасибо 🙏
Ну хоть один человек сделай толковое видео
вся суть парсинга сводится к тому, как на этом потом легально заработать иначе это хобби
@usota
2 ай бұрын
Разве парсинг - это нелегально?
@canal-bx8wr
2 ай бұрын
@@usota сам парсинг нет, а вот использование того, что вы собрали в коммерческих целях - уже совсем другое. одно дело, если вы риэлтор, и собрали для себя свежую инфу автоматически, а если вы это завернули в проект, и продаете базу многим клиентам - это уже вам юристы гигантов объяснят. С авторскими правами і тд. Они живут с платных услуг, которые вы у них отбираете. Но все зависит от ваших юристов). Если наложат арест на ваше имущество на время рассмотрения в суде, и не будут никуда спешить. Вам это не понравится. именно по этому он серый))) и лучше делать это не публично. И именно поэтому парсеры только парсят, и дальше не идут(или говорят что не идут). Как и вся муть в телеграм каналах ведь уголовно не наказуемая. Пока вы понемногу стрижете пассивных пользователей. Но когда потери будут у гигантов, сразу найдутся инструменты познакомится с вами)) тоже с серого инструментария.. А дальше у кого шары прочнее. Не каждый умный айтишник - морально крепкий айтишник). Особенно если о нем много информации и рычагов влияния. Или поработаете на дядю на его условиях, если вы хороший спец)). Сейчас люди пропадают даже на высоких должностях, а какого там айтишника удалить не сложно. Или идти в паблик максимально. Но паблик не про парсинг. Там вашим действиям понимания не будет. А если еще подсветят типа "из-за ваших действий сайт лежал 2 дня", ищите где это опровергнуть(на такую же аудиторию).
@usota
2 ай бұрын
@canal-bx8wr вы правы на 100%. Я к тому, что парсинг - это легально. Использовать данные парсинга в коммерческих целях - тоже легально, если все стороны согласны, как например поставщик, который предоставляет данные по API, например тот же Озон для своих селлеров. Парсинг - это обычный легальный бизнес, как и фермерство. Просто нужно знать, какие растения можно сажать, а от выращивания, обработки и продажи каких лучше отказаться. Спасибо за развернутый комментарий. Не понял только про паблик. Что значит идти в паблик максимально?
@canal-bx8wr
2 ай бұрын
@@usota то что поставщик сам дает - это понятно, это детский сад)) но вот если поставщик тратит на защиту от другого парсинга огромные средства, а его данные продают - это уже не хорошо) И за это по рукам дают. И если пришли уже по бесприделу (не спрашивая законен ли ваш парсинг или нет) - иногда публичность может откатить назад подобный наезд. Или вас по тихому закроют, и об этом никто не узнает. Но для этого нужны независимые СМИ.