Всегда проверяйте наличие скрытого API при парсинге сайтов

preview_player
Показать описание

Бывало ли у вас такое, что при парсинге сайтов вы не могли достать тот контент, который отображается на странице? Часто это говорит о том, что данные рендерятся через JS.

Поэтому в таких ситуациях многие предпочитают использовать Selenium, чтобы имитировать поведение пользователя. Но что если я вам скажу, что вы можете найти скрытый API сайта и избежать использования таких инструментов как Селениум?

В этом видео я покажу как искать зацепки на сайтах, и как использовать Insomnia для проверки запросов. Мы научимся находить чистые данные, которые отдает сервер, прежде чем JS проведет над ними свои манипуляции.

Тайм-коды:
0:00 - Почему важно знать этот способ?
1:13 - Ищем способ автоматизации сайта с Insomnia
5:49 - Как узнать что сайт хранит данные локально?
7:53 - Ищем скрытый API сайта с Insomnia
Рекомендации по теме
Комментарии
Автор

Конечно, боо! Даёшь парсинг без нагрузки.
Спасибо за твой труд

antonvorobiev
Автор

Здравствуйте. Благодарю. Жду следующее обещанное видео. Вы супер!

TheRindzinnew
Автор

Супер 👍 Очень вовремя. Как раз столкнулся с проблемой получения данных с сайта букмекера . На странице данные есть, а в json из нет. Спасибо, буду пробовать.

Keefear
Автор

Привет, сделай видео про кастомизацию Arch, твой Arch очень красиво выглядит

Developing-ozmy
Автор

очень полезно. понял, что не нужно отказываться от платного курса, что в хтмле может быть вся инфа, что прокси очень нужен непонятно нахера, и что сайт можно парсить с помощью запросов.
большое спасибо приду ещё дверь за мной не закрывайте

AnShyv
Автор

Месяц назад делал парсинг сайта, HTML которого полностью реализован на JS.
Вы мне помогли, оказалось не сложно :)

II__II
Автор

Ахаха, на работе как раз таки и использовал апи для парсинга вб. Легко, удобно!

mubgyqn
Автор

Очень полезно. Спасибо тебе за контент!
Тот момент, когда видео надо смотреть с уменьшением скорости😅

mikhailtim
Автор

уважаемый бро, инфа касающаяся поиска скрытого апи актуальна, но чесно говоря я мало что понял, всё как то быстро и сумбурно

nqyhrew
Автор

в конце видео где вы показываете скрытый апи сайтов, примерное на 10:30 минуте вы показываете как использовать апи чужого сайта. я хотел спросить, а законно ли это и могут ли за такое как-то заблокировать запросы с определенного сервера (в данном случае моего сервера)? по факту я нашел сайт на котором я нашел пост запросы и там не нужна авторизация могу ли я пользоваться этим апи или это чревато тем, что когда-то они его закроют и мое приложение крашнется, хотя по факту может крашнутся и парсинг страниц, если их допустим парсить через puppeteer.

konstantin.ostapuk
Автор

Я уснул на этом видео, когда проснулся, меня выселили с моей квартиры ( а видео классное, кстати )

result_
Автор

Парсинг без нагрузки интересует! Жду с нетерпением!!!

aleksandrkovtun
Автор

что-то никак не могу понять, что за программа используется для отладки запросов и дальнейшей генерации кода... ?

pbadun
Автор

Какой линукс ты используешь и какое окружение? Можно ли сделать такое де рабочее оформление как у тебя?

Saburvan
Автор

а если api защищено и не дает данные, если делать запросы не через сайт, то как тут быть?

alekseyshabalin
Автор

А какой браузер использовали в видео?

darkmil
Автор

Добрый день. А что делать если сайт монолитный? те работает без апишек?

aralbaev
Автор

Я тут на днях сталкивался. Нужно было буржуйский сайт спарсить.
Прикол в том, что есть запросы через js. Но ответы в формате HTML. HTML вставляется на страницу с небольшими доработками через js.
Неудобно, но за-то не потребовался селениум
А второй момент: страницы с сылками парсятся scrapy, но пройти по ссылкам и скачать файл csv не получается. Защита.
Но оказалось, что ссылка на скачивание файла - динамическая. И данные можно получить из ссылки первого прохода.
Резюмирую. Нет какого-то готового ответа. Каждый сайт который требуется спарсить, требует индивидуального подхода.

AlexandrSpirit
Автор

бро подскажи плиз, есть ли такое кумулятивное видео, в котором есть все основы для парсинга сайта (не программирование, а именно архитектура)

horzjxx
Автор

Подскажите, пожалуйста, почему не получается получить post ответ от сайта, выдает ошибку requests.exceptions.SSLError

tgokntq