Парсинг простых сайтов на Python: BeautifulSoup, requests

preview_player
Показать описание
В этом видео я покажу как можно собрать информацию с простых сайтов с помощью BeautifulSoup и requests, писать будем как всегда на Python.
BeautifulSoup - это замечательная библиотека, которая значительно ускоряет и упрощает сбор данных, те кто занимаются парсингом просто обязаны уметь ею пользоваться

Исходный код:

Купон на скидку: SdSq8wCwJA

Купон для скидки: EYvdLcmgSy4tUcBP5uk

Поддержать канал:
или
2204 1201 0103 5539

00:00 Вступление
01:25 Что такое BeautifulSoup
02:00 Изучаем сайт для парсинга
03:03 Установка зависимостей
04:17 Пишем код
24:44 Итоговый запуск

#python #parsing #scraping #request #html #интернетмагазин #beautifulsoup #парсинг
Рекомендации по теме
Комментарии
Автор

Спасибо за полезный контент, учусь по твоим видео, про датаклассы очень информация помогла!)

ldyuuyv
Автор

доброго времени суток!
Подписан и посмотрел почти все видео с канала!Очень информативно и доходчиво даже для нубов подобных мне)
Спасибо за ваш труд!

rostikkigi
Автор

начал изучать парсинг, жёстко тупил и путался из-за не структуированного и как попало написанного кода, щас увидел твою структуру и всё резко стало понятно и просто, парсинг это работа с многочисленным количеством разных данных, чтобы не запутаться чуть ли не обязательно нужно писать структуированный код, в принпице во всём программировании структуированный код - понятный код

DayZDrag
Автор

Спасибо большое за годный видос! С bs4 знаком, но всё равно что-то полезное находится 👍

Vladimir_F
Автор

Супер информативное видео. Хорошая работа

ON-ieib
Автор

Подписан. Прокомментирую для продвижения канала.
В отличие от широкого ряда других авторов каналов на подобные темы, понятная подача материала.
В принципе даже для меня, далеко не молодого человека, в том случае, если многократно повторю действие и буду одновременно его проговаривать, есть шанс понять происходящее, саму логику написания программ, которые способны последовательно осуществлять действия и даже вдумчиво и с толком запустить тот парсер, который нужен. Выбрать-бы ещё время для этого.

BorisVP
Автор

Полезное видео, странно что просмотров мало. Баловался с парсером полгода назад, основная проблема(я новичок) когда я циклом обходил каждую ссылку на товар и тянул данные, то не смог настроить скрипт так, чтобы эти данные последовательно записывались в эксель файл😢

abc_chess
Автор

в целом соблюдая логику видео, и использую другой раздел сайта все получилось реализовать без не решаемых проблем.
занимаюсь питоном по 4 каналам параллельно, за 1.5 месяца по выходным ( 40% месяца по 4-5 часов) свитчер 36 лет. дошел до ооп, решил сделать парсер как подведение итогов по функциональному. Спасибо автору.
1 замечание - перед началом подобного видео указывайте настройки исходной среды. на разных версиях продуктов или не скачанных надстройках, типа lxml, могут быть проблемы

fvwzhdl
Автор

Спасибо тебе огромное, очень понятно объясняешь, продолжай радовать контентом)))

P. S: а можешь рассказать про динамический парсинг? (В экселе так можно) и про применение, например как создать файл, для обученмя бесплаиной модели? Как можно динамически парсить различные данные в этот файл что бы модель автоматически дообучалась? Возможно ли это? Было бы очень интерестно, так как тебя понятно воспринимать и слушать

kostyanmsk
Автор

сайт очень добрый к парсингу, редкость такое

Chelk
Автор

сделай пожалуйста видео на нажатие динамических кнопок playwright. которые меняются при наводке курсором

EarnDevison
Автор

Видео супер! Спасибо!
Обратите внимание, что когда открывает получившийся файл на 16:35, внизу вкладка data и вот в ней всё в столбцах.
У меня открылось в первой вкладке text, голову ломал что не так сделал.

rikenbaker
Автор

16:40
Судя по информации из "Инспектора" браузера, лучшим решением для проверки, наверное всё-же явилось-бы, считывать информацию о количестве товаров из атрибутов, которые доступны:
<a href="ссылка">Раковины</a>
<span
Так на сегодня "раковин" 581, в то время, как на момент съёмки видео их было 587.
При этом возможно считать заведомо ложным утверждение о том, что когда-то товаров под каталожным названием "Раковины", не станет больше 587 (пятисот восьмидесяти семи). То есть проверка количества по атрибутам, наверное всё-же более правильное решение для автоматизации задачи, в том случае, если сама задача не разовая.

BorisVP
Автор

Крутой видос! А что если у нужного нам тега класс не с читаемым названием (div, class_='product-card'), а например такой какой-нибудь? 'col-lg-3 col-md-4 col-sm-6 col-xs-6 col-xxs-12 item item-parent catalog-block-view__item js-notice-block item_block'. Как быть?

maxd.
Автор

При открытии полученного файла кодировки пайчарма спрашивают что выбрать, при открытии файла в текст выдаются ошибки, какую кодировку стоит использовать? пишет что .csv только на проф версии пайчарма, есть вариация чем корректно его открыть в среде пайчарм без проф версии?

fvwzhdl
Автор

Паршу 2 сайта для сравнение цен, где лучше сохранять данние для сравнения (json, sqlite) или в чем?

Tribunall
Автор

Добрый день! Не поможете советом? Мне нужно спарсить из интернет магазина все товары, которые там есть. Я так понимаю requests + bs4 в этом случае лучший вариант по скорости и удобству? И еще вопрос по поводу блокировки бота, она же возможна, ее как-то можно избежать? Может быть вы имели подобный опыт или есть совет, как это лучше реализовать?

ru
Автор

Добрый день!
при наборе: sku = product.find("span",

print(sku), и после запуска программы выдает ошибку : sku = product.find("span",
AttributeError: 'NoneType' object has no attribute 'text'
скажите пожайлуста что не так?

millera
Автор

сделай пж видео о том как пройти recaptcha v2 callback на selenium

Andriyklm
Автор

Привет, можешь сделать инструкцию, как получать har файлы со траниц с помощью playwright? Еще можно browsermob + selenium разобрать, но мне кажется это уже устаревающая связка

AnimationLook