🤗 Парсим Озон.Ру. Мини проект. Мини курс. Сохраняем в Excel

preview_player
Показать описание
Мини-проект или даже миникурс, о том как можно запарсить данные с вебстраницы на примере озон.ру.

В видео рассмотрены моменты:
1. Использование BeautifulSoup4
2. Selenium
3. Requests
4. Pandas
5. Работа s html
6. Обработка полученных данных
7. Выгрузка в Excel

Timeline:

0:00 Вступление
7:51 Применение requests
11:35 применение requests для озон.ру
19:15 Cookies
22:15 Применение webdriver Selenium
33:13 Ожидание загрузки страницы
33:43 Ньюанс формирования страницы
39:55 Скачивание страницы
54:21 Обработка полученных данных (разьяснение)
1:01:26 Получение бонусов
1:06:54 Получение названия товара
1:08:43 Получение картинки предпросмотра
1:10:52 Получение всех картинок товара
1:19:34 Получение опций товара
1:26:30 Получение цены товара
1:31:51 Подключаем Pandas для работы с табличными данными
1:32:25 Создаем таблицу на основе полученных данных
1:33:35 Создаем новые признаки на основе полученных опций
1:38:08 Заполняем признаки опций данными
1:41:06 Сохраняем данные в xls
1:43:23 Опции браузера в webdriver
1:44:41 Заключение

на гите:

#programming #python #webscraping #webscraper
Рекомендации по теме
Комментарии
Автор

Красаучык! Бодро и по существу квест. Отличная подача

denissavast
Автор

Посмотрел начало - довольно увлекательно получилось)

nnutipa
Автор

Автор молодец, контент - пушка!!! Еще видосов по парсингу!!!

CybrFake
Автор

Добрый день, очень полезное видео для знакомства с Selenuim. Возникло предположение откуда появляются пустые <div></div> на 59 минуте видео. Скорее всего это связано с тем, что часть товара озон подгружается динамически, то есть после того как мы переходим по url и забираем данные, некоторые товары просто не погружаются, та как нет имитации скролинга мыши, которая служит ендпоинтом на выгрузку остальной части товаров на этой страницы. И это на самом деле проблема, так как можем терять большое кол-во данных из-за этого)

popcon
Автор

Я домохозяйка, поняла только слова Прекрасный Суп и Библиотека, ну еще Питонов в жизни видела, остальное непонятно. Всё-таки не для всех понятно вы рассказали 🤣🤣🤣

ToNNaG
Автор

Здравствуйте. Я изучал парсинг сайта озона по вашему видео и наткнулся на вот эту ошибку:
AttributeError Traceback (most recent call last)
Cell 12 line 1
14 items_body = soup.find('div', id = 'paginatorContent')
15 # переходим на нужные теги
---> 16 items = items_body.div.div
17 # парсим данные
18 func_parse(items=items)
AttributeError: 'NoneType' object has no attribute 'div'

Не могли бы вы мне объяснить в чем ошибка, просто я уже третий день ломаю голову и никак не могу понять в чем проблема (вроде все правильно, все как в видео). Заранее спасибо за ответ :)

becarefull
Автор

уважаемый бро, увлекаюсь парсингом на python , дошел до парсинга крупных интернет магазинов, отличный контент, всё грамотно, но парлельно задался вопросом, на сколько это законно? слышал такое что если парсить озон для себя то вроде как можно, а если в комерческих целях то почему то нельзя? решил поинтересоваться у тебя, в гугле информация очень размыта, может ты более осведомлен в таких вопросах? с меня вечная подписка и лайки до конца жизни)

nqyhrew
Автор

Я так понимаю вы только изучаете питон или имели какой-то опыт в разработке?

seduelgames
Автор

привет, сможете написать парсер на озон?

ami_nolove
Автор

Если интересно. То вот еще одна задача, которую не смог решить. Я написал авторег ПРОтонМейл на Селениуме. Юзал Undetctd Chromedriver, менял Юзер-Агент, подключен ВПН с трастовыми айпишниками.

Подразумевалось, что сайт выдаст мне хКаптча и я решу её через Капмонстер, но сайт даже каптчу не выдаёт, сходу требует резервную почту и через неё регать. При этом если просто зайти как человек и начать регать через обычный Хром, то Каптча есть и всё ок. То есть срабатывает какая-то АнтиФрод система всё равно на софт.

ВОПРОС: Как сайт палит софт, и как обойти эту АнтиФрод систему, чтобы автоматизировать Регу аккаунтов. Не факт, что Ютуб вообще пропустит такое видео, но может в формате стрима даже как-нибудь провести.

ramzbew
Автор

пытаюсь повторить, использую river = webdriver.Firefox(options=firefox_options), получаю ошибку:

Traceback (most recent call last):
File "D:\Projects_Python\parse_ozon\step_4.py", line 190, in <module>
source_text =

File "D:\Projects_Python\parse_ozon\step_4.py", line 91, in pageOpen

File "D:\Projects_Python\parse_ozon\venv\Lib\site-packages\selenium\webdriver\remote\webdriver.py", line 636, in add_cookie
self.execute(Command.ADD_COOKIE, {"cookie": cookie_dict})
File "D:\Projects_Python\parse_ozon\venv\Lib\site-packages\selenium\webdriver\remote\webdriver.py", line 347, in execute

File "D:\Projects_Python\parse_ozon\venv\Lib\site-packages\selenium\webdriver\remote\errorhandler.py", line 229, in check_response
raise exception_class(message, screen, stacktrace)
Message: Document is cookie-averse
Stacktrace:

куки взял свои со страницы, что не так с добавлением куки в драйвер?

valeriyemelyanov