Как создать парсер сайтов на языке Python [GeekBrains]

preview_player
Показать описание

Парсинг - это процесс поиска определенной информации в большом фрагменте текста, а также разбиение полученных данных на смысловые части. Под парсером же подразумевается скрипт, используемый для автоматического сбора информации со страниц сайта и предоставления ее пользователю в структурированном виде.

Создание парсера актуально в тех случаях, когда стоит задача извлечь и структурировать данные из большого количества страниц, когда ручная обработка данных практически невозможна или требует колоссальных затрат человеческих ресурсов. Также парсеры очень полезны, когда данные необходимо извлекать часто и оперативно. Примером таких данных являются курсы валют и погода.
На этом вебинаре вы научитесь создавать простой, но мощный парсер на языке Python при помощи встроенной библиотеки urllib и сторонней cssselect.
Ваш парсер будет обходить страницы сайта, извлекая нужную информацию из html-кода сайта по css-пути и выводить ее для пользователя в удобном структурированном виде в Excel-файл.

В программе вебинара:
- Создание типовой Python-программы и получение входных данных из консоли;
- Создание виртуального окружения Python (venv);
- Установка библиотек в виртуальное окружение;
- Последовательный обход и загрузка страниц и изображений при помощи urllib;
- Вывод полученных данных в Excel-файл.

#парсерсайтов #pythonпрограммы #программированиеpython #geekbrains #программирование #курсыпрограммирования
Рекомендации по теме
Комментарии
Автор

Блин, невероятно МЕЕЕЕЕДЛЕЕЕННННННООО.
Чувак, сконцентрируйся и говори связно и только по делу.

retiber
Автор

Первый практический курс от GeekBrains. Супер у меня всё получилось даже для своего выбраного сайта!)

romanbush
Автор

Можно ли данным способом спарсить ВКонтакте?

АлексейЗайцев-бл
Автор

Звук идет а видео тормозит...А так норм.После танцев с бубнами на 2 день получилось создать окружение и начать парсить)

romantashev
Автор

Если вы новичок как и я
И у вас проблемы с установкой lxml через pip на винде, то погуглите 
Unofficial Windows Binaries for Python Extension Packages
а там уже поищите lxml
и как устанавливать "колеса" для python

iskusyuka
Автор

у меня не сработало urlopn
ы чем может быть причина ?

fioletfiolet
Автор

Код:
f = urlopen(URL)
list_item = f.read().decode('utf-8')
print(list_item)

 пишет ошибку

 File "C:\Python34\lib\encodings\cp866.py", line 19, in encode
return codecs.charmap_encode(input, self.errors, encoding_map)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\xa9' in position 26
635: character maps to <undefined>

Подскажите, плиз, как исправить?

nt
Автор

Исходника ни у кого не осталось?
Ругается на desc_elem =
Говорит, что IndexError: list index out of range

TheSovietCitizen
Автор

Здорово, а где посмотреть  то же самое только про

Gog-iz-Magog
Автор

код где? ) гитхабчик там и т.п. ) все, кто хочет в гикбрейнс, придут и без шантажа )

Giopff
Автор

Код автор выложил тут dpaste.com/33905MJ но его там уже нету. Предлагаю выкладывать на Pastebin

SS-quvf
Автор

ну и вопросы в конференции )) Автор а правда чем граб то не угодил ?

ЕвгенийЛитвиненко-зк
Автор

нихрена не понял, как будто за 10 минут, до, сказали "ЭЙ чувак ты ведешь вебинар!" -"Окай" и пошел импровизировать...

JeyP
Автор

Во время просмотра читал чат))), народ вы в своем уме? Какая разница в какой системе писать на Python? Какое отсутствие библиотек? Вы вообще о чем? Пишите где хотите, под все популярные ОС есть все необходимое, не пугайте народ ерундой!!! Установка в Windows ничем не отличается от таковой в Linux or MacOS, за исключением указания жесткого пути установленных данных, указывается во время установки. Во всех ОС установка пакетов делается прям из среды разработки, ну или если вы совсем упоротые, то из cmd. pip install "название пакета" - все, ничего нового вы ни в одной системе не найдете!!!! Про отладку вообще молчу))). Сразу видно писал профи)))! Во всех более - менее нормальных средах используют встроенные дебагеры!!!! Народ изучайте ПО на котором работаете!!!

makgeer