Парсинг сайтов Scrapy Python. (CrawlSpider) + Xpath + Сохранение в CSV. За 40 минут

preview_player
Показать описание
Друзья, данное видео посвящено замечательному решению для парсинга framework Scrapy. Постарался записать максимально простое и короткое видео в котором передал все основные моменты, чтобы вы могли использовать данный инструмент в своей работе.

Освой парсинг за 1 ЧАС!

Старт проекта
----------------------------------------------------------------------------------------
scrapy startproject название проекта

cd /адрес до папки с пауком

scrapy genspider название домен с названием

scrapy crawl название паука
-------------------------------------------------------------------------------------

Самый простой и понятный из пауков CrawlSpider

Задается так: class ...........(CrawlSpider):

------------------------------------------------------------------------------------
rules = (

)
Пример кода для обхода одной категории. С вырезанием из обхода лишних страниц.

Для выгрузки в нужный формат полей после завершения парсинга

FEED_EXPORT_ENCODING= "utf-8"
FEED_EXPORT_FIELDS = ['product_url', 'Seria','title', 'model', 'meta_title', 'meta_description', 'main_h1','color', 'glass', 'vstavka', 'cromka', 'product_text', 'product_corb', 'product_coplect', 'images']
FEED_FORMAT="json" # формат файла для вывода данных(json, csv, xml)

#FEED_FORMAT="csv" # формат файла для вывода данных(json, csv, xml)

скачка картинок

ITEM_PIPELINES = {
}
IMAGES_STORE = 'images'

Краткий мануал по XPATH

XPATH

// - везде
/ - внутри
./ - напрямую в элементе
. - текущий тег
.. - родительский тег

@ - классы и параметры

Предикаты

[1] - выбираем первый элемент
[last()] - выбираем последний элемент
[last()-1] - выбираем предпоследний элемент

Подписывайтесь на канал и нажмите на колокольчик, чтобы получать уведомления о новых видео

-----------------------------------------------------------------------------------------------------------------
Скайп для консультаций: ▶ zullbatol1
---------------------------------------------------------------------------------------------------------------------------

🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥
Поддержать канал webmoney: 324321417557
🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥

#продвижениесайтов #онлайнбизнес #раскруткавинтернете #обучениеseo #оптимизациясайтов #заработокнасайтах #seoдлябизнеса #СергейБондаревSEO #каналыпродаждлясайта #оптимизацияконтента #наполнениесайтов #интернет_маркетинг_блог
Рекомендации по теме
Комментарии
Автор

Я довольно долго пропадал, 1.4 недели меня не было. Зависал с изучением pandas и scrapy. Сейчас делаю парсинг для большого сайта. Решил записать туториал, т.к. внятной и быстрой инфы при обучении не нашел в должном объёме.

SergeiBondarev-seo
Автор

Мое уважение, Сергей, очень помогли!

chess_hero
Автор

"цд команда для перехода" сразу виден уровень)

spyphyfarnsworth
Автор

У Вас тоже как и у меня сложности с придумыванием названии😁. Отличное видео, спасибо!

ТаалайбекУтуров
Автор

return не старая команда, она просто по другому применяется. yield просто возвращает генератор.

vitalij
Автор

Добрый день! Спасибо, отличное видео! Все очень подробно и доступно. Если есть у Вас такой опыт, подскажите как подвязать Splash (что прописать?) для данного метода если сайт с javascript. P.S. Scrapy-Splash уже подключен

emindergazz
Автор

Scrapy не основан на Django. Вообще даже и близко. Scrapy работает на базе twisted.

dmmeteo
Автор

Сергей, может выложить полный код парсинга ?

Yuri-wkrk
Автор

gen spidr я с этого момента чуть не умер

nikitakur
Автор

Не понял почему домен пишется в таком виде Разве нельзя в обычном виде написать? Как найти этот сайт?

niks
Автор

привет, какой курс может посоветовать по scrapy? и курсы английского?)

vladimir
Автор

Есть мы alloy пустым оставим, он везде будет ходить или нигде ?

coolbrain
Автор

Не понятно про RULES. /profnastil, 'index.php и прочее - это что? куски URL на которые паук не будет заходить? Или тэги в документе?

coolbrain
Автор

С момента опубликования видео прошло 11 месяцев. Естественно повторить, проверить на практике парсинг не удалось (сайт изменился или ошибки). Есть ли рабочие примеры?

garrig
Автор

Ругается на строчку from newparce_project.items import Product. Все изменила везде, но пишет Unresolved reference 'newpace_project' и Unresolved reference 'Product'

kseniador_art
Автор

Как сохранить полученные данные в базу данных? Как разместить Scrapy на хостинге? Как интегрировать Scrapy + Django?

OleksiiHotven
Автор

Добрый день. Выдает ошибку: ModuleNotFoundError: No module named 'parsing.settings'
И не могу понять, что не так с items и Product в импорте, их подчеркивает как ошибку..( Может кто-то подскажет в чем проблем?!

АннаСкрипник-ьз
Автор

ты б хоть сайт показывал где что берешь и как

fqtqrbg
Автор

У меня кровь с ушей капает когда я слышу что то вроде итаймс или рулес))

TheJonvish