Парсинг сайтов Scrapy Python. (CrawlSpider) + Xpath + Сохранение в CSV. За 40 минут

Показать описание

Друзья, данное видео посвящено замечательному решению для парсинга framework Scrapy. Постарался записать максимально простое и короткое видео в котором передал все основные моменты, чтобы вы могли использовать данный инструмент в своей работе.

Освой парсинг за 1 ЧАС!

Старт проекта
----------------------------------------------------------------------------------------
scrapy startproject название проекта

cd /адрес до папки с пауком

scrapy genspider название домен с названием

scrapy crawl название паука
-------------------------------------------------------------------------------------

Самый простой и понятный из пауков CrawlSpider

Задается так: class ...........(CrawlSpider):

------------------------------------------------------------------------------------
rules = (

)
Пример кода для обхода одной категории. С вырезанием из обхода лишних страниц.

Для выгрузки в нужный формат полей после завершения парсинга

FEED_EXPORT_ENCODING= "utf-8"
FEED_EXPORT_FIELDS = ['product_url', 'Seria','title', 'model', 'meta_title', 'meta_description', 'main_h1','color', 'glass', 'vstavka', 'cromka', 'product_text', 'product_corb', 'product_coplect', 'images']
FEED_FORMAT="json" # формат файла для вывода данных(json, csv, xml)

#FEED_FORMAT="csv" # формат файла для вывода данных(json, csv, xml)

скачка картинок

ITEM_PIPELINES = {
}
IMAGES_STORE = 'images'

Краткий мануал по XPATH

XPATH

// - везде
/ - внутри
./ - напрямую в элементе
. - текущий тег
.. - родительский тег

@ - классы и параметры

Предикаты

[1] - выбираем первый элемент
[last()] - выбираем последний элемент
[last()-1] - выбираем предпоследний элемент

Подписывайтесь на канал и нажмите на колокольчик, чтобы получать уведомления о новых видео

-----------------------------------------------------------------------------------------------------------------
Скайп для консультаций: ▶ zullbatol1
---------------------------------------------------------------------------------------------------------------------------

🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥
Поддержать канал webmoney: 324321417557
🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥

#продвижениесайтов #онлайнбизнес #раскруткавинтернете #обучениеseo #оптимизациясайтов #заработокнасайтах #seoдлябизнеса #СергейБондаревSEO #каналыпродаждлясайта #оптимизацияконтента #наполнениесайтов #интернет_маркетинг_блог

Рекомендации по теме

Комментарии

Я довольно долго пропадал, 1.4 недели меня не было. Зависал с изучением pandas и scrapy. Сейчас делаю парсинг для большого сайта. Решил записать туториал, т.к. внятной и быстрой инфы при обучении не нашел в должном объёме.

SergeiBondarev-seo

Мое уважение, Сергей, очень помогли!

chess_hero

"цд команда для перехода" сразу виден уровень)

spyphyfarnsworth

У Вас тоже как и у меня сложности с придумыванием названии😁. Отличное видео, спасибо!

ТаалайбекУтуров

return не старая команда, она просто по другому применяется. yield просто возвращает генератор.

vitalij

Добрый день! Спасибо, отличное видео! Все очень подробно и доступно. Если есть у Вас такой опыт, подскажите как подвязать Splash (что прописать?) для данного метода если сайт с javascript. P.S. Scrapy-Splash уже подключен

emindergazz

Scrapy не основан на Django. Вообще даже и близко. Scrapy работает на базе twisted.

dmmeteo

Сергей, может выложить полный код парсинга ?

Yuri-wkrk

gen spidr я с этого момента чуть не умер

nikitakur

Не понял почему домен пишется в таком виде Разве нельзя в обычном виде написать? Как найти этот сайт?

niks

привет, какой курс может посоветовать по scrapy? и курсы английского?)

vladimir

Есть мы alloy пустым оставим, он везде будет ходить или нигде ?

coolbrain

Не понятно про RULES. /profnastil, 'index.php и прочее - это что? куски URL на которые паук не будет заходить? Или тэги в документе?

coolbrain

С момента опубликования видео прошло 11 месяцев. Естественно повторить, проверить на практике парсинг не удалось (сайт изменился или ошибки). Есть ли рабочие примеры?

garrig

Ругается на строчку from newparce_project.items import Product. Все изменила везде, но пишет Unresolved reference 'newpace_project' и Unresolved reference 'Product'

kseniador_art

Как сохранить полученные данные в базу данных? Как разместить Scrapy на хостинге? Как интегрировать Scrapy + Django?

OleksiiHotven

Добрый день. Выдает ошибку: ModuleNotFoundError: No module named 'parsing.settings'
И не могу понять, что не так с items и Product в импорте, их подчеркивает как ошибку..( Может кто-то подскажет в чем проблем?!

АннаСкрипник-ьз

ты б хоть сайт показывал где что берешь и как

fqtqrbg

У меня кровь с ушей капает когда я слышу что то вроде итаймс или рулес))

TheJonvish

Парсинг сайтов Scrapy Python. (CrawlSpider) + Xpath + Сохранение в CSV. За 40 минут

Парсинг сайтов Scrapy Python. (CrawlSpider) + Xpath + Сохранение в CSV. За 40 минут...

Парсинг данных на Python со Scrapy

Скрейпинг сайтов с помощью Scrapy. Часть 2 | Crawl Spider

Парсер на Python со Scrapy

SCRAPY — парсинг на PYTHON

Парсинг сайтов с помощью Scrapy - 3 часть

Following LINKS Automatically with Scrapy CrawlSpider

1. Парсинг сайта на Python. Библиотека Scrapy

Пишем парсер каталога товаров на Scrapy (Python)

Скрейпинг сайтов с помощью библиотеки Scrapy

Парсинг сайтов. Scrapy, Splash, Selenium, requests, bs4 - 1 часть

Пишем scrapper\crawler на Scrapy

Coding Web Crawler in Python with Scrapy

Обзор scrapy: фраемворк для парсинга на python, начни парсить как PRO...

Scrapy CrawlSpider for AJAX content

Урок 1. Фреймворк Scrapy: Создаем проект и парсим сайт.

Python Scrapy Crawl Spider for Beginners - Easy Freelance Project

Парсинг с применением Python и библиотек BeautifulSoup, Requests без Scrapy...

Парсинг сайтов с JS с помощью Scrapy и Splash - 4 часть

Парсинг сайтов - webscrapingsite.com

Скрапинг Сайта Авито За ПАРУ МИНУТ С Помощью Python

Как спарсить динамический сайт на python? Обзор Splash

Парсинг. Python. NavigableString (Навигационная строка) - что это?

Парсинг данных с сайта на Python. Собираем и разбираем данные из источников в интернете....