Парсинг HTML страниц на Java с помощью Jsoup

preview_player
Показать описание
#devmark #java #html В этом видео мы рассмотрим библиотеку для Java под названием Jsoup. Она позволяет легко парсить любые html страницы, извлекая из них текст, адреса гиперссылок и любую другую полезную информацию. Также вкратце рассмотрим синтаксис css-выражений для выбора элементов по определённым условиям: по имени тэга, по имени класса и по id элемента. После просмотра данного видео вы уже сможете написать простейший краулер - программу для индексирования содержимого сайтов.

Рекомендации по теме
Комментарии
Автор

Классная, атмосферная подача. Хорошая дикция. Понятное донесение информации. Продолжайте в том же духе. Мне как обучающемуся ваши видео были очень полезны.

Rompashke
Автор

Супер!!! Я бы посоветовал поучиться, в подаче материала, многим лекторам с различных учебных курсов!!! Ну можно же объяснить нормальным языком. Зачастую лекторы общаются с аудиторией на "профессиональном" сленге, не понимая, что люди пришли учиться, и многие с "нуля". Доходчивое объяснение-это талант. Спасибо!!!

dcxftfp
Автор

Спасибо за Ваш труд! Коммент в поддержку канала.

svetlanamazhaykina
Автор

Интересно было бы посмотреть как Вы напишите CRUD приложение с использование библиотеки Gson для парсинга

anjelomanoranjan
Автор

как получить значение атрибута value из какого-либо элемента html страницы, если этот элемент имеет атрибут disabled (тоесть отключен), в этом случае получатся value=0 а мне надо получить его реальное значение как в браузере???

Novichek
Автор

Что зв настройка, что ИДЕЯ показывает класс переменной?
var document :Document

EdwardNorthwind
Автор

Было бы круто прикрутить туда ForkJoin + БД👍👍👍

bnwcdbs
Автор

Как с помощью данной библиотеки можно проверять количество товаров на сайте (странице) с частотой в 1 мин и при превышении заданного значения отдавать результат во внешний сервис (тлг например)?

GrekoRoman
Автор

На страницу есть несколько svg тегов и все из них он видит кроме того, который мне нужен, пробовал найти див, в котором данный тег находится и он при выводе оказывается пустым будто бы в нем нет этого svg тега, хотя он там есть.

ziomek
Автор

При попытке взять страницу с любого https-сайта выдает the trustAnchors parameter must be non-empty
Как быть?

ysokszb
Автор

Жаль что не сначала от и до) ничерта не понял)

vlkmoth
Автор

А как разложить на модель? Предположим есть всего три корневых дива и куча вложенных дивов в каждый из этих дивов и в них еще вложенны span элементы. Хотелось бы просто иметь модель: и т.п.

Leonardo-gdiz
Автор

добрый день, можете подсказать, как парсить сайты с пагинацией?

vjbyvxi
Автор

Урок классный, но нету объяснения как создать заготовку на maven

ronyrein
Автор

Что означает var document :Document ?
у моего document нет никаких методов ((

winter-lbid
Автор

Эээ. Синтаксис как Котлин, проект вроде Java. Так можно и не понять сразу

locky
Автор

java и var как то не в тему, можно было бы объяснить каким образом это работает...

serg_
Автор

Как сделать парсинг ссылки с пробелами?
Вот пример <li class="tile swiper-slide day_color_theoretical current-week swiper-slide-active" style="width: 200px; margin-right: 10px;">

bombito