ELK: менеджмент логов, быстрая локализация проблем / Сергей Шумов (News360)

preview_player
Показать описание
Приглашаем на конференцию Saint HighLoad++ 2024, которая пройдет 24 и 25 июня в Санкт-Петербурге!
--------
--------
Презентация и тезисы:

Сначала несколько слов про предпосылки задачи.

1. Что нам завещали деды: zcat | cut | sort | uniq -c | sort -nr .
2. Сборка логов: syslog-ng, rsyslog etc.
3. Ок, давайте сделаем все правильно.
Полезные фичи Elastic & Kibana.
Несколько кейсов, где Кибана выступает отлично.
Метрики и дашборды: тут они с graphite примерно одинаково гибки, но упомянуть об этом надо.
Кратенько об альтернативах, плюсы-минусы.
Рекомендации по теме
Комментарии
Автор

Интересная схема, прям ответ на многие мои вопросы по поиску причин ошибок в сложных многокомпонентных системах 👍

kardonov
Автор

Супер выступление! Сразу погрузился в тему, что это и зачем это.

megadrigter
Автор

Очень интересный доклад. Приятно послушать профессионала.

ceperagrey
Автор

00:37 Что такое ELK?
02:16 Основные требования к логам
03:41 Рассказ о старом способе анализа логов (grep, file, console)
04:37 Плюсы и минусы этого подхода, сборка лог файлов из разных сервисов в централизованное место
7:33 Проблемы централизованного хранения лог файлов из разных сервисов в одном месте
09:32 Важность Структурированного лога
12:52 Почему выбрали JSON для логов
13:31 Особенности ElasticSearch(ES)
16:07 Практика создания индексов в ES для логов
17:18 Kibana, Агрегация данных, Поиск
23:24 Kibana: просмотр хронологии пользователя в сис-ме
24:42 Пример с выявлением аномальных пользователей на основе данных из Kibana
25:50 Kibana Исследование всплесков, стратегические метрики
29:34 Kibana Dashboard - чем полезен?
31:05 Как и что логировать
32:19 Fluentd - альтернатива Logstsh
33:27 Наш Logging pipeline
34:55 Альтернативы ELK
36:42 Потребление ресурсов
37:55 Вопросы
37:58 Сколько у вас Node в elastic search кластере?
39:30 Как настроен alert?
40:41 Нет потери данных при отправке по udp в вашем logging pipleline?
41:22 Вопрос по схеме
42:42 Что такое шард в elastic?
44:19 Какая у вас нагрузка
45:10 Почему использовали fluentd а не rsyslog ?
46:20 Когда вы понимаете, что настало время для масштабирования?
47:33 Храните ли логи в файлах и как долго?
48:10 Решаете ли вы проблемы сетевой связности или недоступности( в вашем случае fluentd), гарантия доставки логов?
48:52 Не понятно как на всех этапах вашего logging pipeline сохраняется персистентность и гарантия доставки данных?
50:33 На каком этапе вы обрабатываете multiline сообщения?
51:50 Если вместо elastic поставить clickhouse а вместо kibana -> grafana? На сколько это перспективно?
53:53 Как осуществляется контроль доступа к elasticsearch?
54:44 Ваш Fluentd принимает логи в json или нет?
56:51 Где формируется сквозной Id в вашей микросервисной архитектуре?
57:30 Рассматривали ли вы graylog как альтернативу?
58:07 Какой запас надежности кластера вы держите для elasticsearch?

agoalofalife
Автор

За человека с 800 шардами и 400 успешными прямо страшно, брать какую-либо БД не ознакомившись с основными концепциями однозначно плохая идея.

zhukov.aleksei
Автор

Спасибо за видео. Звук нужно погромче.

zhpchshts_official
Автор

картинка logstash (Я собираю логи), не совсем правильно, о вроде принимает....?
собирают beat -ы

SynopsisLAB
Автор

Доклад хороший! Но возможная потеря логов смущает.

naikpatel
Автор

1 нода 15тыс сообщений, хмммм.
у нас 5 нод, есть сервисы в debug-е подробно пишут за день сотни Мб логов каждый. Как вообще кластер живёт ещё непонятно.

SynopsisLAB
Автор

Не помешало бы термины говорить по-русски. Вот например, сконкстанировать логи можно было бы объяснить проще, понятнее...

zackevans
join shbcf.ru