Анатолий Глушенко и Евгений Ворсин | Разбор решений задач Data Fusion Contest 2022

preview_player
Показать описание
Спикеры:
Глушенко Анатолий, Lead DS ВТБ
Ворсин Евгений, Data Scientist Иннотех

Задача матчинга достаточно новая, но при этом имеет множество различных постановок. Основная суть – объединение данных, например, данных из разных систем и источников или данных разных модальностей. И подходов к решению также великое множество. Но всё ещё не создано готовых пайплайнов и не найдено путей решения, которые бы являлись хорошей отправной точкой для работы с такими задачами, что открывает огромное пространство для исследований. Почему это так?

Этапы решения задач матчинга включают в себя:

Перевод данных каждой модальности в векторные представления.
Размещение полученных векторов в общем пространстве так, чтобы вектора одной сущности были близки друг к другу, а разных – как можно более отдалены.
Отбор и ранжирование кандидатов.
Определение наличия верного совпадения и т.д.
Для каждого из этих этапов существует множество различных методов, а некоторые варианты постановок и количество рассматриваемых данных требуют, в том числе, сосредоточиться на эффективном использовании вычислительных ресурсов.

Мы со своей стороны провели исследование различных подходов, основываясь на постановке задачи представленной на Data Fusion Contest 2022, а именно задаче матчинга последовательностей транзакций и логов кликстриминга. В рамках исследований были рассмотрены:

Различные подходы к обработке и подготовке данных такого рода;
Способы перевода данных в векторное представление;
Варианты построения пайплайна для отбора и ранжирования кандидатов, включая различные техники расчёта численных значений близости векторов;
Методы определения наличия верного совпадения и многое другое.

В ходе доклада мы говорим про полезные ссылки на слайдах, вот они:

Полезные ссылки

Наши соц.сети
Рекомендации по теме