filmov
tv
Анатолий Глушенко и Евгений Ворсин | Разбор решений задач Data Fusion Contest 2022
![preview_player](https://i.ytimg.com/vi/jThOrXtZEnc/maxresdefault.jpg)
Показать описание
Спикеры:
Глушенко Анатолий, Lead DS ВТБ
Ворсин Евгений, Data Scientist Иннотех
Задача матчинга достаточно новая, но при этом имеет множество различных постановок. Основная суть – объединение данных, например, данных из разных систем и источников или данных разных модальностей. И подходов к решению также великое множество. Но всё ещё не создано готовых пайплайнов и не найдено путей решения, которые бы являлись хорошей отправной точкой для работы с такими задачами, что открывает огромное пространство для исследований. Почему это так?
Этапы решения задач матчинга включают в себя:
Перевод данных каждой модальности в векторные представления.
Размещение полученных векторов в общем пространстве так, чтобы вектора одной сущности были близки друг к другу, а разных – как можно более отдалены.
Отбор и ранжирование кандидатов.
Определение наличия верного совпадения и т.д.
Для каждого из этих этапов существует множество различных методов, а некоторые варианты постановок и количество рассматриваемых данных требуют, в том числе, сосредоточиться на эффективном использовании вычислительных ресурсов.
Мы со своей стороны провели исследование различных подходов, основываясь на постановке задачи представленной на Data Fusion Contest 2022, а именно задаче матчинга последовательностей транзакций и логов кликстриминга. В рамках исследований были рассмотрены:
Различные подходы к обработке и подготовке данных такого рода;
Способы перевода данных в векторное представление;
Варианты построения пайплайна для отбора и ранжирования кандидатов, включая различные техники расчёта численных значений близости векторов;
Методы определения наличия верного совпадения и многое другое.
В ходе доклада мы говорим про полезные ссылки на слайдах, вот они:
Полезные ссылки
Наши соц.сети
Глушенко Анатолий, Lead DS ВТБ
Ворсин Евгений, Data Scientist Иннотех
Задача матчинга достаточно новая, но при этом имеет множество различных постановок. Основная суть – объединение данных, например, данных из разных систем и источников или данных разных модальностей. И подходов к решению также великое множество. Но всё ещё не создано готовых пайплайнов и не найдено путей решения, которые бы являлись хорошей отправной точкой для работы с такими задачами, что открывает огромное пространство для исследований. Почему это так?
Этапы решения задач матчинга включают в себя:
Перевод данных каждой модальности в векторные представления.
Размещение полученных векторов в общем пространстве так, чтобы вектора одной сущности были близки друг к другу, а разных – как можно более отдалены.
Отбор и ранжирование кандидатов.
Определение наличия верного совпадения и т.д.
Для каждого из этих этапов существует множество различных методов, а некоторые варианты постановок и количество рассматриваемых данных требуют, в том числе, сосредоточиться на эффективном использовании вычислительных ресурсов.
Мы со своей стороны провели исследование различных подходов, основываясь на постановке задачи представленной на Data Fusion Contest 2022, а именно задаче матчинга последовательностей транзакций и логов кликстриминга. В рамках исследований были рассмотрены:
Различные подходы к обработке и подготовке данных такого рода;
Способы перевода данных в векторное представление;
Варианты построения пайплайна для отбора и ранжирования кандидатов, включая различные техники расчёта численных значений близости векторов;
Методы определения наличия верного совпадения и многое другое.
В ходе доклада мы говорим про полезные ссылки на слайдах, вот они:
Полезные ссылки
Наши соц.сети