filmov
tv
Иван Бондаренко. «Я твой дом труба шатал!»
Показать описание
Или как построить нейросеть-полиглота для понимания токсичности текстов на разных языках.
Современный мир разнообразен, но глобален. И когда мы автоматизируем службу поддержки с помощью чат-бота, краулим и парсим новости, автомодерируем комменты на сайте или же оцениваем упоминания нашего продукта в соцсетях, то мы можем столкнуться с текстами не только на великом и могучем русском языке и даже не только на языке Шекспира, а на абсолютно любом — французском, китайском, арабском и даже каталанском.
Конечно, можно попробовать сделать отдельные модели для пары-тройки наиболее вероятных языков, а потом в случае необходимости масштабировать систему понимания текста, постепенно добавляя новые модели для новых языков. Но, во-первых, качественные современные модели анализа текстов весьма немаленькие, и занимают гигабайты памяти. Во-вторых, надо понять, когда подключать ту или иную модель, т.е. когда пользователь пишет на том или ином языке. И, в-третьих, далеко не для всех языков есть нормальные текстовые корпуса для предобучения, не говоря уже о необходимости формировать разметку для файнтюнинга.
В общем, куда не кинь, всюду клин. И тогда приходит идея — а что, если попробовать сделать одну большую нейросеть-полиглота, которая умела бы понимать текст на произвольном языке? Насколько реалистично воплотить такую идею в жизнь, и какое качество решения можно ожидать?
В своём докладе я постараюсь дать ответы на эти вопросы и поделиться своими рецептами построения мультиязычных глубоких нейросетей на базе популярной сейчас архитектуре Трансформеров и не только.
Работаю преподавателем и научным сотрудником Новосибирского государственного университета. Также осуществляю научное руководство командой машинного обучения в Новосибирском исследовательском центре компании Huawei. Занимаюсь машинным обучением с 2005 года, а особенно люблю распознавание речи и анализ текстов на естественном языке. Кроме обучения искусственных нейронных сетей и других алгоритмов, также занимаюсь обучением «естественной» нейронной сети своего маленького сына, и надеюсь, что мне это удаётся :-)
Современный мир разнообразен, но глобален. И когда мы автоматизируем службу поддержки с помощью чат-бота, краулим и парсим новости, автомодерируем комменты на сайте или же оцениваем упоминания нашего продукта в соцсетях, то мы можем столкнуться с текстами не только на великом и могучем русском языке и даже не только на языке Шекспира, а на абсолютно любом — французском, китайском, арабском и даже каталанском.
Конечно, можно попробовать сделать отдельные модели для пары-тройки наиболее вероятных языков, а потом в случае необходимости масштабировать систему понимания текста, постепенно добавляя новые модели для новых языков. Но, во-первых, качественные современные модели анализа текстов весьма немаленькие, и занимают гигабайты памяти. Во-вторых, надо понять, когда подключать ту или иную модель, т.е. когда пользователь пишет на том или ином языке. И, в-третьих, далеко не для всех языков есть нормальные текстовые корпуса для предобучения, не говоря уже о необходимости формировать разметку для файнтюнинга.
В общем, куда не кинь, всюду клин. И тогда приходит идея — а что, если попробовать сделать одну большую нейросеть-полиглота, которая умела бы понимать текст на произвольном языке? Насколько реалистично воплотить такую идею в жизнь, и какое качество решения можно ожидать?
В своём докладе я постараюсь дать ответы на эти вопросы и поделиться своими рецептами построения мультиязычных глубоких нейросетей на базе популярной сейчас архитектуре Трансформеров и не только.
Работаю преподавателем и научным сотрудником Новосибирского государственного университета. Также осуществляю научное руководство командой машинного обучения в Новосибирском исследовательском центре компании Huawei. Занимаюсь машинным обучением с 2005 года, а особенно люблю распознавание речи и анализ текстов на естественном языке. Кроме обучения искусственных нейронных сетей и других алгоритмов, также занимаюсь обучением «естественной» нейронной сети своего маленького сына, и надеюсь, что мне это удаётся :-)