Direct Preference Optimization:Your Language Model is Secretly a Reward Model, Paper & Code

preview_player

Показать описание

In this video I cover the "Direct Preference Optimization:Your Language Model is Secretly a Reward Model" paper and code.

Mehdi Mashayekhi

Рекомендации по теме