Как научить ChatGPT тому, что он умеет. Секреты от OpenAI

Показать описание

Увеличение размера языковых моделей по сути не приводит к тому, что они лучше следуют намерениям пользователя. Например, большие языковые модели могут генерировать результаты, которые не соответствуют потребностям своих пользователей. В статье Training Language Models To Follow Instructions With Human Feedback исследовательская группа OpenAI использует методы обучения с подкреплением на основе обратной связи человека (RLHF), чтобы добиться значительных улучшений в согласованности. В ходе оценок было показано, что предложенные командой модели InstructGPT предпочтительнее результатов моделей GPT-3.
Обсудим эту работу и разберемся в деталях.

Ukrainian IT-company. Machine Learning | Data Science | Artificial Intelligence

#artificialintelligence #MachineLearning #ИскусственныйИнтеллект #Машинноеобучение #Deep Learning