ТОП вопросов по Data Science и машинному обучению на собеседованиях. Часть 1.

preview_player
Показать описание
Самые частозадаваемые вопросы с собеседований по машинному обучению и data science. Данное видео поможет вам устроиться на позицию Data Scientist.

таймкоды:
0:00 Немного о трудоустройстве.
1:09 Основы SQL.
1:48 Основы статистики.
2:43 Основы теории вероятностей.
4:00 Работа с множествами.
4:25 Нормальное распределение.
4:45 Отличие регрессии от классификации.
5:28 Метрики в задаче классификации.
9:14 Метрики в задаче регрессии. MSE. MAE.

#DataScience #собеседование
Рекомендации по теме
Комментарии
Автор

По картам (при открытии двух карт будет минимум 5 одной масти).
Не знаю, было ли видео с ответом, но попробую решить без подготовки, а так, как вижу :)
У нас 5 карт открыто, 4 из открытых - нужной масти. Две карты выложены, но не открыты, нас устроят три исхода: червы в первой карте, во второй и в обеих.
Т.е. сумма вероятностей этих исходов будет той вероятностью, которую мы ищем.
Колода 52 карты, не открыто 47 карт, из них червы - 9 шт (52/4 - 4).
P(A) = 9/47 ~= 0, 191
Р(В) = 9/46 ~= 0, 196 (исходим из того, что первая карта выпала другой масти, т.е. червей осталось 9, а неоткрытых карт стало на одну меньше)
P(AB) = 9/47 * 8/46 = 36/1081 ~= 1/30.
т.е. P примерно равна 0, 42 или 42%.

Во второй задаче, где нужно только 5 червей мы ожидаем (для положительного результата) под двумя невскрытыми картами только одну черву, а вторую карту - любой другой масти. Т.е. нас устроят только два исхода: черва под первой картой, черва под второй картой. Сумма этих вероятностей и есть наш ответ.
P(A) = 9/47 * 38/46 = 171/1081 [первая - черва, вторая - не черва]
P(B) = 38/47 * 9/46 = 171/1081 [первая - не черва, вторая - черва]
P = 2 * 171/1081 = 342/1081 ~= 0, 316 или 31, 6%

Если сравнить дроби в первой и во второй задаче, то получим:
P1 = 909/2162 (или 454, 5/1081)
P2 = 684/2162 (или 342 / 1081)

disinvis
Автор

Если будет создан ИИ в образе человека, то он должен быть обязательно похожим на этого парня.

hcjchbf
Автор

Спасибо большое за видео, всё чётко, ясно и без воды

Alexandra-heol
Автор

момент на 6:12 заставил меня усомниться в правильности работы моей симуляции)

xxwhnms
Автор

Спасибо за вводную информацию, от себя могу сказать, что в таком коротком видео конечно сложно охватить все в деталях, но вектор задан довольно четко, начинающему специалисту будет очень полезно.

ivannifontov
Автор

С двумя картами возможны 4 варианта:
1. обе червы (в итоге - 6 черв)
2. первая черва, вторая не черва (в итоге - 5 черв)
3. первая не черва, вторая черва (в итоге - 5 черв)
4. обе не червы (в итоге - 4 червы) - этот случай выбасываем, нам нужно 5 и больше черв.

1. Вероятность получить обе червы равна (9/47)*(8/46).
Четыре (4) червы уже открыты на столе, осталось ещё 13-4 = 9 черв в колоде из 52 - 5 = 47 карт.
После открытия первой карты которая оказалась червой останется 8 черв в колоде из 47-1 = 46 карт.

2. Вероятность того, что первая черва, вторая не черва: (9/47)*(38/46).
46 - 8 = 38 - количество не-черв в колоде после открытия первой карты-червы.

3. Вероятность того, что первая не черва, вторая черва: (38/47)*(9/46).
47 - 9 = 38 не-черв в колоде до открытия первой карты.

Ответ 1 (вероятность получить минимум 5 карт одной масти):
Сумма вероятностей всех трёх вариантов - (9/47)*(8/46) + (9/47)*(38/46) + (38/47)*(9/46)

Ответ 2 (вероятность получить ровно 5 карт одной масти):
Сумма вероятностей всех 2 и 3 варианта - (9/47)*(38/46) + (38/47)*(9/46)

sergeysosnovski
Автор

Хорошие видео, лайк. Но вот на 5:13 и 9:21 - ошибка.
При помощи регрессии - классы тоже можно предсказывать, не только числа:) И задачи бинарной классификации тоже можно решать при помощи регрессии (можно использовать логистическую регрессию+ROC-анализ). Анатолий Карпов об этом рассказывал достаточно интересно в одном из своих видео.

DmitryPonomareF
Автор

Спасибо, полезное видео.
1) Хотел написать, что ORM это совсем другое, но если в двух словах и максимально просто, то да, пойдет и такое определение.
2) Странно написана формула МАЕ, используются X и Y для предсказанного и истинного значения. В следующей же формуле уже используются привычные Y и Y "крышкой".

martins
Автор

Если я знаю ответы на эти вопросы, можно идти на работу?

Golimko
Автор

Про ROC AUC немного неточно. Кривую называют ROC (receiver operating characteristic, встречал упоминание как о "кривой ошибок"). А AUC это площадь под этой кривой (Area Under the Curve)

romankobzev
Автор

А как долго можно искать работу в этой сфере?

lnffmcs
Автор

Судя по формуле в видео MSE - средний квадрат отклонений или дисперсия, а не среднее квадратическое отклонение.

nqjbvyv
Автор

Кубик:1/6^3
Карта:9/47(если 52 карты)

zfhcfdp
Автор

гипергеометрический тест:
желаемое кол-во карт какой-то конкретной масти: q = 5
кол-во карт какой-то конкретной масти в колоде в целом: m = 13
кол-во карт других мастей в колоде: n = 52 - 13 = 39
кол-во вытащенных нами карт: k = 7
phyper(q, m, n, k, lower.tail = F) = 0.0005130637

SuperMixedd
Автор

Регрессия это вероятностная зависимость одной величины (переменной) от другой величины (величин). Может быть линейной, квадратичной, логарифмической и.т.д.

sergeypavlov