РЕГРЕССИОННЫЙ АНАЛИЗ общая идея | АНАЛИЗ ДАННЫХ #16

preview_player
Показать описание
Регрессионный анализ общая идея. Как проводить множественный регрессионный анализ? Цель - построение регрессионной модели. Общее назначение множественной регрессии (этот термин был впервые использован в работе Пирсона - Pearson, 1908) состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной.

Термин регрессия в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regression to mediocrity), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс — значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной.

Цели регрессионного анализа
Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
Предсказание значения зависимой переменной с помощью независимой(-ых)
Определение вклада отдельных независимых переменных в вариацию зависимой
Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.

Регрессионный анализ – статистический метод, с помощью которого можно построить модель с одной зависимой переменной (откликом) и одной или несколькими независимыми переменными (факторами).
Регрессионный анализ позволяет:
1) Выявить, какие из факторов действуют на отклик, а какие – нет.
2) Ранжировать факторы по степени влияния на отклик.
3) Спрогнозировать значение отклика при определенных значениях факторов.
Для обеспечения приемлемой точности модели минимальный объем выборки не должен быть меньше величины «число факторов, умножить на 10».
Приведем примеры постановок задач для регрессионного анализа.
Определить, какие факторы влияют на расход электроэнергии на предприятии, и построить прогноз расходов электроэнергии на ближайший квартал.
Планируется строительство нового торгового центра. Требуется спрогнозировать «проходимость» секций будущего торгового центра с целью обоснования ставки арендной платы и оптимальной площади помещений.
На основе риэлтерской базы данных по реализованным объектам недвижимости построить прогноз стоимости квартиры с учетом площади, удобств, типа дома и других факторов.
Выявить факторы, определяющие долю рынка торговой марки определенных товаров.
При покупке автомобиля требуется выбрать такую модель, которая по истечении трех лет службы на вторичном рынке незначительно потеряет в цене.
Построенная с помощью регрессионного анализа модель представляет собой уравнение вида:
Y=b_0+b_1 X_1+b_2 X_2+⋯+b_k X_k
где X_1,X_2,…,X_k – факторы, Y – отклик, b_0,b_1,…,b_k – параметры (коэффициенты) регрессии.
Математически, суть регрессионного анализа сводится к нахождению параметров регрессии, проверке их значимости и оценке приемлемости всей построенной линейной модели в целом.
Поясним на примере модели с одним количественным фактором. Пусть требуется выяснить, влияет ли на цену объекта недвижимости (у.е.) его площадь (кв.м).
Построим график зависимости цены (по вертикальной оси) от площади (по горизонтальной оси). Такой график называется полем корреляции или диаграммой рассеяния.

Линия, проходящая через сгущение точек, называется линией регрессии. Она строится согласно методу наименьших квадратов, который заключается в минимизации расстояния по вертикали всех точек поля корреляции от линии регрессии.
Если модель, в множественном регрессионном анализе, адекватна, т.е. отражает истинную силу связи цены и площади, то по линии регрессии можно предсказать значение цены при конкретном значении площади объекта недвижимости.
Рекомендации по теме
Комментарии
Автор

примите мою сердечную благодарность за то, что я поняла, как работает регрессионный анализ и какие данные мне понадобятся, чтобы написать диплом, который сдавать через две недели

ЛюбовьЖурова-зд
Автор

Благодарим Вас за Ваш труд! Всех благ Вам и вашей семье🙏🏼

mimim
Автор

Как здорово, что нашёл ваш канал, огромное спасибо!

iSJy
Автор

Спасибо большое! Вы очень выручаете!!!

St_Yarek
Автор

Добрый вечер
Большое спасибо за ваши лекции.
Подскажите пожалуйста чем возможно воспользоваться:
Есть график изменения оптической плотности микробной культуры в течении некоторого времени (36-48 часов). График обработал по методу наименьших квадратов. Как возможно сравнить между собой два разных графика?
Чаще всего каждый вариант культивирования (один из графиков) повторяется в 5 повторах одновременно. Получается, что имеется 180-240 точек

MSP-hxdk
Автор

если зависимость y=f(x), это значит 1 фактор (х), значит, минимальное количество экспериментальных точек 10 пар, правильно?
Почему в учебниках биометрии рассматривают 5-6 пар данных? наверное, чтобы проще объяснять и вычислять?
...или 10 точек достаточно для построения регрессионной модели? а для нахождения коэффициентов регрессии можно использовать и меньше точек?

OlgaGalanina
Автор

А почему у вас на оси х цена? Вы же говорите, что цена это зависимая переменная то есть отклик . Он не должен быть на оси у? или без разницы?

zhanarzhanabayeva
Автор

Здравствуйте. Снова очень нужна ваша помощь:
1) Распред. фактора ненормальное, корел.смотрел по Спирмену, величины корел-ют. Можно ли использовать регрессионный анализ и строить уравнение регрессии, если пользовался коэф.корел.Спирмена?

ЕвгенийЕмельяненко-цв
Автор

Здравствуйте! Я Вам писала по поводу факторов, к сожалению, видео не открывается. Не совсем поняла ваш ответ ("Пользователь СТАТИСТИКА STATISTICA оставил комментарий: "Должно быть два фактора. Варианты: 1) количественный и количественный 2) номинальный и номинальный 3) номинальный и количественный."). В моей работе есть 10 факторов, где некоторые номинальные (наличие услуг 0 - нет, 1 - есть) а некоторые количественные (возраст - 56, 23 И так далее). А отклик - посещаемость (то есть тоже количественное значение) Можно ли при таких данных проводить анализ? Если Вам сложно здесь ответить, можете ли оставить свою эл почту?

liliyashevyakova
Автор

подскажите пожалуйста можно ли поставить условие неотрицательности коэффициентов регрессии? и если да, то как. спасибо.

bee_dmytro