Uchebnoe_posobie_Tam_stat1

4.3. Парный регрессионный анализ

Термин регрессия (regression (лат.) – отступление, возврат к чему-либо) связан со спецификой одной из конкретных задач, решенных на стадии становления метода^⁹, и в настоящее время не отражает всей сущности метода, но продолжает применяться.

Регрессия – зависимость среднего значения случайной величины у от одной или нескольких других случайных величин (свободных переменных).

Регрессионным анализом называется поиск такой функции f, которая описывает эту зависимость. Регрессия может быть представлена в виде суммы неслучайной и случайной составляющих.

где – функция регрессионной зависимости, связывающая переменные x и y;

_i – значение некоторой случайной величины (с нулевым средним значением), соответствующее i-му наблюдению.

Регрессионный анализ позволяет получить статистическую модель изучаемого процесса, которая при определенных условиях может использоваться для дальнейшего анализа, ситуации или управления этой ситуацией.

Полученную зависимость можно представить на графике, при этом множество точек будет называться полем корреляции или диаграммой рассеяния. При построении диаграммы рассеяния рекомендуется масштабы по осям x и y выбирать так, чтобы значения обоих признаков укладывались на отрезках приблизительно равной длины.

По направленности точек поля корреляции можно сделать вывод о направленности связи. Если все точки поля соединить отрезками прямой линии строго по мере роста х, получится эмпирическая линия и регрессии.

Простейшим видом корреляционной связи является линейная связь между двумя признаками: результатом и фактором. Значение такой связи состоит в том, что среди всех факторов, влияющих на результат, как правило, есть один наиважнейший, который в основном определяет вариацию результативного признака.

Если предполагается, что исследуемая связь носит линейный характер, в качестве модели выбирается класс линейных функций .

Если считается, что связь нелинейная, то определяется соответствующая форма нелинейной зависимости, например: (парабола), (гипербола) и т.д.

Получаемое уравнение регрессии должно давать хорошее приближение к реальной тенденции взаимосвязи результата и фактора.

Постановка задачи. По имеющимся данным n статистических наблюдений за совместным изменением двух параметров x и y {(x_i,y_i), i=1,2,...,n} необходимо определить аналитическую зависимость ŷ=f(x), наилучшим образом описывающую данные наблюдений.

Построение уравнения регрессии осуществляется в два этапа (предполагает решение двух задач):

– спецификация модели (определение вида аналитической зависимости (ŷ=f(x));

– оценка параметров выбранной модели.

Спецификация модели

Парная регрессия применяется, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной.

Применяется три основных метода выбора вида аналитической зависимости:

– графический (на основе анализа поля корреляций);

– аналитический, т. е. исходя из теории изучаемой взаимосвязи;

– экспериментальный, т. е. путем сравнения величины остаточной дисперсии D_ост или средней ошибки аппроксимации , рассчитанных для различных моделей регрессии (метод перебора).

Понятие «свободные» или «независимые переменные» (x₁, x₂, …, x_n) во многих случаях не соответствует реальной ситуации: «независимые переменные» могут быть зависимы и влиять одна на другую. Часто термин «независимые переменные» используется в другом контексте: это переменные, значения которых в процессе определения отклика, могут устанавливаться произвольно, независимо.

Оценка параметров модели

Уравнение парной линейной зависимости

(4.1)

называется уравнением парной линейной регрессии.

– среднее значение результата при определенном значении факторного признака.

а – свободный член уравнения

b – коэффициент регрессии, измеряющий вариацию результата у, приходящуюся на единицу вариации фактора х.

Для оценки параметров модели регрессии выбирается определенный метод. Наиболее эффективным методом оценивания параметров рассматриваемой модели является метода наименьших квадратов.

Метод наименьших квадратов обеспечивает наименьшую сумму квадратов отклонения фактических значений результата (у_i) от теоретических значений результата ( ) которые были получены по уравнению связи:

или

Рассмотрим необходимые условия минимума функции f(a,b):

;

Рассмотрим первое условие:

Разделив обе части уравнения на ненулевое значение (-2n), получим:

или, учитывая, что , получим ,

тогда

Рассмотрим второе условие:

Разделив обе части уравнения на ненулевое значение (-2n), получим:

, подставляя значение а из первого условия,

или

откуда

_{Таким образом, коэффициенты линейного уравнения регрессии могут быть найдены из системы:}

(4.2)

Свободный член а уравнения отражает влияние прочих факторов, не включенных в уравнение. Отрицательность этого фактора отражает то, что совокупное влияние прочих факторов противоположно направлено по сравнению с этим фактором.

Коэффициент регрессии b говорит о том, что при измерении факторного признака на единицу своего значения от своей средней происходит изменение результирующего признака в ту же сторону от своего среднего значения в используемых единицах измерения.

Однако для сравнительного анализа силы связи разных признаков коэффициент регрессии b использовать нельзя, т.к. его величина зависит от единиц измерения признаков, поэтому для сравнительной характеристики силы связи признаков используют другой показатель – коэффициентом эластичности.

(4.3)

Коэффициент эластичности выражается в процентах и объясняется следующим образом: при изменении факторного признака на 1% от своей средней результат у изменяется на величину коэффициента эластичности от своей средней. Для линейной регрессии коэффициент эластичности равен:

По полученному уравнению регрессии можно определить теоретическое значение результата, для чего необходимо в построенное уравнение подставить фактическое значение факторного признака.

Содержание