Статистика таможенных правонарушений

курсовая работа

2.3 Корреляционный анализ

Корреляционная связь - это связь, проявляющаяся при большом числе наблюдений в виде определенной зависимости между средним значением результативного признака и признаками-факторами. Другими словами, корреляционную связь условно можно рассматривать как своего рода функциональную связь средней величины одного признака (результативного) со значением другого (или других). При этом, если рассматривать связь средней величины результативного показателя y с одним признаком-фактором x, корреляция называется парной, а если факторных признаков 2 и более (x1, x2, …, xm) - множественной.

По характеру изучений x и y в парной корреляции различают прямую и обратную связь. При прямой связи значения обоих признаков изменяются в одном направлении, т.е. с увеличением (уменьшением) значений x увеличиваются (уменьшаются) и значения y. При обратной связи значения факторного и результативного признаков изменяются в разных направлениях.

Изучение корреляционных связей сводится к решению следующих задач:

выявление наличия (отсутствия) корреляционной связи между изучаемыми признаками;

измерение тесноты связи между двумя (и более) признаками с помощью специальных коэффициентов (эта часть исследования именуется корреляционным анализом);

определение уравнения регрессии - математической модели, в которой среднее значение результативного признака у рассматривается как функция одной или нескольких переменных - факторных признаков (эта часть исследования именуется регрессионным анализом).

Для выявления наличия и характера корреляционной связи между двумя признаками в статистике используется ряд методов.

1. Рассмотрение параллельных данных (значений x и y в каждой из n единиц). Единицы наблюдения необходимо расположить по возрастанию значений факторного признака x и затем сравнить с ним (визуально) поведение результативного признака y (таблица 4).

2. Линейный коэффициент корреляции - самый популярный измеритель тесноты линейной связи между двумя количественными признаками x и y. Он основан на предположении, что при полной независимости признаков x и у отклонения значений факторного признака от средней () носят случайный характер и должны случайно сочетаться с различными отклонениями (). При наличии значительного перевеса совпадений или несовпадений таких отклонений делается предположение о наличии связи между x и y.[4]

Таблица 4. Параллельные данные.

Год

Количество проверок, х

Количество возбужденных дел, y

2003

17509

58503

2004

19291

64097

2005

20535

68116

2006

21854

74552

2007

23781

84927

2008

25064

88688

2009

27514

94838

2010

29476

96764

2011

30941

97829

В линейном коэффициенте корреляции учитываются не только знаки отклонений от средних величин, но и значения самих отклонений, выраженные для сопоставимости в единицах среднего квадратического отклонения t (1) и (2):

(1) и (2)

Линейный коэффициент корреляции r представляет собой среднюю величину из произведений нормированных отклонений для x и у (3) :

Размещено на http://www.allbest.ru/

(3)

Числитель формулы (3), делённый на n, представляющий собой среднее произведение отклонений значений двух признаков от их средних значений, называется коэффициентом ковариации - это мера совместной вариации факторного x и результативного y признаков (4):

(4)

Недостатком коэффициента ковариации является то, что он не нормирован, в отличие от линейного коэффициента корреляции. Очевидно, что линейный коэффициент корреляции представляет собой частное от деления ковариации между x и y на произведение их средних квадратических отклонений (14):

Размещено на http://www.allbest.ru/

(5)

Линейный коэффициент корреляции может принимать значения от -1 до +1, причем знак определяется в ходе решения. Если , то r=0, что означает отсутствие линейной зависимости между х и у, а при r=1 - функциональная зависимость между х и у. Следовательно, всякое промежуточное значение r от 0 до 1 характеризует степень приближения корреляционной связи между х и у к функциональной. Существует эмпирическое правило (шкала Чэддока) для оценки тесноты связи, представленное в таблице 5.

Таблица 5. Шкала Чеддока.

| r |

Теснота связи

менее 0,1

отсутствует линейная связь

0,1 ч 0,3

слабая

0,3 ч 0,5

умеренная

0,5 ч 0,7

заметная

более 0,7

сильная (тесная)

Таким образом, коэффициент корреляции при линейной зависимости служит как мерой тесноты связи, так и показателем, характеризующим степень приближения корреляционной зависимости между х и у к линейной. Поэтому близость значения r к 0 в одних случаях может означать отсутствие связи между х и у, а в других свидетельствовать о том, что зависимость не линейная.[4]

Для начала построим вспомогательную таблицу 6.

Таблица 6. Вспомогательные расчеты линейного коэффициента корреляции.

Год

x

y

tx

ty

tx ty

2003

17509

37936

6534089

915486049

-1,524

-1,615

2,461

2004

19291

58503

5494256

93896100

-0,443

-0,517

0,229

2005

20535

64097

344276

16777216

-0,105

-0,219

0,023

2006

21854

68116

513460

5929

0,131

-0,004

-0,0005

2007

23781

74552

4073441

40436881

0,381

0,339

0,129

2008

25064

84927

15529456

280026756

0,746

0,893

0,666

2009

27514

88688

27275321

420045025

0,99

1,094

1,083

2010

29476

94838

58850921

709956025

1,454

1,422

2,068

2011

30941

97829

73928576

681732100

-1,63

-1,394

2,272

Итого:

215965

669486

270304196

3358362081

 

 

8,9305

Год

xy

2003

243175509

447948288

2004

22635840

1024329027

2005

-35509738

1236495227

2006

-53130

1398762060

2007

12775231

1629259408

2008

65865024

2019648987

2009

106963405

2222876032

2010

204340505

2609372732

2011

224441560

473391667

Итого:

844634206

13062083428

В нашей задаче:

x = 178605/9 = 19845 = /270304196/9 = 1733,147

y =669486 /9 = 74387 Размещено на http://www.allbest.ru/

= /3358362081/9 = 19317,125

Тогда линейный коэффициент корреляции по формуле: r = 8,9305/9 = 0,992.

Найденное значение свидетельствует о том, что связь между величиной возбуждённых уголовных дел и величиной таможенных проверок очень близка к функциональной (сильная по шкале Чэддока).

Проведём проверку коэффициента корреляции на значимость (существенность). Интерпретируя значение коэффициента корреляции, следует иметь в виду, что он рассчитан для ограниченного числа наблюдений и подвержен случайным колебаниям, как и сами значения x и y, на основе которых он рассчитан. Другими словами, как любой выборочный показатель, он содержит случайную ошибку и не всегда однозначно отражает действительно реальную связь между изучаемыми показателями. Для того чтобы оценить существенность (значимость) самого r и, соответственно, реальность измеряемой связи между х и у, необходимо рассчитать среднюю квадратическую ошибку коэффициента корреляции уr. Оценка существенности (значимости) r основана на сопоставлении значения r с его средней квадратической ошибкой: . [4]

Если число наблюдений небольшое (n<30), то уr рассчитывается по формуле (6):

, (6)

а значимость r проверяется на основе t-критерия Стьюдента, для чего определяется расчетное значение критерия по формуле (7) и сопоставляется c tТАБЛ.

. (7)

Исходя из нашей задачи мы видим, что число наблюдений небольшое, значит, оценивать существенность (значимость) линейного коэффициента корреляции будем по формулам:

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

= 0,992/0,048 = 20,667

Из значений по таблице Стьюдента видно, что при числе степеней свободы н = 9 - 2 = 7 и вероятности в = 95% (уровень значимости б =1 - в = 0,05) tтабл=2,36, а при вероятности 99% (б=0,01) tтабл=3,5, значит, tРАСЧ > tТАБЛ, что дает возможность считать линейный коэффициент корреляции r = 0,893 значимым.

Теперь можно производить подбор уравнения регрессии, которое представляет собой математическое описание изменения взаимно коррелируемых величин по эмпирическим данным. Уравнение регрессии должно определить, каким будет среднее значение результативного признака у при том или ином значении факторного признака х, если остальные факторы, влияющие на у и не связанные с х, не учитывать, т.е. абстрагироваться от них. Другими словами, уравнение регрессии можно рассматривать как вероятностную гипотетическую функциональную связь величины результативного признака у со значениями факторного признака х.

Найти в каждом конкретном случае тип функции, с помощью которой можно наиболее адекватно отразить ту или иную зависимость между признаками х и у, -- одна из основных задач регрессионного анализа. Выбор теоретической линии регрессии часто обусловлен формой эмпирической линии регрессии; теоретическая линия как бы сглаживает изломы эмпирической линии регрессии. Кроме того, необходимо учитывать природу изучаемых показателей и специфику их взаимосвязей.[4]

Линейное уравнение регрессии:

= a0 + a1x,

Параметр a1 в уравнении линейной регрессии называется коэффициентом регрессии, который показывает на сколько изменяется значение результативного признака у при изменении факторного признака х на единицу.

Составим вспомогательные расчеты для нахождения уравнения регрессии в виде таблицы 7.

Таблица 7. Вспомогательные расчеты для нахождения уравнения регрессии.

Год

x

y

x2

xy

2003

17509

37936

139428864

447948288

39854,538

3680788,057

803068428,5

2004

19291

58503

306565081

1024329027

59956,264

2111976,254

67843819,93

2005

20535

64097

372142681

1236495227

66239,596

4590717,619

3815787,187

2006

21854

68116

421686225

1398762060

70625,94

6299798,804

5919197,044

2007

23781

74552

477597316

1629259408

75276,734

525239,3708

50179287,38

2008

25064

84927

565535961

2019648987

82071,336

8154816,881

192608210,1

2009

27514

88688

628204096

2222876032

86595,194

4379836,954

338640744

2010

29476

94838

757020496

2609372732

95233,894

156732,0592

731209948,3

2011

30941

97829

126540001

473391667

37883,504

17635766,65

918665547,8

Итого:

215965

669486

3794720421

13062083428

613737

47535672,65

3111950970

Исходя из формул, находим уравнение регрессии:

а 1 = (13062083428/9 - 19845*68193) / 5273,668^2 = 3,526

а0 = 68193 - 3,526 * 19845 = -1780,47

Отсюда получаем уравнение регрессии: = (-1780,47) + 3,526 * х

Расчет ошибок параметров уравнения регрессии основан на использовании остаточной дисперсии, характеризующей расхождение (отклонение) между эмпирическими и теоретическими значениями результативного признака. Для линейного уравнения регрессии () средние ошибки параметров a1 и a0 определяются по формулам (8) и (9) соответственно:

(8) (9) Размещено на http://www.allbest.ru/

(10)

Значимость параметров проверяется путем сопоставления его значения со средней ошибкой. Обозначим это соотношение как t(10) :

(11)

Если выборка малая (n<30), то значимость параметра ai проверяется путем сравнения с табличным значения t-критерия Стьюдента при числе степеней свободы н=n-2 и заданном уровне значимости б. Если рассчитанное по формуле (20) значение больше табличного, то параметр считается значимым.

В нашем примере по формуле (10):

Размещено на http://www.allbest.ru/

Находим среднюю ошибку параметра а0 по формуле (8):

Размещено на http://www.allbest.ru/

Теперь находим среднюю ошибку параметра а1 по формуле (9):

Размещено на http://www.allbest.ru/

Теперь по формуле (11) для параметра а0:

Размещено на http://www.allbest.ru/

И по той же формуле для параметра а1:

Размещено на http://www.allbest.ru/

Так как выборка малая, то задавшись стандартной значимостью б=0,05 находим табличное значение tб=2,36, которое значительно меньше полученного значения 21,37 и выше, чем значение (-2,05), что свидетельствует о значимости обоих параметров уравнения регрессии.

Наряду с проверкой значимости отдельных параметров осуществляется проверка значимости уравнения регрессии в целом или, что-то же самое, проверка адекватности модели с помощью критерия Фишера. В нашем примере получим:

Размещено на http://www.allbest.ru/

Сравнивая расчетное значение критерия Фишера Fр = 45,83 с табличным Fт = 5,59, при числе степеней свободы н1 = k - 1 = 2 -1 = 1 и н2 = n - k = 9 - 2 = 7 и стандартном уровне значимости б = 0,05, можно сделать вывод, что уравнение регрессии значимо.[4]

В заключении можно сказать, что величина возбуждённых дел на таможенной территории России за период с 2003 года по 2011 год практически напрямую зависела от количества проверок, проводимых таможенными органами. Выявили тесную корреляционную связь.

Делись добром ;)