Статистика таможенных правонарушений
2.3 Корреляционный анализ
Корреляционная связь - это связь, проявляющаяся при большом числе наблюдений в виде определенной зависимости между средним значением результативного признака и признаками-факторами. Другими словами, корреляционную связь условно можно рассматривать как своего рода функциональную связь средней величины одного признака (результативного) со значением другого (или других). При этом, если рассматривать связь средней величины результативного показателя y с одним признаком-фактором x, корреляция называется парной, а если факторных признаков 2 и более (x1, x2, …, xm) - множественной.
По характеру изучений x и y в парной корреляции различают прямую и обратную связь. При прямой связи значения обоих признаков изменяются в одном направлении, т.е. с увеличением (уменьшением) значений x увеличиваются (уменьшаются) и значения y. При обратной связи значения факторного и результативного признаков изменяются в разных направлениях.
Изучение корреляционных связей сводится к решению следующих задач:
выявление наличия (отсутствия) корреляционной связи между изучаемыми признаками;
измерение тесноты связи между двумя (и более) признаками с помощью специальных коэффициентов (эта часть исследования именуется корреляционным анализом);
определение уравнения регрессии - математической модели, в которой среднее значение результативного признака у рассматривается как функция одной или нескольких переменных - факторных признаков (эта часть исследования именуется регрессионным анализом).
Для выявления наличия и характера корреляционной связи между двумя признаками в статистике используется ряд методов.
1. Рассмотрение параллельных данных (значений x и y в каждой из n единиц). Единицы наблюдения необходимо расположить по возрастанию значений факторного признака x и затем сравнить с ним (визуально) поведение результативного признака y (таблица 4).
2. Линейный коэффициент корреляции - самый популярный измеритель тесноты линейной связи между двумя количественными признаками x и y. Он основан на предположении, что при полной независимости признаков x и у отклонения значений факторного признака от средней () носят случайный характер и должны случайно сочетаться с различными отклонениями (). При наличии значительного перевеса совпадений или несовпадений таких отклонений делается предположение о наличии связи между x и y.[4]
Таблица 4. Параллельные данные.
Год |
Количество проверок, х |
Количество возбужденных дел, y |
|
2003 |
17509 |
58503 |
|
2004 |
19291 |
64097 |
|
2005 |
20535 |
68116 |
|
2006 |
21854 |
74552 |
|
2007 |
23781 |
84927 |
|
2008 |
25064 |
88688 |
|
2009 |
27514 |
94838 |
|
2010 |
29476 |
96764 |
|
2011 |
30941 |
97829 |
В линейном коэффициенте корреляции учитываются не только знаки отклонений от средних величин, но и значения самих отклонений, выраженные для сопоставимости в единицах среднего квадратического отклонения t (1) и (2):
(1) и (2)
Линейный коэффициент корреляции r представляет собой среднюю величину из произведений нормированных отклонений для x и у (3) :
Размещено на http://www.allbest.ru/
(3)
Числитель формулы (3), делённый на n, представляющий собой среднее произведение отклонений значений двух признаков от их средних значений, называется коэффициентом ковариации - это мера совместной вариации факторного x и результативного y признаков (4):
(4)
Недостатком коэффициента ковариации является то, что он не нормирован, в отличие от линейного коэффициента корреляции. Очевидно, что линейный коэффициент корреляции представляет собой частное от деления ковариации между x и y на произведение их средних квадратических отклонений (14):
Размещено на http://www.allbest.ru/
(5)
Линейный коэффициент корреляции может принимать значения от -1 до +1, причем знак определяется в ходе решения. Если , то r=0, что означает отсутствие линейной зависимости между х и у, а при r=1 - функциональная зависимость между х и у. Следовательно, всякое промежуточное значение r от 0 до 1 характеризует степень приближения корреляционной связи между х и у к функциональной. Существует эмпирическое правило (шкала Чэддока) для оценки тесноты связи, представленное в таблице 5.
Таблица 5. Шкала Чеддока.
| r | |
Теснота связи |
|
менее 0,1 |
отсутствует линейная связь |
|
0,1 ч 0,3 |
слабая |
|
0,3 ч 0,5 |
умеренная |
|
0,5 ч 0,7 |
заметная |
|
более 0,7 |
сильная (тесная) |
Таким образом, коэффициент корреляции при линейной зависимости служит как мерой тесноты связи, так и показателем, характеризующим степень приближения корреляционной зависимости между х и у к линейной. Поэтому близость значения r к 0 в одних случаях может означать отсутствие связи между х и у, а в других свидетельствовать о том, что зависимость не линейная.[4]
Для начала построим вспомогательную таблицу 6.
Таблица 6. Вспомогательные расчеты линейного коэффициента корреляции.
Год |
x |
y |
tx |
ty |
tx ty |
|||
2003 |
17509 |
37936 |
6534089 |
915486049 |
-1,524 |
-1,615 |
2,461 |
|
2004 |
19291 |
58503 |
5494256 |
93896100 |
-0,443 |
-0,517 |
0,229 |
|
2005 |
20535 |
64097 |
344276 |
16777216 |
-0,105 |
-0,219 |
0,023 |
|
2006 |
21854 |
68116 |
513460 |
5929 |
0,131 |
-0,004 |
-0,0005 |
|
2007 |
23781 |
74552 |
4073441 |
40436881 |
0,381 |
0,339 |
0,129 |
|
2008 |
25064 |
84927 |
15529456 |
280026756 |
0,746 |
0,893 |
0,666 |
|
2009 |
27514 |
88688 |
27275321 |
420045025 |
0,99 |
1,094 |
1,083 |
|
2010 |
29476 |
94838 |
58850921 |
709956025 |
1,454 |
1,422 |
2,068 |
|
2011 |
30941 |
97829 |
73928576 |
681732100 |
-1,63 |
-1,394 |
2,272 |
|
Итого: |
215965 |
669486 |
270304196 |
3358362081 |
|
|
8,9305 |
Год |
xy |
||
2003 |
243175509 |
447948288 |
|
2004 |
22635840 |
1024329027 |
|
2005 |
-35509738 |
1236495227 |
|
2006 |
-53130 |
1398762060 |
|
2007 |
12775231 |
1629259408 |
|
2008 |
65865024 |
2019648987 |
|
2009 |
106963405 |
2222876032 |
|
2010 |
204340505 |
2609372732 |
|
2011 |
224441560 |
473391667 |
|
Итого: |
844634206 |
13062083428 |
В нашей задаче:
x = 178605/9 = 19845 = /270304196/9 = 1733,147
y =669486 /9 = 74387 Размещено на http://www.allbest.ru/
= /3358362081/9 = 19317,125
Тогда линейный коэффициент корреляции по формуле: r = 8,9305/9 = 0,992.
Найденное значение свидетельствует о том, что связь между величиной возбуждённых уголовных дел и величиной таможенных проверок очень близка к функциональной (сильная по шкале Чэддока).
Проведём проверку коэффициента корреляции на значимость (существенность). Интерпретируя значение коэффициента корреляции, следует иметь в виду, что он рассчитан для ограниченного числа наблюдений и подвержен случайным колебаниям, как и сами значения x и y, на основе которых он рассчитан. Другими словами, как любой выборочный показатель, он содержит случайную ошибку и не всегда однозначно отражает действительно реальную связь между изучаемыми показателями. Для того чтобы оценить существенность (значимость) самого r и, соответственно, реальность измеряемой связи между х и у, необходимо рассчитать среднюю квадратическую ошибку коэффициента корреляции уr. Оценка существенности (значимости) r основана на сопоставлении значения r с его средней квадратической ошибкой: . [4]
Если число наблюдений небольшое (n<30), то уr рассчитывается по формуле (6):
, (6)
а значимость r проверяется на основе t-критерия Стьюдента, для чего определяется расчетное значение критерия по формуле (7) и сопоставляется c tТАБЛ.
. (7)
Исходя из нашей задачи мы видим, что число наблюдений небольшое, значит, оценивать существенность (значимость) линейного коэффициента корреляции будем по формулам:
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
= 0,992/0,048 = 20,667
Из значений по таблице Стьюдента видно, что при числе степеней свободы н = 9 - 2 = 7 и вероятности в = 95% (уровень значимости б =1 - в = 0,05) tтабл=2,36, а при вероятности 99% (б=0,01) tтабл=3,5, значит, tРАСЧ > tТАБЛ, что дает возможность считать линейный коэффициент корреляции r = 0,893 значимым.
Теперь можно производить подбор уравнения регрессии, которое представляет собой математическое описание изменения взаимно коррелируемых величин по эмпирическим данным. Уравнение регрессии должно определить, каким будет среднее значение результативного признака у при том или ином значении факторного признака х, если остальные факторы, влияющие на у и не связанные с х, не учитывать, т.е. абстрагироваться от них. Другими словами, уравнение регрессии можно рассматривать как вероятностную гипотетическую функциональную связь величины результативного признака у со значениями факторного признака х.
Найти в каждом конкретном случае тип функции, с помощью которой можно наиболее адекватно отразить ту или иную зависимость между признаками х и у, -- одна из основных задач регрессионного анализа. Выбор теоретической линии регрессии часто обусловлен формой эмпирической линии регрессии; теоретическая линия как бы сглаживает изломы эмпирической линии регрессии. Кроме того, необходимо учитывать природу изучаемых показателей и специфику их взаимосвязей.[4]
Линейное уравнение регрессии:
= a0 + a1x,
Параметр a1 в уравнении линейной регрессии называется коэффициентом регрессии, который показывает на сколько изменяется значение результативного признака у при изменении факторного признака х на единицу.
Составим вспомогательные расчеты для нахождения уравнения регрессии в виде таблицы 7.
Таблица 7. Вспомогательные расчеты для нахождения уравнения регрессии.
Год |
x |
y |
x2 |
xy |
||||
2003 |
17509 |
37936 |
139428864 |
447948288 |
39854,538 |
3680788,057 |
803068428,5 |
|
2004 |
19291 |
58503 |
306565081 |
1024329027 |
59956,264 |
2111976,254 |
67843819,93 |
|
2005 |
20535 |
64097 |
372142681 |
1236495227 |
66239,596 |
4590717,619 |
3815787,187 |
|
2006 |
21854 |
68116 |
421686225 |
1398762060 |
70625,94 |
6299798,804 |
5919197,044 |
|
2007 |
23781 |
74552 |
477597316 |
1629259408 |
75276,734 |
525239,3708 |
50179287,38 |
|
2008 |
25064 |
84927 |
565535961 |
2019648987 |
82071,336 |
8154816,881 |
192608210,1 |
|
2009 |
27514 |
88688 |
628204096 |
2222876032 |
86595,194 |
4379836,954 |
338640744 |
|
2010 |
29476 |
94838 |
757020496 |
2609372732 |
95233,894 |
156732,0592 |
731209948,3 |
|
2011 |
30941 |
97829 |
126540001 |
473391667 |
37883,504 |
17635766,65 |
918665547,8 |
|
Итого: |
215965 |
669486 |
3794720421 |
13062083428 |
613737 |
47535672,65 |
3111950970 |
Исходя из формул, находим уравнение регрессии:
а 1 = (13062083428/9 - 19845*68193) / 5273,668^2 = 3,526
а0 = 68193 - 3,526 * 19845 = -1780,47
Отсюда получаем уравнение регрессии: = (-1780,47) + 3,526 * х
Расчет ошибок параметров уравнения регрессии основан на использовании остаточной дисперсии, характеризующей расхождение (отклонение) между эмпирическими и теоретическими значениями результативного признака. Для линейного уравнения регрессии () средние ошибки параметров a1 и a0 определяются по формулам (8) и (9) соответственно:
(8) (9) Размещено на http://www.allbest.ru/
(10)
Значимость параметров проверяется путем сопоставления его значения со средней ошибкой. Обозначим это соотношение как t(10) :
(11)
Если выборка малая (n<30), то значимость параметра ai проверяется путем сравнения с табличным значения t-критерия Стьюдента при числе степеней свободы н=n-2 и заданном уровне значимости б. Если рассчитанное по формуле (20) значение больше табличного, то параметр считается значимым.
В нашем примере по формуле (10):
Размещено на http://www.allbest.ru/
Находим среднюю ошибку параметра а0 по формуле (8):
Размещено на http://www.allbest.ru/
Теперь находим среднюю ошибку параметра а1 по формуле (9):
Размещено на http://www.allbest.ru/
Теперь по формуле (11) для параметра а0:
Размещено на http://www.allbest.ru/
И по той же формуле для параметра а1:
Размещено на http://www.allbest.ru/
Так как выборка малая, то задавшись стандартной значимостью б=0,05 находим табличное значение tб=2,36, которое значительно меньше полученного значения 21,37 и выше, чем значение (-2,05), что свидетельствует о значимости обоих параметров уравнения регрессии.
Наряду с проверкой значимости отдельных параметров осуществляется проверка значимости уравнения регрессии в целом или, что-то же самое, проверка адекватности модели с помощью критерия Фишера. В нашем примере получим:
Размещено на http://www.allbest.ru/
Сравнивая расчетное значение критерия Фишера Fр = 45,83 с табличным Fт = 5,59, при числе степеней свободы н1 = k - 1 = 2 -1 = 1 и н2 = n - k = 9 - 2 = 7 и стандартном уровне значимости б = 0,05, можно сделать вывод, что уравнение регрессии значимо.[4]
В заключении можно сказать, что величина возбуждённых дел на таможенной территории России за период с 2003 года по 2011 год практически напрямую зависела от количества проверок, проводимых таможенными органами. Выявили тесную корреляционную связь.