logo
Uchebnoe_posobie_Tam_stat1

4.1. Понятие о стохастической (статистической) и корреляционной связи.

Современная наука изучает взаимосвязи явлений природы и общества в интересах повышения управляемости и предсказуемости исследуемых процессов. Величины, характеризующие различные свойства явлений, могут быть независимыми или взаимосвязанными. Различают два вида зависимостей между величинами (факторами): функциональную и статистическую [6, 7].

При функциональной зависимости двух величин значению одной из них обязательно соответствует одно или несколько точно определенных значений другой величины. Функциональная связь двух факторов возможна лишь при условии, что вторая величина зависит только от первой и не зависит ни от каких других величин. Функциональная связь одной величины с множеством других возможна, если эта величина зависит только от этого множества факторов. В реальных ситуациях существует бесконечно большое количество свойств самого объекта и внешней среды, влияющих друг на друга, поэтому такого рода связи не существуют, иначе говоря, функциональные связи являются математическими абстракциями. Их применение допустимо тогда, когда соответствующая величина в основном зависит от соответствующих факторов.

При исследовании данных таможенной статистики большинство параметров (вес, стоимость, цена товара и т.д.) следует считать случайными, что исключает проявление однозначного соответствия значений. Воздействие общих факторов, наличие объективных закономерностей в поведении объектов приводят лишь к проявлению статистической зависимости. Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения других (другой), и эти другие величины принимают некоторые значения с определенными вероятностями. Функциональную зависимость в таком случае следует считать частным случаем статистической: значению одного фактора соответствуют значения других факторов с вероятностью, равной единице. Однако на практике такое рассмотрение функциональной связи применения не нашло.

Более важным частным случаем статистической зависимости является корреляционная зависимость, характеризующая взаимосвязь значений одних случайных величин со средним значением других, хотя в каждом отдельном случае любая взаимосвязанная величина может принимать различные значения.

Термин «корреляция» был введен в науку выдающимся английским естествоиспытателем Френсисом Гальтоном8 в 1886 г.

Корреля́ция – статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Математической мерой корреляции двух случайных величин служит коэффициент корреляции.

Корреляционная связь между признаками может возникать различными путями, важнейшим из них является причинная зависимость вариации результативного признака от вариации факторного признака, т.е. результативный признак формирует свои значения под влиянием изменения значения факторного признака.

Классификация корреляционных связей может быть различной в зависимости от признака, положенного в ее основу. Корреляционные связи различаются:

– по направлению: 1) прямые (положительные), когда зависимая переменная растет с увеличением факторного признака; 2) обратные (отрицательные), при которых рост зависимой переменной сопровождается уменьшением факторного признака;

– по аналитической форме: 1) линейные, когда между признаками проявляются линейные отношения; 2) нелинейные, когда взаимосвязь между признаками в среднем выражается нелинейной функцией. Прямолинейной может быть, например, связь между стажем работы сотрудника таможенных органов и результативностью применяемых им интуитивных профилей рисков. Интересно, что в то же время криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения сотрудником задачи (рис. 4.1). При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности.

Рис.4.1. Связь между эффективностью решения задачи и силой мотивационной тенденции

– по количеству взаимодействующих факторов: 1) парные, если характеризуется связь двух признаков; 2) множественные, если изучаются более чем две переменные;

– по силе: 1) слабые и 2) сильные; при этом сила связи интерпретируется в соответствии с общепринятыми критериями;

– по характеру связи: 1) непосредственные; 2) косвенные, если существует третья величина, являющаяся связующим звеном между изучаемыми признаками; 3) ложные – связи, установленные формально и подтвержденные только количественными оценками, не имеющими под собой качественной основы или вообще бессмысленные.

В наиболее общем виде задача таможенной статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая – регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов и др.

Поэтому в данном контексте можно говорить о корреляционном анализе в широком смысле – когда всесторонне характеризуется взаимосвязь. В то же время выделяют корреляционный анализ в узком смысле – когда исследуется сила связи – и регрессионный анализ, в ходе которого оцениваются ее форма и воздействие одних факторов на другие.

Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов оказывающих наибольшее влияние на результативный признак.

Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значении зависимой переменной.

Решение названных задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых дает основание говорить о статистическом изучении взаимосвязей.

Следует заметить, что традиционные методы корреляции и регрессии широко представлены в разного рода статистических пакетах программ для ЭВМ. Исследователю остается только правильно подготовить информацию, выбрать удовлетворяющий требованиям анализа пакет программ и быть готовым к интерпретации полученных результатов. Алгоритмов вычисления параметров связи существует множество, и в настоящее время вряд ли целесообразно проводить такой сложный вид анализа вручную. Вычислительные процедуры представляют самостоятельный интерес, но знание принципов изучения взаимосвязей, возможностей и ограничений тех или иных методов интерпретации результатов является обязательным условием исследования.

Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, эти методы – параметрические – и принято называть корреляционными.

Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Их преимуществом является и простота вычислений.

Применение методов корреляционно-регрессионного анализа для выявления связи между признаками, характеризующими таможенные правонарушения (в интересах управления рисками), рекомендовано Всемирной таможенной организацией. При этом особую значимость приобретают технологии компьютерной обработки статистических данных в интересах выявления скрытых закономерностей – технологии Data Mining.