Коэффициент детерминации и эмпирическое корреляционное отношение. Дисперсия альтернативного признака. Коэффициент корреляции и корреляционное отношение, их расчет и области применения

17.07.2019

Для измерения тесноты связи применяется несколько показателœей. При парной связи теснота связи определяется, прежде всœего, корреляционным отношением, ĸᴏᴛᴏᴩᴏᴇ обозначается η. Квадрат корреляционного отношения - ϶ᴛᴏ отношение межгрупповой дисперсии результативного признака, которая выражает влияние различий группировочного факторного признака на среднюю величину результативного признака, к общей дисперсии результативного признака, выражающей влияние на него всœех причин и условий. Квадрат корреляционного отношения принято называть коэффициентом детерминации.

ыми явлениями и их признаками: ­­­­­­­­­­­­­________________ или жестко детермини

где k- число групп

N – число наблюдений

y i – исходные значения результативного признака

y j – средние значения результативного признака для данной группы

y – среднее значение признака

f j – численность группы

Указанная выше формула применяется при расчете показателя тесноты связи по аналитической группировке. При вычислении корреляционного отношения по уровню связи применяется формула:

Сумма квадратов в числителœе ­- ϶ᴛᴏ объясненная связью с фактором х (факторами) дисперсия результативного признака у. Она вычисляется по индивидуальным данным, полученным для каждой единицы совокупности на базе уравнения регрессии.

В случае если уравнение выбрано неверно или сделана ошибка при расчете его параметров, то сумма квадратов в числителœе может оказаться больше чем в знаменателœе, и отношение утратит тот смысл, который должно иметь. Чтобы избежать ошибочного результата͵ лучше вычислять корреляционное отношение по следующей формуле:

В корне указанной формулы лежит известное правило разложения сумм квадратов отклонений при группировке совокупности:

D общ = D межгр +D внутригр

Согласно этому правилу можно вместо межгрупповой (факторной) дисперсии использовать разность:

D общ –D внутригр

что дает:

При расчете η не по группировке, а по уравнению корреляционной связи (уравнению регрессии) мы используем формулу. В этом случае правило разложения суммы квадратов отклонений результативного признака записывается как

D общ = D кор +D ост

Важнейшее положение, ĸᴏᴛᴏᴩᴏᴇ следует теперь усвоить любому, желающему правильно применять метод корреляционно-регрессионого анализа, состоит в интерпретации формул (1.2) и (1.3). Это положение гласит:

Уравнение корреляционной связи измеряет зависимость между вариацией результативного признака и вариацией факторного признака (признаков). Меры тесноты связи измеряют долю вариации результативного признака, которая связанна с вариацией факторного признака (признаков).

Эмпирическое корреляционное отношение - понятие и виды. Классификация и особенности категории "Эмпирическое корреляционное отношение" 2017, 2018.

3. Эмпирическое корреляционное отношение рассчитывается по формуле

Межгрупповая дисперсия, характеризующая величину из квадрат отклонения групповых средних от общего среднего результативного признака.

Общая дисперсия, показывающая среднюю величину из квадратов отклонений значения результативного признака от их среднего уровня.

Построим таблицу для вычисления общей дисперсии (см. табл.8)

Таблица 8

Таблица данных для определения общей дисперсии

N,п/п Расходы на продукты питания
1 21 441
2 16 256
3 26,1 681,21
4 28 784
5 26 676
6 22,5 506,25
7 27,6 761,76
8 35 1225
9 23,9 571,21
10 22,5 506,25
11 15 225
12 25,2 635,04
13 29 841
14 21,4 457,96
15 24,9 620,01
16 24,8 615,04
17 16 256
18 23,6 556,96
19 27,2 739,84
20 35 1225
21 17 289
22 23,8 566,44
23 22,6 510,76
24 25 625
25 27 729
26 30 900
27 35 1225
28 25,4 645,16
29 27,2 739,84
30 26,3 691,69
Всего 750 19502,42

Общая дисперсия результативного признака вычисляется по формуле:

=

Межгрупповая дисперсия вычисляется по формуле:

Построим вспомогательную таблицу для вычисления данных (см. табл.9)


Таблица 9

Таблица данных для расчета межгрупповой дисперсии

Номер группы Количество домохозяйств, шт Расходы на продукты питания, тыс.руб
Всего В среднем на одно домохозяйство
f
1 28-40 3 48 16 -9 81 243
2 40-52 5 105 21 -4 16 80
3 52-64 12 300 25 0 0 0
4 64-76 6 165 27,5 2,5 6,25 37,5
5 76-88 4 132 33 8 64 256
Всего 30 750 616,5

Вывод: связь между факторами весьма тесная, т.к. принимает значения от 0,9 до 0,99.

Коэффициент детерминации – это квадрат эмпирического корреляционного отношения. Следовательно,

(81,9%)

Вывод: выпуск продукции на данных предприятиях на 81,9% зависит от фондоотдачи и на 18,1 % от других факторов.

Задание 3

По результатам выполнения задания 1 с вероятностью 0,9543 определите:

1. Ошибку выборки среднего валового дохода на одного члена домохозяйства в год и границы, в которых будет он находиться в генеральной совокупности.

2. Ошибку выборки доли домохозяйств с уровнем валового дохода менее 52 тыс руб. и более млн. руб. и границы, в которых будет находиться генеральная доля.

1. Ошибка выборки для средней определяем по формуле:

, где

дисперсия выборочной совокупности;

n- численность выборки;

t- коэффициент доверия, который определяется по таблице значений интегральной функции Лапласа при заданной вероятности. В данном случае при Р=0,954 значение t=2.

N-число единиц в генеральной совокупности, N=6000 шт.

Рассчитаем дисперсию. Данные представим в виде таблицы (см. табл.11).

Таблица 11

Данные для расчета дисперсии уровня фондоотдачи

Номер группы Группировка домохозяйств по валовому доходу Количество домохозяйств, шт
f
1 28-40 3 34 -25,1 630,01 1890,03
2 40-52 5 46 -13,1 171,61 858,05
3 52-64 12 58 -1,1 1,21 14,52
4 64-76 6 70 10,9 118,81 712,86
5 76-88 4 82 22,9 524,41 2097,64
Всего 30 5573,1

ОТВЕТ

Количественная оценка тесноты связи по эмпирическим данным состоит в расчете показателей тесноты связи:

· Эмпирический коэффициент детерминации (эмпирическое дисперсионное отношение) - r 2 .

Данный показатель рассчитывается по данным аналитической группировки (табл.), как отношение межгрупповой дисперсии признака-результата Y (d y 2) к общей дисперсии Y (s y 2):

Согласно теореме о разложении дисперсии межгрупповая дисперсия связана с общей дисперсией: s y 2 =d y 2 +e y 2 . Тогда эмпирический коэффициент детерминации может быть рассчитан через остаточную дисперсию по формуле:

где s j 2 – дисперсия признака-результата Y внутри j-ой группы.

Эмпирический коэффициент детерминации характеризует силу влияния группировочного признака (Х) на образование общей вариации результативного признака Y и показывает процент (долю) вариации признака-результата, обусловленную признаком-фактором, положенным в основу группировки.

Расчет r 2 удобно вести в таблице:

Признак- фактор Х j N j Среднее значение признака-результата s j 2 N j
X 1 N 1 s 1 2 N 1
X 2 N 2 s 2 2 N 2
.... ...
X m N m s m 2 N m
Итого N Х ås j 2

Тогда .

Рассмотрим пример. Пусть дана совокупность из 20 рабочих, характеризующихся признаками: Y - выработка рабочего (шт./смену) и Х- квалификация (разряд). Исходные данные представлены в таблице:

X
Y

Требуется оценить тесноту связи между признаками с помощью эмпирического коэффициента детерминации (r 2).

Для расчета r 2 произведем аналитическую группировку совокупности. В качестве признака-фактора возьмем Х (разряд рабочего), в качестве признака-результата – Y выработку рабочего). Аналитическая группировка производится по признаку Х. В данном случае она будет дискретная (т.к. значения признака Х довольно часто повторяются). Количество групп равно числу значений признака Х в совокупности, т.е. 6. Результаты группировки и расчета r 2 сведем в таблицу:

Признак-фактор Х Признак-результат Y Количество единиц в группе, N j Среднее значение признака-результата в группе, ( - ) 2 ·N j Дисперсия признака-результата в группе, s 2 j s 2 j ·N j
(10+12+13)/3=11,7 (11,7-17,1) 2 3=88,56 s 2 1 =((10-11,7) 2 +(12-11,7) 2 +(13-11,7) 2)/3=1,56 4,7
(11+14)/2=12,5 (12,5-17,1) 2 2=42,3 s 2 2 =((11-12,5) 2 +(14-12,5) 2)/2=2,25 4,5
(12+13+15+16)/4= 14 (14-17,1) 2 4=38,4 s 2 3 =((12-14) 2 +(13-14) 2 +(15-14) 2 +(16-14) 2)/4=2,5
(15+17+17+18)/4= 16,75 (16,75-17,1) 2 4=0,49 s 2 4 =((15-16,75) 2 +(17-16,75) 2 ++(17-16,75) 2 +(18-16,75) 2)/4=1,9 4,75
(18+20+22)/3=20 (20-17,1) 2 3=25,23 s 2 5 =((18-20) 2 +(20-20) 2 +(22-20) 2)/3=2,7
(23+24+27+25)/4= 24,75 (24,75-17,1) 2 4=234,1 s 2 6 =((23-24,75) 2 +(24-24,75) 2 +(27-24,75) 2 +(25-24,75) 2)/4=2,19 8,75
=17,1 429,1 40,7

Эмпирический коэффициент детерминации равен отношению межгрупповой дисперсии признака-результата (d y 2) к общей дисперсии признака-результата (s y 2): r 2 = d y 2 /s y 2 = d y 2 /(d y 2 +e y 2).

Межгрупповая дисперсия Y будет равна: d y 2 = å( - ) 2 ·N j / N = 429,1/20=21,45.

Остаточная дисперсия Y будет равна: e y 2 = ås 2 j ·N j / N= 40,7/20= 2,035.

Тогда: r 2 =21,45/(21,45+2,035)= 429,1/(429,1+40,7)=0,913.

Вывод: 91,3% вариации выработки рабочих обусловлена влиянием фактора разряд.

· Эмпирическое корреляционное отношение - r.

Данный показатель представляет собой корень из эмпирического коэффициента детерминации. Оно показывает тесноту связи (не только линейной!) между группировочным и результативным признаками. Область допустимых значений эмпирического корреляционного отношения от 0 до +1.

Максимально тесная связь – это связь функциональная, когда каждое значение признака-результата Y однозначно определяется значением признака-фактора Х (т.е. результатом группировки). В этом случае дисперсия групповых средних (d y 2) равна общей дисперсии (s y 2), т.е. внутригрупповой вариации не будет. При этом остаточная дисперсия (e y 2) равна 0, а эмпирический коэффициент детерминации равен 1.

Если связь между признаками отсутствует, то все групповые средние равны между собой, межгрупповой вариации не будет (d y 2 =0), а эмпирический коэффициент детерминации равен 0.

Рассчитаем эмпирическое корреляционное отношение для нашего примера: r= 0,9555. Вывод: признаки «выработка рабочего» и «разряд» связаны довольно тесной связью.

Показатели r и r 2 определяются не только наличием связи признаков Х и Y, но и фактом группировки первичных данных. С ростом числа групп m межгрупповая дисперсия d 2 растет и приближается к общей дисперсии. Если число групп меньше количества единиц совокупности N, то значения r и r 2 никогда не будут равны 1, даже при строгой функциональной связи.

Заметим, что сама по себе величина показателя тесноты связи не является доказательством наличия причинно-следственной связи между исследуемыми признаками, а является оценкой степени взаимной согласованности в изменениях признаков. Установлению причинно-следственной зависимости должен обязательно предшествовать анализ качественной природы явлений.

Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор. Эмпирическое корреляционное среднее варьирует от 0 до 1.

Находят эмпирическое корреляционное отношение обычно в следующих типах задач:

  • 1) когда по двум рядам данным X и Y необходимо произвести аналитическую группировку
  • 2) группировка уже произведена, необходимо проверить правило сложения дисперсий
  • 3) по двум рядам данным X и Y необходимо найти уравнение регрессии и оценить его значимость

Формула дисперсии альтернативного признака

Исходя из изложенного выше, можно вывести формулу нахождения дисперсии альтернативного признака, если нам известна процентная доля такого признака в общем объеме выборки.

Изначально мы предполагаем, что признак принимает только два значения.

Таким образом, сумма доли элементов, в которых элементы статистического ряда имеют значение признака "нет" и элементов ряда, которые имеют значение признака "да" - равно единице.

Для нахождения среднего значения ряда, подставим значения альтернативных признаков (0 и 1) в формулу нахождения среднего взвешенного значения статистического ряда. Откуда, совершенно очевидно, в знаменателе будет единица, а в числителе - процентное значение элементов "1". То есть ровно процентное значение элементов с признаком "1". (Формула 2)

Формула дисперсии - это средневзвешенное значение квадратов отклонений каждого значения ряда данных. (Формула 3)

Поскольку в нашем ряду данные имеют только два типа значений - "0" и "1", то формула нахождения дисперсии для ряда, имеющего альтернативный признак сводится к Формуле 4. Пояснение. поскольку мы только что вывели, что среднее значение выборки равно р (Формула 2), то значение квадрата разности значения (0/1) и среднего значения, согласно Формулы 1, будет в первом случае (1-p)2 , а во втором случае (1-q)2 , теперь, применив следствие из первой формулы: q = 1 - p, p = 1- q . Получим p2 и q2 . Соответственно, доля значений "0" и "1" равна p и q, в результате в числителе и получается q2 p и p2 q. Сумма долей признаков значений "0" и "1" согласно Формуле 1 равна 1. В итоге Формула 4 и принимает значение pq, которое и будет равно значению дисперсии альтернативного признака. Исходя из найденного значения величины дисперсии альтернативного признака, найдем среднеквадратичное отклонение (Формула 5). Поставив значение из Формулы 1 в Формулу 5, получим формулу среднеквадратичного отклонения для дисперсии ряда с альтернативным признаком.

Величина 0,86 характеризует существенную связь между группировочным и результативным признаками.

Величина называется коэффициентом детерминации и показывает долю межгрупповой дисперсии в общей дисперсии.

Наряду с вариацией количественных признаков может наблюдаться и вариация качественных признаков. Такое изучение вариации достигается, как и для долей количественных признаков, посредством вычисления и анализа следующих видов дисперсий.

Внутригрупповая дисперсия доли определяется по формуле

. (3.17)

Средняя из внутригрупповых дисперсий рассчитывается как

. (3.18)

Формула межгрупповой дисперсии имеет следующий вид:

, (3.19)

где n i – численность единиц в отдельных группах;

–доля изучаемого признака во всей совокупности, которая определяется по формуле

. (3.20)

Общая дисперсия имеет вид

. (3.21)

Три вида дисперсии связаны между собой следующим образом:

. (3.22)

Пример 3.4

Определим групповые дисперсии, среднюю из групповых, межгрупповую и общую дисперсии по данным табл. 3.3.

Таблица 3.3

Численность и удельный вес одной из категорий крупного рогатого скота фермерских хозяйств района

Решение

Определим долю дойных коров в целом по трем хозяйствам:

;

Общая дисперсия доли дойных коров:

Внутригрупповые дисперсии:

; ;
.

Средняя из внутригрупповых дисперсий:

Межгрупповая дисперсия:

Используя правило сложения дисперсий, получаем: 0,1025+0,0031=0,1056. Пример решен правильно.

Пример 3.5

По данным выборочного обследования заработной платы работников бюджетной сферы получены следующие показатели (табл. 3.4).

Таблица 3.4

Определите:

    среднюю заработную плату по двум отраслям;

    дисперсии заработной платы:

а) среднюю из групповых дисперсий (отраслевых),

б) межгрупповую (межотраслевую),

    коэффициент детерминации;

    эмпирическое корреляционное отношение.

Решение

    Средняя заработная плата работников по двум отраслям рассчитывается по формуле (2.10):

руб.

    Дисперсии заработной платы:

а) средняя из групповых дисперсий по (3.14)

б) межгрупповая дисперсия согласно (3.12)

.

в) общая дисперсия, полученная на основании правила сложения дисперсий (3.15):

    Коэффициент детерминации равен величине

; (3.23)

т.е.
, или 44,24%.

Он показывает, что оплата труда на 44,24% зависит от отраслевой принадлежности работников и на 55,76% – от внутриотраслевых причин.

По формуле (3.16) эмпирическое корреляционное отношение
,

что свидетельствует о существенном влиянии на дифференциацию заработной платы отраслевых особенностей.

Похожие статьи