Эмпирическое корреляционное отношение. Коэффициент детерминации что измеряет — формула

17.07.2019

Что понимается под внутригрупповой дисперсией для совокупности? Какова формула ее расчета? Приведите пример. Что понимается под межгрупповой дисперсией совокупности? Какова формула ее расчета? Приведите пример.

Внутригрупповая дисперсия () свидетельствует о случайной вариации, которая не зависит от признака, положенного в основу группировки.

, где

Средняя величина в группе

Средняя внутригрупповая дисперсия рассчитывается следующим образом: сначала рассчитываются дисперсии по отдельным группам (), затем рассчитывается средняя внутригрупповая дисперсия :

Характеризует систематическую вариацию, т.е. различия в величине исследуемого признака, который положен в основу группировки. Эта дисперсия рассчитывается по формуле

, где

Средняя величина по отдельной группе

n i - число единиц в группе

- общая средняя арифметическая всей исследуемой совокупности.

Все три вида дисперсии связаны между собой: общая дисперсия равна сумме средней внутригрупповой дисперсии и межгрупповой дисперсии:

Данное соотношение отражает закон, который называют правилом сложения дисперсий .

20.

Что понимается под общей дисперсией совокупности? Какова формула ее расчета? Влияет ли способ разделения на группы на значения общей дисперсии? Приведите пример.

Общая дисперсия () характеризует вариацию признака всей совокупности под влиянием всех тех факторов, которые обусловили данную вариацию. Эта величина определяется по формуле

, где

общая средняя арифметическая всей исследуемой совокупности.

С другой стороны общая дисперсия равна сумме средней внутригрупповой дисперсии и межгрупповой дисперсии:

Данное соотношение отражает закон, который называют правилом сложения дисперсий .. Благодаря правилу сложения дисперсий можно определить, какая часть общей дисперсии находится под влиянием признака-фактора, положенного в основу группировки.

Чем выше доля межгрупповой дисперсии в общей дисперсии , тем сильнее влияние факторного признака (разряда) на результативный (выработку).

Эта доля характеризуется эмпирическим коэффициентом детерминации:

Для качественной оценки тесноты связи между признаками пользуются соотношениями Чэддока .

0-0,2

0,2-0,3

0,3-0,5

0,5-0,7

0,7-0,9

0,9-0,99

Сила связи

отсутствует

очень слабая

слабая

умеренная

заметная

тесная

весьма тесная

функцио -

нальная

21.

Что показывает коэффициент детерминации? Какова формула его расчета? В каких единицах измеряется этот показатель? Каковы возможные значения этого показателя? Что показывает эмпирическое корреляционное отношение? Какова формула его расчета? В каких единицах измеряется этот показатель? Каковы возможные значения этого показателя?

Эмпирический коэффициент детерминации () характеризует долю межгрупповой дисперсии в общей дисперсии:

Принимает значения -1 до 1 и показывает, насколько вариация признака в совокупности обусловлена фактором группировки.

Межгрупповая дисперсия;

Общая дисперсия.

Определяется по формуле:

Принимает значения -1 до 1

Пример

Группа

Количество заводов в группе, шт.

Средняя валовая продукция в сопоставимых ценах , млн. руб.

Определим теперь среднее значение, общую дисперсию, и межгрупповую дисперсию валовой продукции в сопоставимых ценах заводов:

млн. руб.;

Млн. руб.2;

Млн. руб.2.

Коэффициент детерминации будет равен:

В результате эмпирическое корреляционное отношение будет равно:

Рассчитанное значение эмпирического корреляционного отношения свидетельствует о достаточно высокой статистической связи между валовой продукцией в сопоставимых ценах и среднегодовой стоимостью основных производственных фондов заводов.

22.

Как рассчитывается статистика критерия в однофакторном дисперсионном анализе? Каков закон ее распределения при справедливости основной гипотезы? Чем определяются параметры этого закона? Как принимается решение в однофакторном дисперсионном анализе по рассчитанному значению статистики критерия?

Задачей дисперсионного анализа является изучение влияния одного или нескольких факторов на рассматриваемый признак.

Однофакторный дисперсионный анализ используется в тех случаях, когда есть в распоряжении три или более независимые выборки, полученные из одной генеральной совокупности путем изменения какого-либо независимого фактора, для которого по каким-либо причинам нет количественных измерений.

В качестве критерия необходимо воспользоваться критерием Фишера:

., где

Q 1 – сумма квадратов отклонений выборочных средних от общего среднего

Q 2 – сумма квадратов отклонений наблюдаемых значений от выборочной средней

Если расчетное значение критерия Фишера будет меньше, чем табличное значение – нет оснований считать, что независимый фактор оказывает влияние на разброс средних значений (т.е. гипотеза не подтвердилась ). В противном случае, независимый фактор оказывает существенное влияние на разброс средних значений (гипотеза справедлива ).

23-25.

1. При равных интервалах используют среднюю арифметическую простую:

где у - абсолютные уровни ряда;
n - число уровней ряда.
2. При неравных интервалах используют среднюю арифметическую взвешенную:

где у1 ,...,уn - уровни ряда динамики;
t1,... tn - веса, длительность интервалов времени.

Средний уровень моментного ряда динамики рассчитывается по формуле:
1. С равностоящими уровнями рассчитывается по формуле средней хронологической моментного ряда:

где у1 ,...,уn - уровни периода, за который делается расчет;
n - число уровней;
n-1 - длительность периода времени.
2. С неравностоящими уровнями рассчитывается по формуле средней хронологической взвешенной:

где у1 ,...,уn - уровни рядов динамики;
t - интервал времени между смежными уровнями

в задачах статистики

Средний абсолютный прирост определяется как среднее из абсолютных приростов за равные промежутки времени одного периода. Он рассчитывается по формулам: 1. По цепным данным об абсолютных приростах за ряд лет рассчитывают средний абсолютный прирост как среднюю арифметическую простую:

где n - число степенных абсолютных приростов в исследуемом периоде.
2. Средний абсолютный прирост рассчитывают через базисный абсолютный прирост в сл учае равных интервалов

где m - число уровней ряда динамики в исследуемом периоде, включая базисный .

Средний темп роста есть свободная обобщающая характеристика интенсивности изменения уровней ряда динамики и показывает, во сколько раз в среднем за единицу времени изменяется уровень ряда динамики.
В качестве основы и критерия правильности вычисления среднего темпа роста (снижения) применяется обобщающий показатель, который рассчитывается как произведение цепных темпов роста, равное темпу роста за весь рассматриваемый период. Если значение признака образуется как произведение отдельных вариантов, то используют среднюю геометрическую.
Так как средний темп роста представляет собой средний коэффициент роста, выражен в процентах, то для равностоящих рядов динамики расчеты по средней геометрической сводятся к вычислению средних коэффициентов роста из цепных по «цепному способу»:

где n - число цепных коэффициентов роста;
Кц - цепные коэффициенты роста;
Кб - базисный коэффициент роста за весь период.
Определение среднего коэффициента роста может быть упрощено, если будут ясны уровни динамического ряда. Так как произведение цепных коэффициентов роста равно базисному , то в подкоренное выражение подставляют базисный коэффициент роста.
Формула для определения среднего коэффициента роста для равностоящих рядов динамики по «базисному способу» будет такая:

36.

Какие Вам известны абсолютные показатели изменения уровня ряда?

Все эти показатели могут определяться базисным способом, когда уровень данного периода сравнивается с первым (базисным) периодом, либо цепным способом – когда сравниваются два уровня соседних периодов.

Напишите формулы расчета.

Базисное абсолютное изменение представляет собой разность конкретного и первого уровней ряда, определяется по формуле

Оно показывает, на сколько (в единицах показателей ряда) уровень одного (i-того) периода больше или меньше первого (базисного) уровня, и, следовательно, может иметь знак «+» (при увеличении уровней) или «–» (при уменьшении уровней).

Цепное абсолютное изменение представляет собой разность конкретного и предыдущего уровней ряда, определяется по формуле

Оно показывает, на сколько (в единицах показателей ряда) уровень одного (i-того) периода больше или меньше предыдущего уровня, и может иметь знак «+» или «–».

Поясните, как зависит способ расчета от выбора базы сравнения.

Какие Вам известны относительные показатели изменения уровня ряда? Напишите формулы расчета.

Базисное относительное изменение (базисный темп роста или базисный индекс динамики) представляет собой соотношение конкретного и первого уровней ряда, определяясь по формуле

Цепное относительное изменение (цепной темп роста или цепной индекс динамики) представляет собой соотношение конкретного и предыдущего уровней ряда, определяясь по формуле

Поясните, как зависит способ расчета от выбора базы сравнения.

Относительное изменение показывает во сколько раз уровень данного периода больше уровня какого-либо предшествующего периода (при i >1) или какую его часть составляет (при i <1). Относительное изменение может выражаться в виде коэффициентов, то есть простого кратного отношения(если база сравнения принимается за единицу), и в процентах (если база сравнения принимается за 100 единиц) путем домножения относительного изменения на 100%.

37.

Какие Вам известны средние показатели изменения уровня ряда? Напишите формулы расчета среднего абсолютного прироста, темпа роста и темпа прироста уровней ряда.

Средний абсолютный прирост определяется как среднее из абсолютных приростов за равные промежутки времени одного периода. Он рассчитывается по формулам: 1. По цепным данным об абсолютных приростах за ряд лет рассчитывают средний абсолютный прирост как среднюю арифметическую простую:

где n - число степенных абсолютных приростов в исследуемом периоде.

2. Средний абсолютный прирост рассчитывают через базисный абсолютный прирост в сл учае равных интервалов

где m - число уровней ряда динамики в исследуемом периоде, включая базисный .

Средний темп роста есть свободная обобщающая характеристика интенсивности изменения уровней ряда динамики и показывает, во сколько раз в среднем за единицу времени изменяется уровень ряда динамики.

В качестве основы и критерия правильности вычисления среднего темпа роста (снижения) применяется обобщающий показатель, который рассчитывается как произведение цепных темпов роста, равное темпу роста за весь рассматриваемый период. Если значение признака образуется как произведение отдельных вариантов, то используют среднюю геометрическую.

Так как средний темп роста представляет собой средний коэффициент роста, выражен в процентах, то для равностоящих рядов динамики расчеты по средней геометрической сводятся к вычислению средних коэффициентов роста из цепных по «цепному способу»:

где n - число цепных коэффициентов роста;

Кц - цепные коэффициенты роста;

Кб - базисный коэффициент роста за весь период.

Темп изменения (темп прироста) уровней – относительный показатель, показывающий, на сколько процентов данный уровень больше (или меньше) другого, принимаемого за базу сравнения. Он рассчитывается путем вычитания из относительного изменения 100%, то есть по формуле:

или как процентное отношение абсолютного изменения к тому уровню, по сравнению с которым рассчитано абсолютное изменение (базисный уровень), то есть по формуле:

.

Каким недостатком обладают эти показатели? В каких случаях целесообразно их использование? Как указанные недостатки могут быть устранены? Напишите формулы расчёта средних показателей, обеспечивающих сохранение суммарного значения ряда.

38.

Как по значениям показателей изменения уровней ряда определить вид основной тенденции? Приведите примеры.

Выявление общей тенденции ряда динамики можно произвести путем сглаживания ряда динамики с помощью метода скользящей средней. Сущность этого приема состоит в том, что по исходным уровням ряда (эмпирическим данным) определяют расчетные (теоретические) уровни.

Основное условие применения этого метода состоит в вычислении звеньев подвижной (скользящей) средней из такого числа уровней ряда, которое соответствует длительности наблюдаемых в ряду динамики циклов.

Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор. Эмпирическое корреляционное среднее варьирует от 0 до 1.

Находят эмпирическое корреляционное отношение обычно в следующих типах задач:

  • 1) когда по двум рядам данным X и Y необходимо произвести аналитическую группировку
  • 2) группировка уже произведена, необходимо проверить правило сложения дисперсий
  • 3) по двум рядам данным X и Y необходимо найти уравнение регрессии и оценить его значимость

Формула дисперсии альтернативного признака

Исходя из изложенного выше, можно вывести формулу нахождения дисперсии альтернативного признака, если нам известна процентная доля такого признака в общем объеме выборки.

Изначально мы предполагаем, что признак принимает только два значения.

Таким образом, сумма доли элементов, в которых элементы статистического ряда имеют значение признака "нет" и элементов ряда, которые имеют значение признака "да" - равно единице.

Для нахождения среднего значения ряда, подставим значения альтернативных признаков (0 и 1) в формулу нахождения среднего взвешенного значения статистического ряда. Откуда, совершенно очевидно, в знаменателе будет единица, а в числителе - процентное значение элементов "1". То есть ровно процентное значение элементов с признаком "1". (Формула 2)

Формула дисперсии - это средневзвешенное значение квадратов отклонений каждого значения ряда данных. (Формула 3)

Поскольку в нашем ряду данные имеют только два типа значений - "0" и "1", то формула нахождения дисперсии для ряда, имеющего альтернативный признак сводится к Формуле 4. Пояснение. поскольку мы только что вывели, что среднее значение выборки равно р (Формула 2), то значение квадрата разности значения (0/1) и среднего значения, согласно Формулы 1, будет в первом случае (1-p)2 , а во втором случае (1-q)2 , теперь, применив следствие из первой формулы: q = 1 - p, p = 1- q . Получим p2 и q2 . Соответственно, доля значений "0" и "1" равна p и q, в результате в числителе и получается q2 p и p2 q. Сумма долей признаков значений "0" и "1" согласно Формуле 1 равна 1. В итоге Формула 4 и принимает значение pq, которое и будет равно значению дисперсии альтернативного признака. Исходя из найденного значения величины дисперсии альтернативного признака, найдем среднеквадратичное отклонение (Формула 5). Поставив значение из Формулы 1 в Формулу 5, получим формулу среднеквадратичного отклонения для дисперсии ряда с альтернативным признаком.

Суть состоит в следующем: этот показатель измеряет меру зависимости вариации одной величины от многих других. Он применяется для оценки качества линейной регрессии.

Формула расчета:

R^2 \equiv 1-{\sum_i (y_i — f_i)^2 \over \sum_i (y_i-\bar{y})^2},

  • \bar{y} – ср. арифметическое зависимой переменной;
  • fi – знач. зависимой переменной, предполагаемое по уравнению регрессии;
  • yi – значение исследуемой зависимой переменной.

Детерминация, что это такое — определение

Коэффициент детерминации – часть дисперсии переменной (зависимой), которая обуславливается конкретной моделью зависимости. Так эта единица поможет вычесть долю необъясненной дисперсии в дисперсии зависимой переменной.

Данный показатель может принимать значения в пределах от 0 до 1. Чем его значение ближе к 1, тем связаннее результативный признак с исследуемыми факторами.

Т.к. преступление является результатом связи поведения и личностных качеств, этот показатель в деятельности заинтересованных органов рассчитывается для оценки качества преступного поведения, дает представление, что послужило вероятностной причиной преступления, что является мотивацией, какие этому были причины и условия.

Коэффициент детерминации, что показывает?

Этот коэффициент показывает варианты результативного признака от влияния факторного признака, он тесно связан с числом корреляции. Если связь отсутствует, то показатель равняется нулю, при ее наличии – единице.
Есть определение детерминизма как принципа устройства мира. Основой этого представления является взаимосвязанность всех явления. Это учение отрицает существование вещей вне взаимосвязи с миром.

Противоположностью является индетерминизм, он связан с отрицанием объективных отношений детерминации, или отрицанием причинности.

Генетический детерминизм – вера в то, что любой организм развивается под генетическим контролем.

Под детерминантами преступности в криминологии понимают социальные явления, действия которых могут вызвать преступность.

С помощью расчетов такого рода можно оценить вероятностное социокультурное влияние различных факторов на развитие личности и предположить, как себя будет вести человек, например, в деловом общении, объективно оценить, подходит ли он для государственного управления, или воинской службы.

Так же коэффициент определяет, правильно ли выбран индекс для подсчета коэффициентов бета и альфа. Если в % цифра ниже 75 к определенному индексу, значения бета и альфа к нему будут некорректны.

Индекс детерминации

Индекс детерминации – это квадрат инд. корреляции нелинейных связей. Этим значением характеризуют, на какое количество процентов моделью регрессии объясняются варианты показателей результативной переменной по отношению к своему среднему уровню.

Формула



Коэффициент детерминации скорректированный

Суть данного понятия состоит в следующем: этот индекс показывает долю дисперсии (общей) результативной переменной, объясняющей вариантами факторных переменных, включаемых в модель регрессии: (с увеличением, уменьшением).

Эмпирическое корреляционное отношение

Теснота или сила связи между двумя признаками может быть измерена показателем, называемым эмпирическим корреляционным отношением. Этот показатель назван эмпирическим, поскольку он может быть рассчитан на основе обычной группировки по факторному и результативному признаку, то есть на основе корреляционной таблицы. Эмпирическое корреляционное отношение получается из правила сложения дисперсий, согласно которому , где
- общая дисперсия;
- межгрупповая дисперсия;
- внутригрупповая (средняя из частных) дисперсия. Межгрупповая дисперсия является мерой колеблемости, обусловленной факторным признаком. Средняя из частных дисперсий является мерой колеблемости, обусловленной всеми остальными(кроме факторного) признаками. Тогда отношение
выражает долю колеблемости, возникающей за счет факторного признака, в общей колеблемости. Квадратный корень из этого отношения и называется эмпирическим корреляционным отношением:
.

Отсюда следует правило, что чем больше межгрупповая дисперсия, тем сильнее факторный признак влияет на вариации результативного признака. Составляющие отношения дисперсий вычисляются по данным корреляционной таблицы по следующим формулам:

;
,

где - частные средние; - общая средняя; - итоги по признаку ; - итоги по признаку ;
- число наблюдений. То же соотношение сохраняется и для условных значений , полученных числовым преобразованием .

Само отношение дисперсий (подкоренное выражение) называется коэффициентом детерминации (оно равно также квадрату эмпирического корреляционного отношения). Эмпирическое корреляционное отношение изменяется в широких пределах (от 0 до 1). Если оно равно нулю, значит факторный признак на корреляционный не влияет. Если =1, значит, результативный признак полностью зависит от факторного. Если же эмпирическое корреляционное отношение представляет дробь, близкую единице, то говорят о тесной связи между факторным и результативным признаками. Если эта дробь мала (близка нулю), то говорят о слабой связи между ними.

Коэффициент линейной корреляции и индекс корреляции

Мерой тесноты связи между двумя статистически связанными признаками служит коэффициент линейной корреляции или просто коэффициент корреляции. Он имеет тот же смысл, что и эмпирическое корреляционное отношение, но может принимать как положительное, так и отрицательное значение. Коэффициент корреляции имеет строгое математическое выражение для линейной связи. Положительное значение будет указывать на прямую связь между признаками, отрицательное – на обратную.

Парный коэффициент корреляции в случае линейной формы связи вычисляют по формуле

а его выборочное значение – по формуле

При малом числе наблюдений выборочный коэффициент корреляции удобно вычислять по следующей формуле:

Величина коэффициента корреляции изменяется в интервале
.

При
между двумя переменными существует функциональная связь, при
- прямая функциональная связь. Если
, то значение Х и У в выборке некоррелированы; в случае, если система случайных величин
имеет двумерное нормальное распределение, то величины Х и У будут и независимыми.

Если коэффициент корреляции находится в интервале
, то между величинами Х и У существует обратная корреляционная связь. Это находит подтверждение и при визуальном анализе исходной информации. В этом случае отклонение величины У от среднего значения взяты с обратным знаком.

Если каждая пара значений величин Х и У чаще всего одновременно оказывается выше (ниже) соответствующих средних значений, то между величинами существует прямая корреляционная связь и коэффициент корреляции находится в интервале
.

Если же отклонение величины Х от среднего значения одинаково часто вызывают отклонения величины У вниз от среднего значения и при этом отклонения оказываются все время различными, то можно предполагать, что значение коэффициента корреляции стремится к нулю.

Следует отметить, что значение коэффициента корреляции не зависит от единиц измерения и выбора начала отсчета. Это означает, что если переменные Х и У уменьшить (увеличить) в К раз либо на одно и то же число С, то коэффициент корреляции не изменится.

Для упрощения расчетов меры тесноты корреляционной связи часто применяется индекс корреляционной связи, который определяется по следующим формулам:

,
,

где
- остаточная дисперсия, характеризующая вариацию результативного признака под влиянием прочих неучтенных факторов.

Множественная корреляция

Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование. Показатель тесноты связи между результативным и двумя или более факторными признаками называется множественным или совокупным коэффициентом корреляции и обозначается R. Совокупный коэффициент предполагает наличие линейной связи между каждой парой признаков, которая может быть выражена при помощи парных коэффициентов корреляции. Если находится совокупная мера тесноты связи между результативным признаком () и двумя факторными признаками( и ), то расчет совокупного коэффициента корреляции ведется по формуле:

,

Где подстрочные знаки обозначают, между какими признаками изучается парная связь.

В формулах расчетов парных коэффициентов корреляции изменяются лишь символы, обозначающие тот или иной фактор. Так, если коэффициент корреляции между и вычисляется по формуле , то коэффициент корреляции между и вычисляется: ; между и - так:

Расчетная часть

Задание 31

    Имеются следующие данные по десяти предприятиям за отчетный период:

Таблица 2

Предприятия

Среднегодовая стоимость основных производственных фондов, млн. руб.

Выпуск продукции, млн. руб.

Для изучения связи между размером среднегодовой стоимости основных производственных фондов и выпуском продукции вычислите линейное уравнение связи.

2. По приведенным данным: а) вычислите: линейный коэффициент корреляции; б) проверьте правильность выбора формы связи, исчислив индекс корреляции.

    С помощью табличного процессора Microsoft Excel построим рабочую таблицу:

Таблица 3

Расчет сумм для вычисления параметров уравнения прямой

239,74 *1236 = 539,1 распределения вероятностей... экономического анализа , решаемые на основе регрессионных экономических моделей. Рассмотрим у – результативный признак, а х – факторные признаки. Методы корреляционно -регрессионного анализа ...

  • Программа дисциплины «Компьютерные методы анализа социологических данных» (Введение в математическую статистику и анализ данных) Для направления 040200. 68 "Социология"

    Программа дисциплины

    Применения. 11 3 2 6 Дисперсионный анализ 9 2 2 5 Парный и множественный регрессионный анализ 9 2 2 5 Свойства коэффициентов... пользователя SPSS 11.0 Сиськов В.И. Корреляционный анализ в экономических исследованиях . М. 1975. Эддоус М., Стэнсфилд...

  • Г. Л. Савицкая анализ хозяйственной деятельности предприятия

    Документ

    Передового опыта, новейшие методы экономических исследований . Анализ должен быть комплексным. Комплексность исследо... на уровень среднечасовой выработки корреляционно -регрессионный анализ . В многофакторную корреляционную модель среднечасовой выра­ботки...

  • ОТВЕТ

    Количественная оценка тесноты связи по эмпирическим данным состоит в расчете показателей тесноты связи:

    · Эмпирический коэффициент детерминации (эмпирическое дисперсионное отношение) - r 2 .

    Данный показатель рассчитывается по данным аналитической группировки (табл.), как отношение межгрупповой дисперсии признака-результата Y (d y 2) к общей дисперсии Y (s y 2):

    Согласно теореме о разложении дисперсии межгрупповая дисперсия связана с общей дисперсией: s y 2 =d y 2 +e y 2 . Тогда эмпирический коэффициент детерминации может быть рассчитан через остаточную дисперсию по формуле:

    где s j 2 – дисперсия признака-результата Y внутри j-ой группы.

    Эмпирический коэффициент детерминации характеризует силу влияния группировочного признака (Х) на образование общей вариации результативного признака Y и показывает процент (долю) вариации признака-результата, обусловленную признаком-фактором, положенным в основу группировки.

    Расчет r 2 удобно вести в таблице:

    Признак- фактор Х j N j Среднее значение признака-результата s j 2 N j
    X 1 N 1 s 1 2 N 1
    X 2 N 2 s 2 2 N 2
    .... ...
    X m N m s m 2 N m
    Итого N Х ås j 2

    Тогда .

    Рассмотрим пример. Пусть дана совокупность из 20 рабочих, характеризующихся признаками: Y - выработка рабочего (шт./смену) и Х- квалификация (разряд). Исходные данные представлены в таблице:

    X
    Y

    Требуется оценить тесноту связи между признаками с помощью эмпирического коэффициента детерминации (r 2).

    Для расчета r 2 произведем аналитическую группировку совокупности. В качестве признака-фактора возьмем Х (разряд рабочего), в качестве признака-результата – Y выработку рабочего). Аналитическая группировка производится по признаку Х. В данном случае она будет дискретная (т.к. значения признака Х довольно часто повторяются). Количество групп равно числу значений признака Х в совокупности, т.е. 6. Результаты группировки и расчета r 2 сведем в таблицу:

    Признак-фактор Х Признак-результат Y Количество единиц в группе, N j Среднее значение признака-результата в группе, ( - ) 2 ·N j Дисперсия признака-результата в группе, s 2 j s 2 j ·N j
    (10+12+13)/3=11,7 (11,7-17,1) 2 3=88,56 s 2 1 =((10-11,7) 2 +(12-11,7) 2 +(13-11,7) 2)/3=1,56 4,7
    (11+14)/2=12,5 (12,5-17,1) 2 2=42,3 s 2 2 =((11-12,5) 2 +(14-12,5) 2)/2=2,25 4,5
    (12+13+15+16)/4= 14 (14-17,1) 2 4=38,4 s 2 3 =((12-14) 2 +(13-14) 2 +(15-14) 2 +(16-14) 2)/4=2,5
    (15+17+17+18)/4= 16,75 (16,75-17,1) 2 4=0,49 s 2 4 =((15-16,75) 2 +(17-16,75) 2 ++(17-16,75) 2 +(18-16,75) 2)/4=1,9 4,75
    (18+20+22)/3=20 (20-17,1) 2 3=25,23 s 2 5 =((18-20) 2 +(20-20) 2 +(22-20) 2)/3=2,7
    (23+24+27+25)/4= 24,75 (24,75-17,1) 2 4=234,1 s 2 6 =((23-24,75) 2 +(24-24,75) 2 +(27-24,75) 2 +(25-24,75) 2)/4=2,19 8,75
    =17,1 429,1 40,7

    Эмпирический коэффициент детерминации равен отношению межгрупповой дисперсии признака-результата (d y 2) к общей дисперсии признака-результата (s y 2): r 2 = d y 2 /s y 2 = d y 2 /(d y 2 +e y 2).

    Межгрупповая дисперсия Y будет равна: d y 2 = å( - ) 2 ·N j / N = 429,1/20=21,45.

    Остаточная дисперсия Y будет равна: e y 2 = ås 2 j ·N j / N= 40,7/20= 2,035.

    Тогда: r 2 =21,45/(21,45+2,035)= 429,1/(429,1+40,7)=0,913.

    Вывод: 91,3% вариации выработки рабочих обусловлена влиянием фактора разряд.

    · Эмпирическое корреляционное отношение - r.

    Данный показатель представляет собой корень из эмпирического коэффициента детерминации. Оно показывает тесноту связи (не только линейной!) между группировочным и результативным признаками. Область допустимых значений эмпирического корреляционного отношения от 0 до +1.

    Максимально тесная связь – это связь функциональная, когда каждое значение признака-результата Y однозначно определяется значением признака-фактора Х (т.е. результатом группировки). В этом случае дисперсия групповых средних (d y 2) равна общей дисперсии (s y 2), т.е. внутригрупповой вариации не будет. При этом остаточная дисперсия (e y 2) равна 0, а эмпирический коэффициент детерминации равен 1.

    Если связь между признаками отсутствует, то все групповые средние равны между собой, межгрупповой вариации не будет (d y 2 =0), а эмпирический коэффициент детерминации равен 0.

    Рассчитаем эмпирическое корреляционное отношение для нашего примера: r= 0,9555. Вывод: признаки «выработка рабочего» и «разряд» связаны довольно тесной связью.

    Показатели r и r 2 определяются не только наличием связи признаков Х и Y, но и фактом группировки первичных данных. С ростом числа групп m межгрупповая дисперсия d 2 растет и приближается к общей дисперсии. Если число групп меньше количества единиц совокупности N, то значения r и r 2 никогда не будут равны 1, даже при строгой функциональной связи.

    Заметим, что сама по себе величина показателя тесноты связи не является доказательством наличия причинно-следственной связи между исследуемыми признаками, а является оценкой степени взаимной согласованности в изменениях признаков. Установлению причинно-следственной зависимости должен обязательно предшествовать анализ качественной природы явлений.

    Похожие статьи