Корреляционный анализ

Видеоуроки по Statgraphics Учебные пособия по статистике Введение в математическую статистику Генеральная совокупность и выборка Статистические шкалы Эмпирические распределения Числовые характеристики выборки Стандартная ошибка среднего арифметического Представление результатов исследования Точечное и интервальное оценивание числовых характеристик Элементы теории вероятностей Нормальный закон распределения (закон нормального распределения) Статистические гипотезы Критерии проверки статистических гипотез Критерии согласия Условия применения параметрических критериев Обоснование выбора критерия значимости Статистические операции в номинальной шкале Представление данных статистического анализа Корреляционный анализ Представление данных корреляционного анализа Регрессионный анализ Представление результатов регрессионного анализа

Корреляционный анализ

Корреляционный анализ (теория и практика)

Корреляционный анализ – раздел математической статистики, исследующий зависимости между двумя или более случайными величинами.

Термин «Correlation» означает взаимосвязь, взаимоотношение.

История разработки корреляционного анализа

Еще Гиппократ обратил внимание на то, что между телосложением и темпераментом людей, между строением их тела и предрасположенностью  к заболеваниям существует определенная взаимосвязь. Однако термин «корреляция» был впервые применил французский палеонтолог  Ж.Кювье в 1806 году в труде в труде «Лекции по сравнительной анатомии» Этот ученый вывел «закон корреляции частей и органов животных», позволяющий восстанавливать по найденным частям тела облик всего животного. Математическое обоснование метода предложено французским физиком Огюстом Браве (рис.1) в 1846 году.

Огюст Браве (1811-1863) - французский физик
Рис.1. Огюст Браве (1811-1863) — французский физик

Термин «корреляция» в математическую статистику ввел Фрэнсис Гальтон (рис.2) в 1888 году. Этот ученый добился больших успехов во многих областях науки:  географии, метеорологии, криминалистике и психологии. Ему принадлежит первенство в создании первой погодной карты. Кроме того, он изобрел систему использования отпечатков пальцев для идентификации преступников.

Фрэнсис Гальтон - английский ученый
Рис.2. Фрэнсис Гальтон (1822-1911) — английский ученый

Однако основным направлением его исследований была наследственность. С этой целью в 1884 году Фрэнсис Гальтон создал в Лондоне Антропометрическую лабораторию, которая представляла собой центр сбора данных о людях, которые  принимали участие в исследовании. Благодаря этому ему удалось получить данные более чем о 10 000 человек.Для осмысления полученных данных Фрэнсис Гальтон разработал статистические методы: корреляционный и регрессионный анализы. Конечно, это было только начало статистического анализа. Тем не менее, в публикации 1888 года Фрэнсис Гальтон  предложил показатель, который он назвал «индекс корреляции», и обозначил его буквой r. Этот показатель теперь называется «коэффициент корреляции».  После Фрэнсиса Гальтона теорию корреляции активно разрабатывали Карл Пирсон и Чарльз Спирмен.

Функциональная зависимость и корреляция

Две случайные величины X и Y могут быть:

  • связаны функциональной зависимостью (жестко, как зависимость переменных в математическом анализе);
  • независимыми;
  • связаны стохастической (вероятностной зависимостью) при которой изменение одной величины влечет изменение распределения другой.

Функциональная зависимость

На рис.3 приведен график линейной функции. В области физической культуры и спорта можно привести много примеров функциональной зависимости. Например, скорость бега (V) линейно зависит от длины (L) и частоты шагов (ν): V = L∙ν.

Пример графика линейной функции
Рис.3. Пример графика линейной функции

Стохастическая (вероятностная зависимость)

Примером стохастической (корреляционной зависимости) является зависимость веса человека от роста (рис. 4).

Корреляционный анализ
Рис. 4. Корреляционная зависимость (корреляционное поле) веса от роста человека

Коэффициент корреляции

В качестве меры связи между случайными величинами используется коэффициент корреляции. Коэффициент корреляции для генеральной совокупности обозначается ρ. Однако, как правило, он неизвестен. Поэтому он оценивается по экспериментальным данным, представляющим выборку объема n, полученную при совместном измерении двух переменных (признаков) X и Y. Коэффициент корреляции, определяемый по выборочным данным называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции). Его принято обозначать символом r. Наиболее часто в качестве оценок генерального коэффициента корреляции используется коэффициент корреляции Пирсона (r) и коэффициент корреляции Спирмена (rs).

Коэффициент корреляции Пирсона (r)

Коэффициент корреляции, который теперь называется коэффициент корреляции Пирсона был разработан английским математиком Карлом Пирсоном (рис.5) в 1896 году (Zorich J.N., 2025).

Карл Пирсон (1857-1936) - английский математик
Рис.5. Карл Пирсон (1857-1936) — английский математик

Формула, по которой рассчитывается коэффициент корреляции Пирсона выгладит следующим образом:

Корреляционный анализ

Расчет коэффициента корреляции Пирсона возможен, если будут выполнены следующие условия:

  1. Экспериментальные данные должны быть представлены в только в интервальной шкале или шкале отношений.
  2. Распределение экспериментальных данных подчиняется нормальному закону.
  3. Предполагается линейная зависимость между случайными величинами X и Y. Чтобы визуально представить эту зависимость нужно построить корреляционное поле. С этой целью строится график, по оси X откладываются значения одного признака, а по оси Y — соответствующие ему значения второго признака (рис. 6). По этому графику можно судить насколько распределение точек  близко к прямой линии.
Корреляционное поле результатов в беге на 30 м и 100 м
Рис. 6. Корреляционное поле результатов в беге на 30 м и 100 м

Коэффициент корреляции Спирмена (rS)

В 1904 году Чарльз Эдвард Спирмен (рис. 7), английский психолог, разработал коэффициент ранговой корреляции, который носит теперь его имя.

Чарльз Эдвард Спирмен (1863-1945) - английский психолог
Рис.7. Чарльз Эдвард Спирмен (1863-1945) — английский психолог

Для расчета коэффициента корреляции Спирмена используется формула:

Корреляционный анализ

Требования к исходным данным менее строгие, а именно:

  1. Данные могут быть представлены в порядковой, интервальной шкале или шкале отношений.
  2. Допускается любой закон распределения случайных величин X и Y.
  3. Между случайными величинами X и Y должна существовать монотонно-возрастающая или монотонно-убывающая зависимость.

Свойства оценок коэффициентов корреляции

Рассчитанные коэффициенты корреляции могут принимать значения от -1 до +1.

  1. Если коэффициент корреляции равен: r =+1 и r = -1, это означает, что случайные величины X и Y связаны жесткой линейной зависимостью.
  2. Если r ≠ 0, то чем ближе |r| к единице, тем сильнее линейная зависимость случайных величин X и Y.
  3. Если коэффициент корреляции положительный (r > 0) – это означает, что между случайными величинами X и Y существует положительная корреляция (или другими словами положительная корреляционная зависимость). Примером положительной корреляционной зависимости является увеличение результата прыжка в длину с увеличением силы мышц ног (рис.8А).
  4. Eсли коэффициент корреляции отрицательный (r < 0) – это означает, что между случайными величинами X и Y существует отрицательная корреляция (или другими словами отрицательная корреляционная зависимость). Примером отрицательной корреляционной зависимости является уменьшение результата пробегания 100 м с увеличением силы мышц ног (рис. 8Б)
  5. Если коэффициент корреляции равен нулю (r = 0) – это означает, что корреляции нет; случайные величины X и Y некоррелированы (рис. 8В). Другими словами, это означает, что между случайными величинами X и Y нет взаимосвязи.

Геометрическая интерпретация коэффициента корреляции

Корреляция считается положительной, если график имеет выраженное направление из левого нижнего угла в правый верхний угол и с увеличением значений одной переменной другая также увеличивается;

Корреляция считается отрицательной, если график имеет направление из левого верхнего угла в правый нижний, и с увеличением одной переменной, другая уменьшается;

Корреляция отсутствует, когда у корреляционного облака нет четко выраженного направления, точки рассеиваются далеко от воображаемой прямой и нельзя сказать, что с увеличением одной переменной другая уменьшается или увеличивается.

Корреляционные поля, характеризующие геометрическую интерпретацию коэффициента корреляции
Рис. 8. Корреляционные поля, характеризующие геометрическую интерпретацию коэффициента корреляции

Значимость коэффициента корреляции

Коэффициент корреляции между случайными величинами X и Y для генеральной совокупности как правило, неизвестен. Однако его можно оценить, рассчитав выборочный коэффициент корреляции (коэффициент корреляции Пирсона или Спирмена). Но при заменяя генеральную совокупность выборкой при оценке коэффициента корреляции допускается ошибка. Поэтому важно оценить значимость (достоверность) рассчитанного коэффициента корреляции.

Например, в эксперименте участвовало 10 человек (корреляционное поле представлено на рис.6). Оценивалась взаимосвязь между результатами в беге на 30 м и 100 м. Получен коэффициент корреляции r = 0,611. Чтобы оценить значимость коэффициента корреляции нужно сравнить его с критическим, величина которого зависит от объема выборки и уровня значимости. Если фактическое значение коэффициента корреляции больше, чем критическое, это означает, что коэффициент корреляции достоверен (значим). В нашем случае критическое значение коэффициента корреляции при n= 10 и α = 0,05 составляет r0,05 =0,632 (в таблице 1 это значение выделено жирным шрифтом). Из этого следует, что рассчитанный коэффициент корреляции статистически недостоверен. Приводить его в своих исследованиях нежелательно.

Таблица 1 — Критические значения коэффициента корреляции Пирсона

n0,050,010,001
30,99690,9998770,99999877
40,9500,99000,9990
50,8780,95970,99114
60,8110,91720,9741
70,7540,8750,9509
80,7070,8340,9244
90,6660,7980,898
100,6320,7650,872
200,4440,5610,679
300,3610,4630,570
400,3120,4020,501
500,2790,3610,451

В итоговой таблице необходимо указать объем выборки, чтобы читающий мог оценить значимость (достоверность) вычисленных коэффициентов корреляции.

Литература

  1. Катранов, А.Г. Компьютерная обработка данных экспериментальных исследований / А.Г. Катранов, А.В. Самсонова /Учебное пособие.– СПб: СПбГАФК им. П.Ф. Лесгафта, 2005.– 132 с.
  2. Основы математической статистики: Учебное пособие для ин-тов физ. культ./ /Под ред. В.С.Иванова. М.: Физкультура и спорт, 1990.– 176 с.
  3. Самсонова, А.В. Математическая статистика в спортивных исследованиях: учебное пособие / А.В. Самсонова, И.Э. Барникова: НГУ им.П.Ф.Лесгафта, Санкт-Петербург.- СПб [б.и.], 2022.- 122 c.
  4.  Zorich J.N. The History of Correlation.- CRC Press 4 Park Square, Milton Park, Abingdon, Oxon, OX14 4RN, 2025.
  1. Учебные пособия по статистике
  2. Видеоуроки по Statgraphics
  3. Введение в математическую статистику
  4. Генеральная совокупность и выборка
  5. Статистические шкалы
  6. Эмпирические распределения
  7. Числовые характеристики выборки
  8. Стандартная ошибка среднего арифметического
  9. Представление результатов исследования
  10. Точечное и интервальное оценивание числовых характеристик
  11. Элементы теории вероятностей
  12. Нормальный закон распределения (закон нормального распределения)
  13. Статистические гипотезы
  14. Критерии проверки статистических гипотез
  15. Критерии согласия
  16. Условия применения параметрических критериев
  17. Обоснование выбора критерия значимости
  18. Статистические операции в номинальной шкале
  19. Представление данных статистического анализа
  20. Корреляционный анализ
  21. Представление данных корреляционного анализа
  22. Регрессионный анализ
  23. Представление результатов регрессионного анализа