Корреляционный анализ

Корреляционный анализ – раздел математической статистики, исследующий зависимости между двумя или более случайными величинами. Термин «Correlation» означает взаимосвязь, взаимоотношение.

История разработки корреляционного анализа

Термин «корреляция» был впервые применил французский палеонтолог  Ж.Кювье в 1806 году. Этот ученый вывел «закон корреляции частей и органов животных», позволяющий восстанавливать по найденным частям тела облик всего животного. Математическое обоснование метода предложено О. Браве в 1846 году, а применительно к биомедицинским исследованиям (речь идет о коэффициенте корреляции Пирсона) — Ф. Гальтоном в 1886 году (Г.Ф. Лакин, 1990).

Функциональная зависимость и корреляция

Еще Гиппократ обратил внимание на то, что между телосложением и темпераментом людей, между строением их тела и предрасположенностью  к заболеваниям существует определенная взаимосвязь.

В области физической культуры и спорта можно привести много примеров такой взаимосвязи. Например, от уровня силы во многом зависит результат, показанный спортсменом в таких видах спорта, как тяжелая атлетика, пауэрлифтинг, гиревой спорт, метание диска и толкание ядра и т.д.  Результат в беге на 100 м во многом зависит от процента содержания в мышцах спортсменов быстрых мышечных волокон (II типа).  Доказано, что у выдающихся спринтеров этот показатель превышает 80%.  Чтобы определить, насколько сильна взаимосвязь между переменными (признаками) используется корреляционный анализ.

Две случайные величины X и Y могут быть:

  • связаны функциональной зависимостью (жестко, как зависимость переменных в математическом анализе);
  • независимыми;
  • связаны стохастической (вероятностной зависимостью) при которой изменение одной величины влечет изменение распределения другой.

В качестве меры связи между случайными величинами используется коэффициент корреляции. Коэффициент корреляции для генеральной совокупности обозначается ρ. Однако, как правило, он неизвестен. Поэтому он оценивается по экспериментальным данным, представляющим выборку объема n, полученную при совместном измерении двух переменных (признаков) X и Y. Коэффициент корреляции, определяемый по выборочным данным называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции). Его принято обозначать символом r. Наиболее часто в качестве оценок генерального коэффициента корреляции используется коэффициент корреляции Пирсона (r) и коэффициент корреляции Спирмена (rs).

Коэффициент корреляции Пирсона (r)

Чтобы правильно применять корреляционный анализ в научных исследованиях, нужно учитывать условия применения этого метода.

Условия, при которых возможен расчет коэффициента корреляции Пирсона:

  1. Экспериментальные данные должны быть представлены в только в интервальной шкале или шкале отношений.
  2. Распределение экспериментальных данных подчиняется нормальному закону.
  3. Предполагается линейная зависимость между случайными величинами X и Y.

Коэффициент корреляции Спирмена (rS)

При расчете коэффициента корреляции Спирмена требования к исходным данным менее строгие, а именно:

  1. Данные могут быть представлены в порядковой, интервальной шкале или шкале отношений.
  2. Допускается любой закон распределения случайных величин X и Y.
  3. Между случайными величинами X и Y должна существовать монотонно-возрастающая или монотонно-убывающая зависимость.

Свойства оценок коэффициентов корреляции

Рассчитанные коэффициенты корреляции могут принимать значения от -1 до +1.

  1. Если коэффициент корреляции равен: r =+1 и r = -1, это означает, что случайные величины X и Y связаны жесткой линейной зависимостью.
  2. Если r ≠ 0, то чем ближе |r| к единице, тем сильнее линейная зависимость случайных величин X и Y.
  3. Если коэффициент корреляции положительный (r > 0) – это означает, что между случайными величинами X и Y существует положительная корреляция (или другими словами положительная корреляционная зависимость). Примером положительной корреляционной зависимости является увеличение результата прыжка в длину с увеличением силы мышц ног (рис.1А).
  4. Eсли коэффициент корреляции отрицательный (r < 0) – это означает, что между случайными величинами X и Y существует отрицательная корреляция (или другими словами отрицательная корреляционная зависимость). Примером отрицательной корреляционной зависимости является уменьшение результата пробегания 100 м с увеличением силы мышц ног (рис. 1Б)
  5. Если коэффициент корреляции равен нулю (r = 0) – это означает, что корреляции нет; случайные величины X и Y некоррелированы (рис. 1В). Другими словами, это означает, что между случайными величинами X и Y нет взаимосвязи.

Геометрическая интерпретация коэффициента корреляции

Корреляция считается положительной, если график имеет выраженное направление из левого нижнего угла в правый верхний угол и с увеличением значений одной переменной другая также увеличивается;

Корреляция считается отрицательной, если график имеет направление из левого верхнего угла в правый нижний, и с увеличением одной переменной, другая уменьшается;

Корреляция отсутствует, когда у корреляционного облака нет четко выраженного направления, точки рассеиваются далеко от воображаемой прямой и нельзя сказать, что с увеличением одной переменной другая уменьшается или увеличивается.

Геометрическая интерпретация коэффициента корреляции
Рис. 1. Геометрическая интерпретация коэффициента корреляции

Значимость коэффициента корреляции

Коэффициент корреляции между случайными величинами X и Y для генеральной совокупности как правило, неизвестен. Однако его можно оценить, рассчитав выборочный коэффициент корреляции (коэффициент корреляции Пирсона или Спирмена). Но при заменяя генеральную совокупность выборкой при оценке коэффициента корреляции допускается ошибка. Поэтому важно оценить значимость (достоверность) рассчитанного коэффициента корреляции.

Например, в эксперименте участвовало 10 человек. Оценивалась взаимосвязь между результатами в беге на 30 м и 100 м. Получен коэффициент корреляции r = 0,611. Чтобы оценить значимость коэффициента корреляции нужно сравнить его с критическим, величина которого зависит от объема выборки и уровня значимости. Если фактическое значение коэффициента корреляции больше, чем критическое, это означает, что коэффициент корреляции достоверен (значим). В нашем случае критическое значение коэффициента корреляции при n= 10 и α = 0,05 составляет r0,05 =0,632 (в таблице 1 это значение выделено жирным шрифтом). Из этого следует, что рассчитанный коэффициент корреляции статистически недостоверен. Приводить его в своих исследованиях нежелательно.

Таблица 1 — Критические значения коэффициента корреляции Пирсона

n0,050,010,001
30,99690,9998770,99999877
40,9500,99000,9990
50,8780,95970,99114
60,8110,91720,9741
70,7540,8750,9509
80,7070,8340,9244
90,6660,7980,898
100,6320,7650,872
200,4440,5610,679
300,3610,4630,570
400,3120,4020,501
500,2790,3610,451

В итоговой таблице необходимо указать объем выборки, чтобы читающий мог оценить значимость (достоверность) вычисленных коэффициентов корреляции. Иногда в публикациях приводятся только значимые коэффициенты корреляции, а вместо незначимых ставится прочерк. В таблице 2 авторы указали, что объем выборки равен n = 32. Критическое значение коэффициента корреляции при n = 32 и a = 0,05 составляет r0,05 = 0,349 (В.С.Иванов, 1990). Следовательно, все коэффициенты корреляции достоверны.

Таблица 2 — Значения коэффициентов корреляции между результатами в скоростно-силовых тестах и результатом в толкании ядра с разгоном n=32, спортивный результат группы варьировал от 12,00 м до 20,50. Критическое значение коэффициента корреляции при n = 32 и a = 0,05 составляет r0,05 = 0,349 (по: Я.Е.Ланка, Ан.А.Шалманов, 1982).

Упражнение123456
1Толкание ядра с разгона10,970,840,830,730,73
2Толкание ядра с места10,840,820,740,76
3Бросок ядра назад10,850,710,66
4Бросок ядра вперед10,660,62
5Приседание со штангой10,58
6Жим штанги лежа1

Литература

  1. Боровиков В.П., Боровиков И.П. STATISTICA Статистический анализ и обработка данных в среде Windows.– М.: Филинъ, 1995.– 608 с.
  2. Дюк В. Обработка данных на ПК в примерах.– СПб: Питер, 1997.– 240 с.
  3. Ежевская К.А. Особенности динамики показателей скоростных способностей детей 4-6 лет в условиях стандартной тестовой тренировочной программы в детском саду //Теория и практика физической культуры, 1995.– № 3 .–С.15-18.
  4. Жданов Л.Н. Возраст спортивных достижений //Теория и практика физической культуры, 1996.– № 6 .– С. 59-60.
  5. Зациорский В.М. Осторожно: статистика! // Теория и практика физической культуры, 1989.– № 2.– С. 52-55.
  6. Катранов, А.Г. Компьютерная обработка данных экспериментальных исследований / А.Г. Катранов, А.В. Самсонова /Учебное пособие.– СПб: СПбГАФК им. П.Ф. Лесгафта, 2005.– 132 с.
  7. Лакин Г.Ф. Биометрия .- М.: Высшая школа, 1990.- 350 с.
  8. Ланка Я.Е., Шалманов Ан. А. Биомеханика толкания ядра. – М: Физкультура и спорт, 1982.- 72 с.
  9. Лапшина Г.Г. Особенности физического состояния студенток гуманитарного факультета // Теория и практика физической культуры, 1989.–№ 4.– С. 18-20
  10. Марченко В.В., Дворкин Л.С., Рогозян В.Н. Анализ силовой подготовки тяжелоатлета в нескольких макроциклах //Теория и практика физической культуры, 1998.– № 8.– С. 18–22.
  11. Основы математической статистики: Учебное пособие для ин-тов физ. культ./ /Под ред. В.С.Иванова. М.: Физкультура и спорт, 1990.– 176 с.
  12. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере.– М.: Финансы и статистика, 1995.– 384 с.