Числовые характеристики выборки

Видеоуроки по Statgraphics Учебные пособия по статистике Введение в математическую статистику Генеральная совокупность и выборка Статистические шкалы Эмпирические распределения Числовые характеристики выборки Стандартная ошибка среднего арифметического Представление результатов исследования Точечное и интервальное оценивание числовых характеристик Элементы теории вероятностей Нормальный закон распределения (закон нормального распределения) Статистические гипотезы Критерии проверки статистических гипотез Критерии согласия Условия применения параметрических критериев Обоснование выбора критерия значимости Статистические операции в номинальной шкале Представление данных статистического анализа Корреляционный анализ Представление данных корреляционного анализа Регрессионный анализ Представление результатов регрессионного анализа

Числовые характеристики выборки

Числовые характеристики выборки (случайной величины)

В.С. Иванов (1990) в книге «Основы математической статистики» пишет: «Вариационные ряды и графики эмпирических распределений дают наглядное представление о том, как варьирует признак в выборочной совокупности. Но они недостаточны для полной характеристики выборки, поскольку содержат много деталей, охватить которые невозможно без обобщающих числовых характеристик. Числовые характеристики выборки дают количественное представление об эмпирических данных и позволяют сравнивать их между собой».

Наибольшее практическое значение имеют характеристики положения, рассеивания и асимметрии (табл.1). В конце этой страницы расположен видеофайл, объясняющий как рассчитать числовые характеристики выборки (случайной величины) в пакете STATGRAPHICS.

Таблица 1 — Название и обозначение числовых характеристик выборки (случайной величины)

Числовые характеристики случайной величины

ПоложенияВариативностиФормы распределения
Среднее арифметическое (М)Размах вариации (R)Коэффициент асимметрии (As)
Мода (Мо)Дисперсия (S2)Коэффициент эксцесса (Ex)
Медиана (Ме)Стандартное отклонение (S)

Коэффициент вариации (V%)

Характеристики положения

Среднее арифметическое

Среднее арифметическое  (М) одна из основных характеристик выборки. Этот показатель характеризуется тем, что сумма отклонений от него выборочных значений (с учетом знака) равна нулю.

Для вычисления среднего арифметического сумму всех значений признака делим на объем выборки.

Пример: xi : 20, 15, 15, 20, 30, среднее арифметическое равно 20. При этом сумма отклонений вариант от среднего арифметического равна нулю: сумма отклонений= 0 +(-5) + (-5) + 0 + 10 = 0.

М=(20+15+15+20+30)/5=20

Следует заметить, что среднее арифметическое измеряется в тех же единицах, что и признак. Например, если масса человека измеряется в кг, то и среднее арифметическое измеряется в кг.

Среднее арифметическое, вычисленное на основе выборочных данных, то есть данных, полученных на выборке, называется выборочным средним арифметическим. Оно обозначается как М (Mean). Среднее арифметическое генеральной совокупности называется генеральным средним арифметическим. Оно обозначается буквой мю (μ).

Мода

Мода (Мо) – характеристика положения. Представляет собой значение признака, встречающееся в выборке наиболее часто (рис.1).

Числовые характеристики положения случайной величины (выборки)
Рис.1. Числовые характеристики положения случайной величины (выборки)

В качестве примера рассмотрим выборку: xi :3; 3; 3; 5; 5; 3; 4; 6; 7; 5; 3.

В выборке цифра «3» встречается 5 раз, поэтому Мо = 3.

С точки зрения анализа данных, мода несёт информацию о «типичных» значениях признака, а не о наиболее вероятных (как среднее).

Медиана

Медиана (Ме)- характеристика положения, представляет собой такое значение признака, при котором одна половина значений меньше ее, а другая – больше.

В качестве примера рассмотрим выборку: xi :3; 3; 3; 5; 5; 3; 4; 6; 7; 5; 3.

Чтобы легко было определить медиану расположим варианты по возрастанию.

xi :3; 3; 3; 3; 3; 4; 5; 5; 5; 6; 7. Варианта со значением «4» стоит в середине этой выборки. Это и есть медиана.

Медиана относится к классу непараметрических статистик.  В анализе данных медиана может использоваться как альтернатива среднего арифметического, так как она устойчива к выбросам и аномальным значениям.

Сравнение характеристик положения выборки

Характеристики положения называют также мерами центральной тенденции (Дж. Гласс, Дж. Стенли, 1976). Эти меры  по-разному характеризуют выборку (рис. 2).

Характеристики положения: среднее (Mean), мода (Mode) и медиана (Median) признака "Рост мальчиков"
Рис.2. Характеристики положения: среднее (Mean), мода (Mode) и медиана (Median) признака «Рост мальчиков»

В малых группах мода может быть совершенно нестабильной. Однако для большого объема данных мода является достаточно стабильной характеристикой.

На медиану не влияют большие или малые значения признака. Например, в выборке из 50 объектов, значение медианы не изменится, если наибольшее значение признака утроится.

На значение среднего арифметического очень сильно влияют «выбросы», то есть данные, находящиеся далеко от центра.

Дж. Гласс и Дж. Стенли (1976) приводят следующий анекдот для характеристики проблем, которые связаны с выбором меры центральной тенденции.

Однажды пятеро мужчин сидели рядом на скамейке парка. Двое были бродягами, имущество которых выражалось в 25 центов. Третий был рабочим, чей счет в банке и другое имущество составляли 2000 долларов. Четвертый владел 15000 долларами в разных формах. Пятый же был миллионером с чистым доходом  5 000 000 долларов. Поэтому мода для этой группы равна 25 центам. Эта цифра очень хорошо  характеризует двоих, но является чрезвычайно некорректной для трех других. Медиана равна 2000 долларов и хорошо характеризует только рабочего. Среднее в 1003400, 10 долларов не является удовлетворительным даже для миллионера. Очевидно, нет меры центральной тенденции, адекватной этой группе.

В области физической культуры и спорта чаще всего применяются две характеристики: среднее и медиана. Считается, если данные представлены в баллах или распределение признака отличается от нормального для характеристики выборки правильнее применять медиану. Если данные представлены в интервальной шкале или шкале отношений, а также если распределение признака соответствует нормальному, рекомендуется использовать среднее арифметическое.

Характеристики вариативности

Средние значения не дают полной информации о вариации признака, поэтому наряду со средними значениями вычисляют характеристики вариативности.

К этим характеристикам относятся:

  • размах вариации признака;
  • дисперсия признака (случайной величины);
  • стандартное отклонение;
  • коэффициент вариации.

Размах вариации признака

Размах вариации признака (R) вычисляется как разность между максимальным и минимальным значением признака:

R= Xmax-Xmin.

Размах вариации признака измеряется в тех же единицах, что и признак. Информативность этого показателя невелика, так как эмпирические распределения результатов могут иметь одинаковый размах варьирования, а их форма будет очень отличаться.

Рассмотрим следующий пример. Имеем оценки, показанные школьниками двух классов:

Class А: 1;2;3;4;5

Class B: 1;5;5;5;5

В этом случае размах вариации признака одинаков и равен: R= Xmax-Xmin =5-1=4.

Однако распределение результатов учеников класса А и Б сильно различается.

Дисперсия признака

Дисперсия признака (S2) – средний квадрат отклонений значений признака от среднего арифметического.

Формула расчета дисперсии случайной величины (признака)

где: xi — значение варианты; x (c чертой) — среднее арифметическое; n — объем выборки.

Иногда вместо дисперсии признака говорят дисперсия выборки или дисперсия случайной величины.

Дисперсия выборки характеризует ее вариативность (рис.3), при этом каждая из вариант вносит свой вклад.

Слева - пример выборки с большой вариативностью признака; справа - с малой вариативностью
Рис.3. Слева — пример выборки с большой вариативностью признака; справа — с малой вариативностью

Это отличает дисперсию от размаха вариации, на значение которого влияют только две варианты: минимальное и максимальное значение признака.

Если признак измеряется в метрах, то дисперсия – в м2. Это является недостатком этого показателя, поэтому наиболее часто в публикациях приводится не дисперсия, а стандартное отклонение (S). Этот показатель также называется среднеквадратическим отклонением или СКО.

Стандартное отклонение (S) представляет собой корень квадратный из дисперсии. Чем больше стандартное отклонение, тем больше варьирует признак.

Формула расчета стандартного отклонения

В отличие от дисперсии стандартное отклонение измеряется в тех же единицах, что и признак.

Рассмотрим, как рассчитывается дисперсия и стандартное отклонение на следующем примере.

Имеем следующие значения признака: 20, 15, 15, 20, 30

Вначале рассчитываем среднее арифметическое (М), оно равно: (20+15+15+20+30)/5=20. Теперь заполняем таблицу 2

Таблица 2 — Cхема расчета дисперсии признака

nxi xi-M(xi-M)2
12000
215-525
315-525
42000
53010100
Сумма150

Теперь рассчитываем дисперсию: S2=150/(5-1)=37,5, а стандартное отклонение равно:

S=SQR (37,5)= 6,12.

Коэффициент вариации признака

Чтобы сопоставить вариативность признаков, измеренных в различных единицах, используется относительный показатель (СV%), который называется коэффициентом вариации. Этот коэффициент предложен Карлом Пирсоном.

Коэффициент вариации рассчитывается следующим образом:

СV%=100% (S /M),

где: S — стандартное отклонение; M — среднее арифметическое.

Например, среднее арифметическое роста спортсменок равно М=170 см, а стандартное отклонение S=5 см, тогда коэффициент вариации равен: СV%= 100% (5/170)=2,94.

Коэффициент вариации часто используют для оценки однородности выборки. Если СV<10% – выборка однородна, то есть, получена из одной генеральной совокупности.

Характеристики формы распределения признака

Форма распределения признака характеризуются два показателя:

  • коэффициент асимметрии;
  • коэффициент эксцесса.

Коэффициент асимметрии

Коэффициент асимметрии (As) характеризует “скошенность“ эмпирического распределения признака (рис. 4).

Распределения признака: симметричное - в центре; асимметричное (слева и справа от центрального распределения)
Рис.4. Распределения признака: симметричное — в центре; асимметричное (слева и справа от центрального распределения)

Он рассчитывается по следующей формуле:

Формула расчета коэффициента асимметрии

Если коэффициент асимметрии равен нулю, то есть As=0 – распределение симметричное (рис.4). Если коэффициент асимметрии больше нуля, то есть As>0 — вершина распределения скошена влево. Если коэффициент асимметрии  меньше нуля то есть As <0 — вершина распределения скошена вправо.

Коэффициент эксцесса

Коэффициент эксцесса (Ex) определяет характер эмпирического распределения: остро- или плосковершинный (рис.5).

Распределения признака: нормальное (красный цвет), плосковершинное (зеленый цвет), островершинное (синий цвет)
Рис.5. Распределения признака: нормальное (красный цвет), плосковершинное (зеленый цвет), островершинное (синий цвет)

Коэффициент эксцесса рассчитывает по формуле:Формула расчета коэффициента эксцессаЕсли распределение соответствует нормальному закону — коэффициент эксцесса равен нулю (рис.7). Если распределение признака плосковершинное — коэффициент эксцесса меньше нуля, то есть Ex<0. Если распределение признака островершинное — коэффициент эксцесса больше нуля, то есть то есть Ex>0.

Причины асимметрии и эксцесса признака

Причинами асимметрии и эксцесса распределения признака может быть неоднородность выборки. В.М. Зациорский (1969) изучал результаты физической подготовленности студентов г. Москвы и получил следующие результаты (таблица 3).

Таблица 3 — Результаты физической подготовленности студентов г. Москвы

ПоказательПолnx ̅SA_sE_x
Бег 100 м, сМ481214,20,870,531,11
Прыжок в длину, смМ40864,390,430,331,83

Из таблицы 3 следует, что несмотря на большой объем выборки коэффициент эксцесса достаточно большой (больше 1). После того, как были отобраны студенты первого курса, возраста 17-19 лет, которые родились в Москве и не занимались регулярно спортом, было установлено, что коэффициенты эксцесса значительно уменьшились  (таблица 4).

Таблица 4 — Результаты физической подготовленности студентов г. Москвы после устранения неоднородности выборки

ПоказательПолnx ̅SA_sE_x
Бег 100 м, сМ21714,00,510,510,21
Прыжок в длину, смМ2175,360,240,230,52

Также установлено, что засуха вызывает значительную асимметрию в длине колосьев (Лакин Г.Ф., 1980).

Литература

  1. Высшая математика и математическая статистика: учебное пособие для вузов / Под общ. ред. Г. И. Попова. – М. Физическая культура, 2007.– 368 с.
  2. Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. М.: Прогресс. 1976.- 495 с.
  3. Катранов А.Г. Компьютерная обработка данных экспериментальных исследований: Учебное пособие/ А. Г. Катранов, А. В. Самсонова; СПб ГУФК им. П.Ф. Лесгафта. – СПб.: изд-во СПб ГУФК им. П.Ф. Лесгафта, 2005. – 131 с.
  4. Лакин Г.Ф. Биометрия.- М.: Высшая школа, 1980.- 293 с.
  5. Основы математической статистики: Учебное пособие для ин-тов физ. культ / Под ред. В.С. Иванова.– М.: Физкультура и спорт, 1990. 176 с.
  6. Самсонова, А.В. Математическая статистика в спортивных исследованиях: учебное пособие / А.В. Самсонова, И.Э. Барникова: НГУ им.П.Ф.Лесгафта, Санкт-Петербург.- СПб [б.и.], 2022.- 122 c.

Расчет числовых характеристик одной переменной в Statgraphics:

 

С уважением, А.В. Самсонова

  1. Учебные пособия по статистике
  2. Видеоуроки по Statgraphics
  3. Введение в математическую статистику
  4. Генеральная совокупность и выборка
  5. Статистические шкалы
  6. Эмпирические распределения
  7. Числовые характеристики выборки
  8. Стандартная ошибка среднего арифметического
  9. Представление результатов исследования
  10. Точечное и интервальное оценивание числовых характеристик
  11. Элементы теории вероятностей
  12. Нормальный закон распределения (закон нормального распределения)
  13. Статистические гипотезы
  14. Критерии проверки статистических гипотез
  15. Критерии согласия
  16. Условия применения параметрических критериев
  17. Обоснование выбора критерия значимости
  18. Статистические операции в номинальной шкале
  19. Представление данных статистического анализа
  20. Корреляционный анализ
  21. Представление данных корреляционного анализа
  22. Регрессионный анализ
  23. Представление результатов регрессионного анализа