Среднее квадратическое отклонение пример. Стандартное отклонение процентов. Каждый динамический ряд содержит две составляющие

Определение

Среднеквадратическое отклонение (англ. Standard Deviation, SD ) является показателем, который используется в теории вероятности и математической статистике для оценки степени рассеивания случайной величины относительно ее математического ожидания. В инвестировании стандартное отклонение доходности ценных бумаг или портфеля используется для оценки меры риска. Чем выше степень рассеивания доходности ценной бумаги относительно ожидаемого доходности (математическое ожидание доходности), тем выше риск инвестирования, и наоборот.

Среднеквадратическое отклонение как правило обозначается греческой буквой σ (сигма), а стандартное отклонение латинской буквой S или как Std(X), где X – случайная величина.

Формула

Истинное значение среднеквадратического отклонения

Если известно точное распределение дискретной случайной величины, а именно, известно ее значение при каждом исходе и может быть оценена вероятность каждого исхода, то формула расчета среднеквадратического отклонения будет выглядеть следующим образом.

Где X i – значение случайной величины X при i-ом исходе; M(X) математическое ожидание случайной величины X; p i – вероятность i-го исхода; N – количество возможных исходов.

При этом математическое ожидание случайной величины рассчитывается по формуле:

Стандартное отклонение генеральной совокупности

На практике вместо точного распределение случайной величины обычно доступна только выборка данных. В этом случае рассчитывается оценочное значение среднеквадратического отклонения, которое в этом случае называют стандартным отклонением (S). Если оценка основывается на всей генеральной совокупности данных, необходимо использовать следующую формулу.

Где X i – i-ое значение случайной величины X; X – среднеарифметическое генеральной совокупности; N – объем генеральной совокупности.

Стандартное отклонение выборки

Если используется не вся генеральная совокупность данных, а выборка из нее, то формула расчета стандартного отклонения основывается на несмещенной оценке дисперсии.

Где X i – i-ое значение случайной величины X; X – среднеарифметическое выборки; N – объем выборки.

Примеры расчета

Пример 1

Портфельный менеджер должен оценить риски инвестирования в акции двух компаний А и Б. При этом он рассматривает 5 сценариев развития событий, информация по которым представлена в таблице.

Поскольку нам известно точное распределение доходности каждой из акций, мы можем рассчитать истинное значение среднеквадратического отклонения доходности для каждой из них.

Шаг 1. Рассчитаем математическое ожидание доходности для каждой из акций.

M(А) = -5%×0,02+6%×0,25+15%×0,40+24%×0,30+34%×0,03 = 15,62%

M(Б) = -18%×0,02+2%×0,25+16%×0,40+27%×0,30+36%×0,03 = 22,14%

Шаг 2. Подставим полученные данные в первую формулу.

Как мы можем видеть, акции Компании А характеризуются меньшим уровнем риска, поскольку у них ниже среднеквадратическое отклонение доходности. Следует также отметить, что и ожидаемая доходность у них ниже, чем у акций Компании Б.

Пример 2

Аналитик располагает данными о доходности двух ценных бумаг за последние 5 лет, которые представлены в таблице.

Поскольку точное распределение доходности неизвестно, а в распоряжении аналитика есть только выборка из генеральной совокупности данных, мы можем рассчитать стандартное отклонение выборки на основании несмещенной дисперсии.

Шаг 1. Рассчитаем ожидаемую доходность для каждой ценной бумаги как среднеарифметическое выборки.

X А = (7 + 15 + 2 – 5 + 6) ÷ 5 = 5%

X Б = (3 – 2 + 12 + 4 +8) ÷ 5 = 5%

Шаг 2. Рассчитаем стандартное отклонение доходности для каждой из ценных бумаг по формуле для выборки из генеральной совокупности данных.

Следует отметить, что обе ценные бумаги имеют равную ожидаемую доходность 5%. При этом стандартное отклонение доходности у ценной бумаги Б ниже, что при прочих равных делает ее более привлекательным объектом инвестирования в следствие лучшего профиля риск-доходность.

Стандартное отклонение в Excel

В Excel предусмотрено две функции для расчета стандартного отклонения выборки и генеральной совокупности.

Для выборки воспользуйтесь функцией «СТАНДОТКЛОН.В»:

  1. В диапазоне ячеек B1:F1
  2. Выберите выходную ячейку B2 .
  3. fx , во всплывшем окне «Вставка функции » выберите Категорию «Полный алфавитный перечень » и выберите функцию «СТАНДОТКЛОН.В ».
  4. В поле «Число1 » выберите диапазон ячеек B1:F1 , поле «Число2 OK ».

Для генеральной совокупности используется функция «СТАНДОТКЛОН.Г»:

  1. В диапазоне ячеек B1:F1 введены значения случайной величины X.
  2. Выберите выходную ячейку B2 .
  3. В командной строке нажмите кнопку fx , во всплывшем окне «Вставка функции » выберите Категорию «Полный алфавитный перечень » и выберите функцию «СТАНДОТКЛОН.Г ».
  4. В поле «Число1 » выберите диапазон ячеек B1:F1 , поле «Число2 » оставьте пустым и нажмите кнопку «OK ».

Интерпретация

В инвестировании стандартное отклонение доходности используется в качестве меры волатильности. Чем выше его значение, тем выше риск, связанный с инвестированием в этот актив, и наоборот. При прочих равных параметрах, предпочтение следует отдавать тому активу, у которого этот показатель будет минимальным.

Среднеквадратическое или стандартное отклонение - статистический показатель, оценивающий величину колебаний числовой выборки вокруг ее среднего значения. Практически всегда основное количество величин распределяется в пределе плюс-минус одно стандартное отклонение от среднего значения.

Определение

Среднеквадратическое отклонение - это квадратный корень из среднего арифметического значения суммы квадратов отклонений от среднего значения. Строго и математично, но абсолютно непонятно. Это словесное описание формулы расчета стандартного отклонения, но чтобы понять смысл этого статистического термина, давайте разберемся со всем по порядку.

Представьте себе тир, мишень и стрелка. Снайпер стреляет в стандартную мишень, где попадание в центр дает 10 баллов, в зависимости от удаления от центра количество баллов снижается, а попадание в крайние области дает всего 1 балл. Каждый выстрел стрелка - это случайное целое значение от 1 до 10. Изрешеченная пулями мишень - прекрасная иллюстрация распределения случайной величины.

Математическое ожидание

Наш начинающий стрелок долго практиковался в стрельбе и заметил, что он попадает в разные значения с определенной вероятностью. Допустим, на основании большого количества выстрелов он выяснил, что попадает в 10 с вероятностью 15 %. Остальные значения получили свои вероятности:

  • 9 - 25 %;
  • 8 - 20 %;
  • 7 - 15 %;
  • 6 - 15 %;
  • 5 - 5 %;
  • 4 - 5 %.

Сейчас он готовится сделать очередной выстрел. Какое значение он выбьет с наибольшей вероятностью? Ответить на этот вопрос нам поможет математическое ожидание. Зная все эти вероятности, мы можем определить наиболее вероятный результат выстрела. Формула для вычисления математического ожидания довольно проста. Обозначим значение выстрела как C, а вероятность как p. Математическое ожидание будет равно сумме произведение соответствующих значений и их вероятностей:

Определим матожидание для нашего примера:

  • M = 10 × 0,15 + 9 × 0,25 + 8 × 0,2 + 7 × 0,15 + 6 × 0,15 + 5 × 0,05 + 4 × 0,05
  • M = 7,75

Итак, наиболее вероятно, что стрелок попадет в зону, дающую 7 очков. Эта зона будет самой простреленной, что является прекрасным результатом наиболее частого попадания. Для любой случайной величины показатель матожидания означает наиболее встречаемое значение или центр всех значений.

Дисперсия

Дисперсия - еще один статистический показатель, иллюстрирующий нам разброс величины. Наша мишень густо изрешечена пулями, а дисперсия позволяет выразить этот параметр численно. Если математическое ожидание демонстрирует центр выстрелов, то дисперсия - их разброс. По сути, дисперсия означает математическое ожидание отклонений значений от матожидания, то есть средний квадрат отклонений. Каждое значение возводится в квадрат для того, чтобы отклонения были только положительными и не уничтожали друг друга в случае одинаковых чисел с противоположными знаками.

D[X] = M − (M[X]) 2

Давайте рассчитаем разброс выстрелов для нашего случая:

  • M = 10 2 × 0,15 + 9 2 × 0,25 + 8 2 × 0,2 + 7 2 × 0,15 + 6 2 × 0,15 + 5 2 × 0,05 + 4 2 × 0,05
  • M = 62,85
  • D[X] = M − (M[X]) 2 = 62,85 − (7,75) 2 = 2,78

Итак, наше отклонение равно 2,78. Это означает, что от области на мишени со значением 7,75 пулевые отверстия разбросаны на 2,78 балла. Однако в чистом виде значение дисперсии не используется - в результате мы получаем квадрат значения, в нашем примере это квадратный балл, а в других случаях это могут быть квадратные килограммы или квадратные доллары. Дисперсия как квадратная величина не информативна, поэтому она представляет собой промежуточный показатель для определения среднеквадратичного отклонения - героя нашей статьи.

Среднеквадратическое отклонение

Для превращения дисперсии в логично понятные баллы, килограммы или доллары используется среднеквадратическое отклонение, которое представляет собой квадратный корень из дисперсии. Давайте вычислим его для нашего примера:

S = sqrt(D) = sqrt(2,78) = 1,667

Мы получили баллы и теперь можем использовать их для связки с математически ожиданием. Наиболее вероятный результат выстрела в этом случае будет выражен как 7,75 плюс-минус 1,667. Этого достаточно для ответа, но так же мы можем сказать, что практически наверняка стрелок попадет в область мишени между 6,08 и 9,41.

Стандартное отклонение или сигма - информативный показатель, иллюстрирующий разброс величины относительно ее центра. Чем больше сигма, тем больший разброс демонстрирует выборка. Это хорошо изученный коэффициент и для нормального распределения известно занимательное правило трех сигм. Установлено, что 99,7 % значений нормально распределенной величины лежат в области плюс-минус трех сигм от среднего арифметического.

Рассмотрим на примере

Волатильность валютной пары

Известно, что на валютном рынке широко используются приемы математической статистики. Во многих торговых терминалах встроены инструменты для подсчета волатильности актива, который демонстрирует меру изменчивости цены валютной пары. Конечно, финансовые рынки имеют свою специфику расчета волатильности как то цены открытия и закрытия биржевых площадок, но в качестве примера мы можем подсчитать сигму для последних семи дневных свечей и грубо прикинуть недельную волатильность.

Наиболее волатильным активом рынка Форекс по праву считается валютная пара фунт/иена. Пусть теоретически в течение недели цена закрытия токийской биржи принимала следующие значения:

145, 147, 146, 150, 152, 149, 148.

Введем эти данные в калькулятор и подсчитаем сигму, равную 2,23. Это означает, что в среднем курс японской иены изменялся на 2,23 иены ежедневно. Если бы все было так замечательно, трейдеры заработали бы на таких движениях миллионы.

Заключение

Стандартное отклонение используется в статистическом анализе числовых выборок. Это полезный коэффициент позволяющий оценить разброс данных, так как два набора с, казалось бы, одинаковым средним значением могут быть абсолютно разными по разбросу величин. Используйте наш калькулятор для поиска сигм небольших выборок.

Квадратный корень из дисперсии носит название среднего квадратического отклонения от средней, которое рассчитывается следующим образом:

Элементарное алгебраическое преобразование формулы среднего квадратического отклонения приводит ее к следующему виду:

Эта формула часто оказывается более удобной в практике расчетов.

Среднее квадратическое отклонение так же, как и среднее линейное отклонение, показывает, на сколько в среднем отклоняются конкретные значения признака от среднего их значения. Среднее квадратическое отклонение всегда больше среднего линейного отклонения. Между ними имеется такое соотношение:

Зная это соотношение, можно по известному показатели определить неизвестный, например, но (I рассчитать а и наоборот. Среднее квадратическое отклонение измеряет абсолютный размер колеблемости признака и выражается в тех же единицах измерения, что и значения признака (рублях, тоннах, годах и т.д.). Оно является абсолютной мерой вариации.

Для альтернативных признаков, например наличия или отсутствия высшего образования, страховки, формулы дисперсии и среднего квадратического отклонения такие:

Покажем расчет среднего квадратического отклонения по данным дискретного ряда, характеризующего распределение студентов одного из факультетов вуза по возрасту (табл. 6.2).

Таблица 6.2.

Результаты вспомогательных расчетов даны в графах 2-5 табл. 6.2.

Средний возраст студента, лет, определен по формуле средней арифметической взвешенной (графа 2):

Квадраты отклонения индивидуального возраста студента от среднего содержатся в графах 3-4, а произведения квадратов отклонений на соответствующие частоты - в графе 5.

Дисперсию возраста студентов, лет, найдем по формуле (6.2):

Тогда о = л/3,43 1,85 *ода, т.е. каждое конкретное значение возраста студента отклоняется от среднего значения на 1,85 года.

Коэффициент вариации

По своему абсолютному значению среднее квадратическое отклонение зависит не только от степени вариации признака, но и от абсолютных уровней вариантов и средней. Поэтому сравнивать средние квадратические отклонения вариационных рядов с различными средними уровнями непосредственно нельзя. Чтобы иметь возможность для такого сравнения, нужно найти удельный вес среднего отклонения (линейного или квадратического) в среднем арифметическом показателе, выраженном в процентах, т.е. рассчитать относительные показатели вариации.

Линейный коэффициент вариации вычисляют по формуле

Коэффициент вариации определяют по следующей формуле:

В коэффициентах вариации устраняется не только несопоставимость, связанная с различными единицами измерения изучаемого признака, но и несопоставимость, возникающая вследствие различий в величине средних арифметических. Кроме того, показатели вариации дают характеристику однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33%.

По данным табл. 6.2 и полученным выше результатам расчетов определим коэффициент вариации, %, по формуле (6.3):

Если коэффициент вариации превышает 33%, то это свидетельствует о неоднородности изучаемой совокупности. Полученное в пашем случае значение говорит о том, что совокупность студентов по возрасту однородна по своему составу. Таким образом, важная функция обобщающих показателей вариации - оценка надежности средних. Чем меньше с1, а2 и V, тем однороднее полученная совокупность явлений и надежнее полученная средняя. Согласно рассматриваемому математической статистикой "правилу трех сигм" в нормально распределенных или близких к ним рядах отклонения от средней арифметической, не превосходящие ±3ст, встречаются в 997 случаях из 1000. Таким образом, зная х и а, можно получить общее первоначальное представление о вариационном ряде. Если, например, средняя заработная плата работника по фирме составила 25 000 руб., а а равна 100 руб., то с вероятностью, близкой к достоверности, можно утверждать, что заработная плата работников фирмы колеблется в пределах (25 000 ± ± 3 х 100) т.е. от 24 700 до 25 300 руб.

Х i - случайные (текущие) величины;

среднее значение случайных величин по выборке, рассчитывается по формуле:

Итак, дисперсия - это средний квадрат отклонений . То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат , складывается и затем делится на количество значений в данной совокупности.

Разница между отдельным значением и средней отражает меру отклонения. В квадрат возводится для того, чтобы все отклонения стали исключительно положительными числами и чтобы избежать взаимоуничтожения положительных и отрицательных отклонений при их суммировании. Затем, имея квадраты отклонений, мы просто рассчитываем среднюю арифметическую.

Разгадка магического слова «дисперсия» заключается всего в этих трех словах: средний – квадрат – отклонений.

Среднее квадратичное отклонение (СКО)

Извлекая из дисперсии квадратный корень, получаем, так называемое «среднеквадратичное отклонение». Встречаются названия «стандартное отклонение» или «сигма» (от названия греческой буквыσ .). Формула среднего квадратичного отклонения имеет вид:

Итак, дисперсия – это сигма в квадрате, или – среднее квадратичное отклонение в квадрате.

Среднеквадратичное отклонение, очевидно, также характеризует меру рассеивания данных, но теперь (в отличие от дисперсии) его можно сравнивать с исходными данными, так как единицы измерения у них одинаковые (это явствует из формулы расчета). Размах вариации – это разница между крайними значениями. Среднеквадратичное отклонение, как мера неопределенности, также участвует во многих статистических расчетах. С ее помощью устанавливают степень точности различных оценок и прогнозов. Если вариация очень большая, то стандартное отклонение тоже получится большим, следовательно, и прогноз будет неточным, что выразится, к примеру, в очень широких доверительных интервалах.

Поэтому в методах статистической обработки данных в оценках объектов недвижимости в зависимости от необходимой точности поставленной задачи используют правило двух или трех сигм.

Для сравнения правила двух сигм и правила трех сигм используем формулу Лапласа:

Ф - Ф ,

где Ф(x) – функция Лапласа;



Минимальное значение

β = максимальное значение

s = значение сигмы (среднее квадратичное отклонение)

a = среднее значение

В этом случае используется частный вид формулы Лапласа когда границы α и β значений случайной величины X равно отстоят от центра распределения a = M(X) на некоторую величину d: a = a-d, b = a+d. Или (1) Формула (1) определяет вероятность заданного отклонения d случайной величины X с нормальным законом распределения от ее математического ожидания М(X) = a. Если в формуле (1) принять последовательно d = 2s и d = 3s, то получим: (2), (3).

Правило двух сигм

Почти достоверно (с доверительной вероятностью 0,954) можно утверждать, что все значения случайной величины X с нормальным законом распределения отклоняются от ее математического ожидания M(X) = a на величину, не большую 2s (двух средних квадратических отклонений). Доверительной вероятностью (Pд) называют вероятность событий, которые условно принимаются за достоверные (их вероятность близка к 1).

Проиллюстрируем правило двух сигм геометрически. На рис. 6 изображена кривая Гаусса с центром распределения а. Площадь, ограниченная всей кривой и осью Оx, равна 1 (100%), а площадь криволинейной трапеции между абсциссами а–2s и а+2s, согласно правилу двух сигм, равна 0,954 (95,4% от всей площади). Площадь заштрихованных участков равна 1-0,954 = 0,046 (»5% от всей площади). Эти участки называют критической областью значений случайной величины. Значения случайной величины, попадающие в критическую область, маловероятны и на практике условно принимаются за невозможные.

Вероятность условно невозможных значений называют уровнем значимости случайной величины. Уровень значимости связан с доверительной вероятностью формулой:

где q – уровень значимости, выраженный в процентах.

Правило трех сигм

При решении вопросов, требующих большей надежности, когда доверительную вероятность (Pд) принимают равной 0,997 (точнее - 0,9973), вместо правила двух сигм, согласно формуле (3), используют правило трех сигм.



Согласно правилу трех сигм при доверительной вероятности 0,9973 критической областью будет область значений признака вне интервала (а-3s, а+3s). Уровень значимости составляет 0,27%.

Другими словами, вероятность того, что абсолютная величина отклонения превысит утроенное среднее квадратическое отклонение, очень мала, а именно равна 0,0027=1-0,9973. Это означает, что лишь в 0,27% случаев так может произойти. Такие события, исходя из принципа невозможности маловероятных событий, можно считать практически невозможными. Т.е. выборка высокоточная.

В этом и состоит сущность правила трех сигм:

Если случайная величина распределена нормально, то абсолютная величина ее отклонения от математического ожидания не превосходит утроенного среднего квадратического отклонения (СКО).

На практике правило трех сигм применяют так: если распределение изучаемой случайной величины неизвестно, но условие, указанное в приведенном правиле, выполняется, то есть основание предполагать, что изучаемая величина распределена нормально; в противном случае она не распределена нормально.

Уровень значимости принимают в зависимости от дозволенной степени риска и поставленной задачи. Для оценки недвижимости обычно принимается менее точная выборка, следуя правилу двух сигм.

Средняя величина - это обобщающий показатель статистической совокупности, который погашает индивидуальные различия значений статистических величин, позволяя сравнивать разные совокупности между собой.

Существует 2 класса средних величин: и .

К структурным средним относятся мода и медиана , но наиболее часто применяются степенные средние различных видов.

Степенные средние величины

Степенные средние могут быть простыми и взвешенными .

Простая средняя величина рассчитывается при наличии двух и более несгруппированных статистических величин, расположенных в произвольном порядке по следующей общей формуле:

Взвешенная средняя величина рассчитывается по сгруппированным статистическим величинам с использованием следующей общей формулы:

Где X – значения отдельных статистических величин или середин группировочных интервалов;
m - показатель степени, от значения которого зависят следующие виды степенных средних величин :
при m = -1 ;
при m = 0 ;
при m = 1 ;
при m = 2 ;
при m = 3 .

Используя общие формулы простой и взвешенной средних при разных показателях степени m, получаем частные формулы каждого вида, которые будут далее подробно рассмотрены.

Средняя арифметическая

Средняя арифметическая - это самая часто используемая средняя величина, которая получается, если подставить в общую формулу m=1. Средняя арифметическая простая имеет следующий вид:

Где X - значения величин, для которых необходимо рассчитать среднее значение; N - общее количество значений X (число единиц в изучаемой совокупности).

Например, студент сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5. Рассчитаем средний балл по формуле средней арифметической простой: (3+4+4+5)/4 = 16/4 = 4.

Средняя арифметическая взвешенная имеет следующий вид:

Где f - количество величин с одинаковым значением X (частота).

Например, студент сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5. Рассчитаем средний балл по формуле средней арифметической взвешенной: (3*1 + 4*2 + 5*1)/4 = 16/4 = 4.

Если значения X заданы в виде интервалов, то для расчетов используют середины интервалов X, которые определяются как полусумма верхней и нижней границ интервала. А если у интервала X отсутствует нижняя или верхняя граница (открытый интервал), то для ее нахождения применяют размах (разность между верхней и нижней границей) соседнего интервала X.

Например, на предприятии 10 работников со стажем работы до 3 лет, 20 - со стажем от 3 до 5 лет, 5 работников - со стажем более 5 лет. Тогда рассчитаем средний стаж работников по формуле средней арифметической взвешенной, приняв в качестве X середины интервалов стажа (2, 4 и 6 лет):
(2*10+4*20+6*5)/(10+20+5) = 3,71 года.

Средняя арифметическая применяется чаще всего, но бывают случаи, когда необходимо применение других видов средних величин. Рассмотрим такие случаи далее.

Средняя гармоническая

Средняя гармоническая применяется, когда исходные данные не содержат частот f по отдельным значениям X, а представлены как их произведение Xf. Обозначив Xf=w, выразим f=w/X, и, подставив эти обозначения в формулу средней арифметической взвешенной, получим формулу средней гармонической взвешенной:

Таким образом, средняя гармоническая взвешенная применяется тогда, когда неизвестны частоты f, а известно w=Xf. В тех случаях, когда все w=1, то есть индивидуальные значения X встречаются по 1 разу, применяется формула средней гармонической простой:

Например, автомобиль ехал из пункта А в пункт Б со скоростью 90 км/ч, а обратно - со скоростью 110 км/ч. Для определения средней скорости применим формулу средней гармонической простой, так как в примере дано расстояние w 1 =w 2 (расстояние из пункта А в пункт Б такое, же как и из Б в А), которое равно произведению скорости (X) на время (f). Средняя скорость = (1+1)/(1/90+1/110) = 99 км/ч.

Средняя геометрическая

Средняя геометрическая применяется при определении средних относительных изменений, о чем сказано в теме Ряды динамики . Геометрическая средняя величина дает наиболее точный результат осреднения, если задача стоит в нахождении такого значения X, который был бы равноудален как от максимального, так и от минимального значения X.

Например, в период с 2005 по 2008 годы индекс инфляции в России составлял: в 2005 году - 1,109; в 2006 - 1,090; в 2007 - 1,119; в 2008 - 1,133. Так как индекс инфляции - это относительное изменение (индекс динамики), то рассчитывать среднее значение нужно по средней геометрической: (1,109*1,090*1,119*1,133)^(1/4) = 1,1126, то есть за период с 2005 по 2008 ежегодно цены росли в среднем на 11,26%. Ошибочный расчет по средней арифметической дал бы неверный результат 11,28%.

Средняя квадратическая

Средняя квадратическая применяется в тех случая, когда исходные значения X могут быть как положительными, так и отрицательными, например при расчете средних отклонений.

Главной сферой применения квадратической средней является измерение вариации значений X, о чем пойдет речь .

Средняя кубическая

Средняя кубическая применяется крайне редко, например, при расчете индексов нищеты населения для развивающихся стран (ИНН-1) и для развитых (ИНН-2), предложенных и рассчитываемых ООН.

Структурные средние величины

К наиболее часто используемым структурным средним относятся и .

Статистическая мода

Статистическая мода - это наиболее часто повторяющееся значение величины X в статистической совокупности.

Если X задан дискретно , то мода определяется без вычисления как значение признака с наибольшей частотой. В статистической совокупности бывает 2 и более моды, тогда она считается бимодальной (если моды две) или мультимодальной (если мод более двух), и это свидетельствует о неоднородности совокупности.

Например, на предприятии работает 16 человек: 4 из них - со стажем 1 год, 3 человека - со стажем 2 года, 5 - со стажем 3 года и 4 человека - со стажем 4 года. Таким образом, модальный стаж Мо=3 года, поскольку частота этого значения максимальна (f=5).

Если X задан равными интервалами , то сначала определяется модальный интервал как интервал с наибольшей частотой f. Внутри этого интервала находят условное значение моды по формуле:

Где Мо – мода;
Х НМо – нижняя граница модального интервала;
h Мо – размах модального интервала (разность между его верхней и нижней границей);
f Мо – частота модального интервала;
f Мо-1 – частота интервала, предшествующего модальному;
f Мо+1 – частота интервала, следующего за модальным.

Например, на предприятии 10 работников со стажем работы до 3 лет, 20 - со стажем от 3 до 5 лет, 5 работников - со стажем более 5 лет. Рассчитаем модальный стаж работы в модальном интервале от 3 до 5 лет: Мо = 3 + 2*(20-10)/(2*20-10-5) = 3,8 (года).

Если размах интервалов h разный, то вместо частот f необходимо использовать плотности интервалов, рассчитываемые путем деления частот f на размах интервала h.

Статистическая медиана

Статистическая медиана – это значение величины X, которое делит упорядоченную по возрастанию или убыванию статистическую совокупность на 2 равных по численности части. В итоге у одной половины значение больше медианы, а у другой - меньше медианы.

Если X задан дискретно , то для определения медианы все значения нумеруются от 0 до N в порядке возрастания , тогда медиана при четном числе N будет лежать посередине между X c номерами 0,5N и (0,5N+1), а при нечетном числе N будет соответствовать значению X с номером 0,5(N+1).

Например, имеются данные о возрасте студентов-заочников в группе из 10 человек - X: 18, 19, 19, 20, 21, 23, 23, 25, 28, 30 лет. Эти данные уже упорядочены по возрастанию, а их количество N=10 - четное, поэтому медиана будет находиться между X с номерами 0,5*10=5 и (0,5*10+1)=6, которым соответствуют значения X 5 =21 и X 6 =23, тогда медиана: Ме = (21+23)/2 = 22 (года).

Если X задан в виде равных интервалов , то сначала определяется медианный интервал (интервал, в котором заканчивается одна половина частот f и начинается другая половина), в котором находят условное значение медианы по формуле:

Где Ме – медиана;
Х НМе – нижняя граница медианного интервала;
h Ме – размах медианного интервала (разность между его верхней и нижней границей);
f Ме – частота медианного интервала;
f Ме-1 – сумма частот интервалов, предшествующих медианному.

В ранее рассмотренном примере при расчете модального стажа (на предприятии 10 работников со стажем работы до 3 лет, 20 - со стажем от 3 до 5 лет, 5 работников - со стажем более 5 лет) рассчитаем медианный стаж. Половина общего числа работников составляет (10+20+5)/2 = 17,5 и находится в интервале от 3 до 5 лет, а в первом интервале до 3 лет - только 10 работников, а в первых двух - (10+20)=30, что больше 17,5, значит интервал от 3 до 5 лет - медианный. Внутри него определяем условное значение медианы: Ме = 3+2*(0,5*30-10)/20 = 3,5 (года).

Также как и в случае с модой, при определении медианы если размах интервалов h разный, то вместо частот f необходимо использовать плотности интервалов, рассчитываемые путем деления частот f на размах интервала h.

Показатели вариации

Вариация - это различие значений величин X у отдельных единиц статистической совокупности. Для изучения силы вариации рассчитывают следующие показатели вариации : , , , , .

Размах вариации

Размах вариации – это разность между максимальным и минимальным значениями X из имеющихся в изучаемой статистической совокупности:

Недостатком показателя H является то, что он показывает только максимальное различие значений X и не может измерять силу вариации во всей совокупности.

Cреднее линейное отклонение

Cреднее линейное отклонение - это средний модуль отклонений значений X от среднего арифметического значения. Его можно рассчитывать по формуле средней арифметической простой - получим :

Например, студент сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5. = 4. Рассчитаем среднее линейное отклонение простое: Л = (|3-4|+|4-4|+|4-4|+|5-4|)/4 = 0,5.

Если исходные данные X сгруппированы (имеются частоты f), то расчет среднего линейного отклонения выполняется по формуле средней арифметической взвешенной - получим :

Вернемся к примеру про студента, который сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5. = 4 и = 0,5. Рассчитаем среднее линейное отклонение взвешенное: Л = (|3-4|*1+|4-4|*2+|5-4|*1)/4 = 0,5.

Линейный коэффициент вариации

Линейный коэффициент вариации - это отношение среднего линейного отклонение к средней арифметической:

С помощью линейного коэффициента вариации можно сравнивать вариацию разных совокупностей, потому что в отличие от среднего линейного отклонения его значение не зависит от единиц измерения X.

В рассматриваемом примере про студента, который сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5, линейный коэффициент вариации составит 0,5/4 = 0,125 или 12,5%.

Дисперсия

Дисперсия - это средний квадрат отклонений значений X от среднего арифметического значения. Дисперсию можно рассчитывать по формуле средней арифметической простой - получим дисперсию простую :

В уже знакомом нам примере про студента, который сдал 4 экзамена и получил оценки: 3, 4, 4 и 5, = 4. Тогда дисперсия простая Д = ((3-4) 2 +(4-4) 2 +(4-4) 2 +(5-4) 2)/4 = 0,5.

Если исходные данные X сгруппированы (имеются частоты f), то расчет дисперсии выполняется по формуле средней арифметической взвешенной - получим дисперсию взвешенную :

В рассматриваемом примере про студента, который сдал 4 экзамена и получил следующие оценки: 3, 4, 4 и 5, рассчитаем дисперсию взвешенную: Д = ((3-4) 2 *1+(4-4) 2 *2+(5-4) 2 *1)/4 = 0,5.

Если преобразовать формулу дисперсии (раскрыть скобки в числителе, почленно разделить на знаменатель и привести подобные), то можно получить еще одну формулу для ее расчета как разность средней квадратов и квадрата средней:

Еще проще можно найти среднее квадратическое отклонение , если предварительно рассчитана дисперсия, как корень квадратный из нее:

В примере про студента, в котором выше , найдем среднее квадратическое отклонение как корень квадратный из нее: .

Квадратический коэффициент вариации

Квадратический коэффициент вариации - это самый популярный относительный показатель вариации:

Критериальным значением квадратического коэффициента вариации V служит 0,333 или 33,3%, то есть если V меньше или равен 0,333 - вариация считает слабой, а если больше 0,333 - сильной. В случае сильной вариации изучаемая статистическая совокупность считается неоднородной , а средняя величина - нетипичной и ее нельзя использовать как обобщающий показатель этой совокупности.

В примере про студента, в котором выше , найдем квадратический коэффициент вариации V = 0,707/4 = 0,177, что меньше критериального значения 0,333, значит вариация слабая и равна 17,7%.
Похожие статьи

© 2024 karkywa.ru. Программы. Интернет. Безопасность. Компьютеры. Windows.