Вычислим вMSEXCELдисперсию и стандартное отклонение выборки. Также вычислим дисперсию случайной величины, если известно ее распределение.
Дисперсия выборки
Все 3 формулы математически эквивалентны.
Дисперсия случайной величины
Для дисперсии случайной величины Х часто используют обозначение Var(Х). Дисперсия равна математическому ожиданию квадрата отклонения от среднего E(X): Var(Х)=E[(X-E(X)) 2 ]
где x i – значение, которое может принимать случайная величина, а μ – среднее значение ( математическое ожидание случайной величины ), р(x) – вероятность, что случайная величина примет значение х.
Некоторые свойства дисперсии :
Стандартное отклонение выборки
По определению, стандартное отклонение равно квадратному корню из дисперсии :
Стандартное отклонение можно также вычислить непосредственно по нижеуказанным формулам (см. файл примера ) =КОРЕНЬ(КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1)) =КОРЕНЬ((СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/(СЧЁТ(Выборка)-1))
Другие меры разброса
Вычисления в функции СРОТКЛ () производятся по формуле:
Среднее абсолютное отклонение позволяет решить проблему, заключающуюся в том, что сумма отклонений от среднего равна нулю. Для этого при расчете среднего используется абсолютное значение отклонений.
Второй подход к расчету отклонений состоит в их возведении в квадрат.
Дисперсия и стандартное отклонение, основанные на квадрате отклонений, являются двумя наиболее широко используемыми мерами дисперсии:
Далее обсуждается расчет и использования дисперсии и стандартного отклонения.
Дисперсия генеральной совокупности.
Если нам известен каждый элемент генеральной совокупности, мы можем вычислить дисперсию генеральной совокупности или просто дисперсию (англ. ‘population variance’).
Она обозначается символом σ 2 [сигма] и представляет собой среднее арифметическое квадратов отклонений от среднего значения.
Формула дисперсии генеральной совокупности.
Зная среднее значение μ, мы можем использовать Формулу 11 для вычисления суммы квадратов отклонений от среднего с учетом всех N элементов в генеральной совокупности, а затем для определения среднего квадратов отклонений путем деления этой суммы на N.
Независимо от того, является ли отклонение от среднего положительным или отрицательным, возведение в квадрат этой разности дает положительное число.
Таким образом, дисперсия решает проблему отрицательных отклонений от среднего значения, устраняя их посредством операции возведения в квадрат этих отклонений.
Рассмотрим пример.
Прибыль в процентах от выручки для оптовых клубов BJ’s Wholesale Club, Costco и Walmart за 2012 год составляла 0.9%, 1.6% и 3.5% соответственно. Мы рассчитали среднюю прибыль в процентах от выручки как 2.0%.
Следовательно, дисперсия прибыли в процентах от выручки составляет:
Стандартное отклонение генеральной совокупности.
Поскольку дисперсия измеряется в квадратах, нам нужен способ вернуться к исходным единицам. Мы можем решить эту проблему, используя стандартное отклонение, т.е. квадратный корень из дисперсии.
Стандартное отклонение легче интерпретировать, чем дисперсию, поскольку стандартное отклонение выражается в той же единице измерения, что и наблюдения.
Формула стандартного отклонения генеральной совокупности.
Стандартное отклонение генеральной совокупности (или просто стандартное отклонение, а также среднеквадратическое отклонение, от англ. ‘population standard deviation’), определяемое как положительный квадратный корень из дисперсии генеральной совокупности, составляет:
Используя пример прибыли в процентах от выручки для оптовых клубов BJ’s Wholesale Club, Costco и Walmart за 2012 год, в соответствии с Формулой 12, мы вычислим дисперсию 1.21, а затем возьмем квадратный корень: \( \sqrt <1.21>\) = 1.10.
Как дисперсия, так и стандартное отклонение являются примерами параметров распределения. В последующих чтениях мы введем понятие дисперсии и стандартного отклонения как меры риска.
Занимаясь инвестициями, мы часто не знаем среднего значения интересующей совокупности, обычно потому, что мы не можем практически идентифицировать или провести измерения для каждого элемента генеральной совокупности.
Поэтому мы рассчитываем среднее значение по генеральной совокупности и среднее выборки, взятой из совокупности, и вычисляем выборочную дисперсию или стандартное отклонение выборки, используя формулы, немного отличающиеся от Формул 11 и 12.
Мы обсудим эти вычисления далее.
Однако в инвестициях у нас иногда есть определенная группа, которую мы можем считать генеральной совокупностью. Для четко определенных групп наблюдений мы используем Формулы 11 и 12, как в следующем примере.
Пример расчета стандартного отклонения для генеральной совокупности.
В Таблице 20 представлен годовой оборот портфеля из 12 фондов акций США, которые вошли в список Forbes Magazine Honor Roll 2013 года.
Журнал Forbes ежегодно выбирает американские взаимные фонды, отвечающие определенным критериям для своего почетного списка Honor Roll.
Оборачиваемость или оборот портфеля, показатель торговой активности, является меньшим значением из стоимости продаж или покупок за год, деленным на среднюю чистую стоимость активов за год. Количество и состав списка Forbes Honor Roll меняются из года в год.
Таблица 20. Оборот портфеля: взаимные фонды Forbes Honor Roll за 2013 год.
Годовой оборот портфеля (%)
CGM Focus Fund (CGMFX)
Hotchkis And Wiley Small Cap Value A Fund (HWSAX)
Aegis Value Fund (AVALX)
Delafield Fund (DEFIX)
Homestead Small Company Stock Fund (HSCSX)
Robeco Boston Partners Small Cap Value II Fund (BPSCX)
Hotchkis And Wiley Mid Cap Value A Fund (HWMAX)
T Rowe Price Small Cap Value Fund (PRSVX)
Guggenheim Mid Cap Value Fund Class A (SEVAX)
Wells Fargo Advantage Small Cap Value Fund (SSMVX)
Stratton Small-Cap Value Fund (STSCX)
Основываясь на данных из таблицы 20, сделайте следующее:
Установив, что μ = 53%, мы можем вычислить дисперсию
Числитель (сумма квадратов отклонений от среднего) равен:
Таким образом, σ 2 = 107,190/12 = 8,932.50.
Для расчета стандартного отклонения находим квадратный корень:
Единицей измерения дисперсии является процент в квадрате, поэтому единицей измерения стандартного отклонения также является процент.
Решение для части 3:
Если генеральная совокупность четко определена как фонды Forbes Honor Roll за один конкретный год (2013 г.), и если под оборотом портфеля понимается конкретный одногодичный период, о котором отчитывается Forbes, то применение формул генеральной совокупности для дисперсии и стандартного отклонения уместно.
Результаты 8,932.50 и 94.51 представляют собой, соответственно, перекрестную дисперсию и стандартное отклонение годового оборота портфеля для фондов Forbes Honor Roll за 2013 год.
Фактически, мы не могли должным образом использовать фонды Honor Roll для оценки дисперсии оборота портфеля (например) любой другой по-разному определенной генеральной совокупности, потому что фонды Honor Roll не являются случайной выборкой из какой-либо большей генеральной совокупности взаимных фондов США.
Выборочная дисперсия.
Статистика, которая измеряет дисперсию по выборке, называется выборочной дисперсией или дисперсией выборки (англ. ‘sample variance’).
В приведенном ниже обсуждении обратите внимание на использование латинских букв вместо греческих для обозначения объема выборки.
Формула выборочной дисперсии.
Формула 13 предписывает нам предпринять следующие шаги для вычисления выборочной дисперсии:
Мы проиллюстрируем расчет выборочной дисперсии и выборочного стандартного отклонения на примере ниже.
Отличие выборочной дисперсии от дисперсии генеральной совокупности.
Формула для выборочной дисперсии почти такая же, как и для дисперсии генеральной совокупности, за исключением использования среднего значения выборки \( \overline X \) вместо среднего значения генеральной совокупности μ и другого делителя.
Мы обсудим эту концепцию далее в чтении о выборке.
Стандартное отклонение выборки.
Для стандартного отклонения генеральной совокупности мы аналогичным образом можем вычислить стандартное отклонение выборки, взяв квадратный корень из положительной дисперсии выборки.
Формула стандартного отклонения выборки.
Стандартное отклонение выборки (выборочное стандартное отклонение, выборочное среднеквадратическое отклонение, англ. ‘sample standard deviation’), обозначается символом s и рассчитывается следующим образом:
Чтобы рассчитать стандартное отклонение выборки, мы сначала вычисляем дисперсию выборки, используя приведенные выше шаги. Затем мы берем квадратный корень из выборочной дисперсии.
Пример, приведенный ниже, иллюстрирует расчет выборочной дисперсии и стандартного отклонения выборки для двух взаимных фондов, представленных ранее.
Пример расчета выборочной дисперсии и стандартного отклонения выборки.
После расчета геометрических и арифметических средних доходностей двух взаимных фондов в Примере (1) мы вычислили две меры дисперсии для этих фондов, размах и среднее абсолютное отклонение доходности (см. Пример расчета размаха и среднего абсолютного отклонения для оценки риска).
Теперь мы вычислим выборочную дисперсию и стандартное отклонение выборки для доходности тех же двух фондов.
Таблица 15. Совокупная доходность двух взаимных фондов, 2008-2012 гг. (повтор).
5. Размах вариации. Среднее линейное отклонение. Генеральная и выборочная дисперсия
На предыдущем уроке по математической статистике мы изучили центральные показатели статистической совокупности, а именно моду, медиану, среднюю, и теперь переходим к показателям вариации. Они показывают, КАК варьируются статистические данные, а именно – насколько далеко «разбросаны» варианты относительно средних значений, да и просто друг от друга. В данной статье будут рассмотрены самые популярные показатели, и для опытных читателей сразу оглавление:
и, чтобы не «лепить» километровую простыню, разделю материал на две веб страницы:
Итак, прямо сейчас мы сформулируем определения этих показателей, узнаем соответствующие формулы и, конечно, потренируемся в конкретных вычислениях. Да не просто в конкретных, а в рациональных.
Но прежде систематизируем информацию о том, какие статистические данные могут оказаться в нашем распоряжении:
– они могут быть первичными (не обработанными), грубо говоря – это неупорядоченный список чисел, либо вторичными – это уже сформированный дискретный(Урок 2) или интервальный вариационный ряд(Урок 3).
– рассматриваемая статистическая совокупность может быть генеральной либо выборочной, и чаще, конечно, перед нами выборка.
…что-то не понятно по терминам? Срочно изучать основы предмета(Урок 1)! – это быстро и интересно, ну а я, сколько нужно, вас тут подожду 🙂
Размах вариации
Он уже встречался. Это разность между самым большим и самым малым значением статической совокупности:
при этом не имеет значения, генеральная ли нам дана совокупность или выборочная, сгруппированы ли данные или нет.
Очевидно, что все варианты исследуемой совокупности (той или иной) заключены в отрезке , а размах – есть не что иное, как его длина.
Такой вот простой, надёжный и понятный показатель. Но, несмотря на его элементарность, рассмотрим технику вычисления, и, конечно, это отличный повод размяться:
Способ первый, суровый – продолжаю вас готовить к борьбе с киборгами :)) Это когда под рукой нет вычислительной техники. Или когда она есть, но вы сами понимаете, как важно «прокачать» свои человеческие способности.
Если чисел не так много (наш случай), то максимальное и минимальное значения легко углядеть устно: и размах равен: единиц.
Если чисел больше (20-30 и даже больше), то надёжен следующий алгоритм:
1) Ищем минимальное значение. Сначала самым маленьким будет первое число: 15. Второе число (17) больше, и поэтому его пропускаем. Третье число (13) меньше, чем 15, и теперь 13 – самое малое число. И так далее, пока не закончится список.
2) Ищем максимальное значение. Сначала самым большим будет первое число: 15. Второе число (17) больше и теперь оно становится самым большим. И так далее – до конца списка.
Способ второй, более быстрый (обычно). Использование программного обеспечения, при этом числа можно просто отсортировать (по возрастанию либо убыванию) или использовать специальные функции:
Запишем ответед. и с нетерпением перейдём к другим показателям, которые характеризуют степень рассеяния вариант относительно центра совокупности, прежде всего, относительно средней.
О смысле и важности этих показателей я рассказал в курсе теории вероятностей (статья о дисперсии дискретной случайной величины), но коротко повторю и сейчас. Рассмотрим двух студентов, каждый из которых в среднем учится на 3,5 балла. Но есть один нюанс. Один стабильно получает тройки-четвёрки, а другой то пятёрки, то двойки. И поэтому важно знать меру рассеяния оценок относительно средней величины. Чем она меньше – тем стабильнее учится студент.
Эту меру можно оценить следующим образом: из каждой оценки (пусть их будет штук) вычитаем среднее значение . Величина называется отклонением(значения )от средней.
Теперь эти отклонения нужно просуммировать, но тут появляется проблема: среди разностей есть как положительные, так и отрицательные, и при их суммировании будет происходить взаимоуничтожение отклонений. Более того, итоговая сумма равна нулю: , и мы не получаем желаемого результата.
Вопрос можно решить с помощью модуля, который уничтожает минусы: , после чего осталось разделить сумму на объём совокупностии получить:
среднее линейное отклонение
– есть среднее арифметическое абсолютных отклонений всех значений статистической совокупности от средней. Это формула для несгруппированных статистических данных.
Если же в нашем распоряжении есть сформированный дискретный либо интервальный вариационный ряд, то формула будет такой:
, где – варианты (для дискретного ряда) либо середины частичных интервалов (для интервального ряда), а – соответствующие частоты.
Напоминаю, что маленькая буква обычно используется для выборочной совокупности, а большая – для генеральной: – объём ген. совокупности, – частоты.
И начнём мы с малого:
В результате 10 независимых измерений некоторой величины, выполненных с одинаковой точностью, полученные опытные данные, которые представлены в таблице
Требуется вычислить среднее линейное отклонение
Решение: очевидно, что перед нами первичные данные и выборочная совокупность (теоретически измерений можно провести бесконечно много). На первом шаге вычислим выборочную среднюю:
Теперь находим модули отклонений от средней: … и так далее до:
Вычисления удобно проводить на калькуляторе или в Экселе, а результаты заносить в таблицу:
На завершающем этапе рассчитываем сумму модулей: и среднее линейное отклонение: ед. – оно означает, что измеренные значения в среднем отличаются от примерно на 0,6 ед.
Но помимо этого, для оценки рассеяния вариант относительно средней существует более совершенный и распространённый подход. Он состоит в том, чтобы использовать не модули, а возведение отклонений в квадрат: (чтобы ликвидировать встречающиеся отрицательные значения).
Генеральная и выборочная дисперсия
Дисперсия с латыни так и переводится – рассеяние.
…не сломать бы язык 🙂 …так… Выборочная дисперсия – это среднее арифметическое квадратов отклонений всех вариант выборки от её средней: – для несгруппированных данных, и:
– для сформированного вариационного ряда, где – кратные (одинаковые по значению) варианты в дискретном случае либо середины частичных интервалов – в интервальном, и – соответствующие частоты.
Еще раз не спеша и ОСМЫСЛЕННО прочитайте определение и выполните
Сформулировать и записать (на бумагу!) определение генеральной дисперсии и соответствующие формулы.
Свериться можно, как обычно, в конце урока.
После чего следует
продолжение Примера 13
По тем же исходным данным вычислить выборочную дисперсию
Без проблем. Вместо модулей рассчитываем квадраты отклонений:
заполняем табличку: и порядок: квадратных (!) единиц – коль скоро, мы возводили в квадрат. И, чтобы вернуться в размерность задачи, из дисперсии следует извлечь корень. Но мы не будем торопить события, лучше посмотрим, как выполнять вычисления в Экселе:
Ответ:
Разобранная задача де-факто встречается в лабораторных работах по физике (да и не только) – когда некоторая величина замеряется раз 10 и затем рассчитывается среднее значение.
А теперь представьте, что вся ваша группа выполняет лабу по физике, и каждый провёл по 10 испытаний в схожих условиях. Очевидно, что у всех получились несколько разные выборочные значения , но все они без какой-либо закономерности (в общем случае) будут варьироваться вокруг истинного значения показателя (роль генеральной средней может играть некий теоретический эталон). Это свойство (отсутствие закономерности) называется несмещённостью оценки генеральной средней, и справедливо оно, как мы увидим ниже, не для всех показателей.
Теперь пару ласковых об отклонениях. В чём их смысл? Всё просто: у кого эти показатели ниже, тот качественнее проводит опыты (плавнее выполняет действия, точнее снимает показания с приборов, засекает время и т.п.). В идеале эти отклонения равны нулю, но это только в идеале – сам эмпиризм ситуации порождает генеральное линейное отклонение и генеральную дисперсию, которые обусловлены человеческим фактором, погрешностью приборов и так далее – вплоть до магнитных бурь.
В случае с полученными линейными отклонениями – всё то же самое, они будут безо всякой закономерности варьироваться вокруг генерального значения . Но вот с дисперсией всё не так. Полученные значения выборочной дисперсии будут давать систематически заниженную оценку генеральной дисперсии . И поэтому выборочную дисперсию следует «поправить» по формуле:
– желающие могут найти обоснование этого факта и этой формулы в специализированной литературе по математической статистике.
Показатель так и называется – исправленная выборочная дисперсия, и вот она уже является несмещённой оценкой генеральной дисперсии.
Таким образом, каждый студент должен поправить свою дисперсию, в частности, для Примера 13:
Следует отметить, что для большой выборки (от 100 и даже от 30 вариант) этой поправкой можно пренебречь, так как при дробь стремится к единице и .
И иногда дисперсию можно вовсе не поправлять. Так, в разобранном примере от нас требовалось просто вычислить выборочную дисперсию и всё. А если хочется что-то додумать, то пусть этого захочет преподаватель 🙂 Но вот если дисперсия будет «участвовать» в дальнейших действиях, то, конечно, приводим её к виду .
Более того, встречаются задачи, где вообще не понятно – выборочная ли дана совокупность или генеральная, и тогда разумно проявить аккуратность и использовать обозначения без подстрочных индексов, в частности, и .
Теперь случай, когда дан готовый вариационный ряд. У меня опять есть подходящая советская задача про телефонную станцию, но я скорректирую условие в соответствии с современными реалиями:
В результате выборочного исследования звонков, статистик МТС получил следующие данные (за некоторый временной промежуток): …у ОпСоСов, как известно, своя статистика – с округлением до ближайшей целой минуты :), впрочем, это тоже устареет…, как метко заметил современник, дети дружно играли во дворе – каждый в своём смартфоне(
Найти размах вариации, среднее линейное отклонение и выборочную дисперсию. Дать несмещённую оценку генеральной дисперсии и пояснить, что это означает.
Решить данную задачу в Экселе(данные и гайд уже там) либо на бумаге с помощью калькулятора.
Краткое решение и ответ совсем близко, поскольку 1-я часть урока подошла к концу, и я жду вас во 2-й части, где мы рассмотрим формулу для вычисления дисперсии, среднее квадратическое отклонение и коэффициент вариации.
Задание. Генеральная дисперсия – это среднее арифметическое квадратов отклонений всех вариант генеральной совокупности от её средней: , где – объём генеральной совокупности. Для сформированного вариационного ряда формула принимает вид: , где – либо варианты дискретного ряда, либо середины частичных интервалов интервального ряда, а – соответствующие частоты.
Пример 14. Решение: найдём размах вариации: мин.
Вычислим объём совокупности , произведения , их сумму и выборочную среднюю мин. Рассчитаем , произведения и их суммы: Среднее линейное отклонение: мин. Выборочная дисперсия: мин. в квадрате. Несмещённой оценкой генеральной дисперсии является исправленная выборочная дисперсия: мин. в квадрате. Несмещённость означает, что если в схожих условиях проводить аналогичные выборки, то полученные значения будут безо всякой закономерности варьироваться вокруг генерального значения .
Ответ:
Автор: Емелин Александр
(Переход на главную страницу)
Zaochnik.com – профессиональная помощь студентам
cкидкa 15% на первый зaкaз, прoмoкoд: 5530-hihi5
Tutoronline.ru – онлайн репетиторы по математике и другим предметам