что такое медиана распределения
Медиана
В статистических исследованиях довольно широко применяются средние величины. Их нахождение позволяет выявить типичное значение признака исследуемой совокупности. Например, типичный уровень доходов покупателей или возраст большинства клиентов компании. При этом вычисление, к примеру, среднего арифметического не всегда уместно.
Представим такую ситуацию: мы опросили 10 человек на предмет их уровня доходов. У 9-х доходы оказались примерно одинаковыми и составили 10 тыс. руб. Что касается 10-ого опрошенного, то оказалось, что его доход равняется 410 тыс. руб. в месяц. Если мы вычислим простое среднее арифметическое, то типичный доход будет равняться 50 тыс. руб.! Но это явно не так. В таких ситуациях более объективную и правдоподобную картину дает вычисление моды или медианы, которые относятся к структурным средним показателям.
Понятие медианы
Медиана (Me) — значение признака в исследуемом ряду величин, которое делит этот ряд на две равные части.
То есть половина (50%) всех значений в исследуемом ряду будет меньше медианы, а другая половина — больше ее. Поэтому медиану еще называют 50-й перцентиль или квантиль 0,5.
Формула для расчета медианы
Если значений немного, то медиану можно определить «на глазок». Для этого достаточно расположить все значения в порядке возрастания и найти середину.
Если число случаев четное и в центре ряда находятся два разных числа, то медианой будет среднее между ними (даже если такого значения нет в самом ряду исследуемых случаев). Например, в ряду 1 2 3 4 5 6, медианой будет 3,5.
Для нахождения медианы в более сложных случаях (по интервальным рядам) используется специальная формула:
Xme — нижняя граница медианного интервала (того интервала, накопленная частота которого превышает полусумму всех частот);
ime — величина медианного интервала;
f — частота (сколько раз в ряду встречается то или иное значение);
Sme-1 — сумма частот интервалов предшествующих медианному интервалу;
fme — число значений в медианном интервале (его частота).
Пример вычисления медианы
Был проведен опрос среди покупателей с целью выяснить их типичный возраст. По результатам опроса было установлено, что: 25 покупателей имеют возраст до 20 лет; 32 покупателя — 20-40 лет; 18 покупателей — 40-60 лет; 15 покупателей — свыше 60 лет. Найдем медиану.
Сначала находим медианный интервал. Для этого вычисляем сумму частот: 25 + 32 + 18 + 15 = 90. Половина этой суммы — 45. Это соответствует возрастной группе 20-40 лет (т. к. полученная полусумма частот — 45, и накопленная частота 1-й группы меньше ее, а 3-ей — больше). Тогда нижняя граница медианного интервала — 20 (лет), а величина медианного интервала — 20 (40 лет за вычетом 20). Сумма частот интервалов предшествующих медианному интервалу — 25. Число значений в медианном интервале — 32 (количество покупателей в возрасте 20-40 лет).
Расчетное значение медианы — 32,5. Округив его, получим средний возраст покупателя — 33 года.
Область применения медианы
При вычислении типичного признака неоднородных рядов, имеющих «выбросы» — значения во много раз отличающиеся от других значений ряда.
Особенности медианы
© Копирование любых материалов статьи допустимо только при указании прямой индексируемой ссылки на источник: Галяутдинов Р.Р.
Медиана
Материал из MachineLearning.
Медиана (50-й процентиль, квантиль 0,5) — возможное значение признака, которое делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана.
Медиана является важной характеристикой распределения случайной величины и так же, как математическое ожидание, может быть использовано для центрирования распределения. Однако, медиана более робастна и поэтому может быть более предпочтительным для распределений с т.н. тяжёлыми хвостами.
Медиана определяется для широкого класса распределений (например, для всех непрерывных), а в случае неопределённости, естественным образом доопределяется, в то время как математическое ожидание может быть не определено (например, у распределения Коши).
Медиана вероятностных распределений
Распределение | Медиана |
---|---|
Нормальное | |
Равномерное | |
Логнормальное | |
Стьюдента | |
Экспоненциальное | |
Вейбулла | |
Коши |
где интеграл понимается в смысле Лебега-Стилтьеса.
Для многих вероятностных распределений значение медианы выражается непосредственно через их параметры.
Пример использования
Неуникальность значения
В случае, когда имеется чётное количество случаев и два средних значения различаются, медианой, по определению, может служить любое число между ними (например, в выборке <1, 2, 3, 4>медианой, по определению, может служить любое число из интервала (2,3)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений.
Медиана в статистике
Центральную тенденцию данных можно рассматривать не только, как значение с нулевым суммарным отклонением (среднее арифметическое) или максимальную частоту (мода), но и как некоторую отметку (значение в совокупности), делящую ранжированные данные (отсортированные по возрастанию или убыванию) на две равные части. Половина исходных данных меньше этой отметки, а половина – больше. Это и есть медиана.
Итак, медиана в статистике – это уровень показателя, который делит набор данных на две равные половины. Значения в одной половине меньше, а в другой больше медианы. В качестве примера обратимся к набору нормально распределенных случайных чисел.
Очевидно, что при симметричном распределении середина, делящая совокупность пополам, будет находиться в самом центре – там же, где средняя арифметическая (и мода). Это, так сказать, идеальная ситуация, когда мода, медиана и средняя арифметическая совпадают и все их свойства приходятся на одну точку – максимальная частота, деление пополам, нулевая сумма отклонений – все в одном месте. Однако, жизнь не так симметрична, как нормальное распределение.
Допустим, мы имеем дело с техническими замерами отклонений от ожидаемой величины чего-нибудь (содержания элементов, расстояния, уровня, массы и т.д. и т.п.). Если все ОК, то отклонения, скорее всего, будут распределены по закону, близкому к нормальному, примерно, как на рисунке выше. Но если в процессе присутствует важный и неконтролируемый фактор, то могут появиться аномальные значения, которые в значительной мере повлияют на среднюю арифметическую, но при этом почти не затронут медиану.
Медиана выборки – это альтернатива средней арифметической, т.к. она устойчива к аномальным отклонениям (выбросам).
Математическим свойством медианы является то, что сумма абсолютных (по модулю) отклонений от медианного значения дает минимально возможное значение, если сравнивать с отклонениями от любой другой величины. Даже меньше, чем от средней арифметической, о как! Данный факт находит свое применение, например, при решении транспортных задач, когда нужно рассчитать место строительства объектов около дороги таким образом, чтобы суммарная длина рейсов до него из разных мест была минимальной (остановки, заправки, склады и т.д. и т.п.).
Формула медианы
Формула медианы в статистике для дискретных данных чем-то напоминает формулу моды. А именно тем, что формулы как таковой нет. Медианное значение выбирают из имеющихся данных и только, если это невозможно, проводят несложный расчет.
Первым делом данные ранжируют (сортируют по убыванию). Далее есть два варианта. Если количество значений нечетно, то медиана будет соответствовать центральному значению ряда, номер которого можно определить по формуле:
№Me – номер значения, соответствующего медиане,
N – количество значений в совокупности данных.
Тогда медиана обозначается, как
Это первый вариант, когда в данных есть одно центральное значение. Второй вариант наступает тогда, когда количество данных четно, то есть вместо одного есть два центральных значения. Выход прост: берется средняя арифметическая из двух центральных значений:
В интервальных данных выбрать конкретное значение не представляется возможным. Медиану рассчитывают по определенному правилу.
Для начала (после ранжирования данных) находят медианный интервал. Это такой интервал, через который проходит искомое медианное значение. Определяется с помощью накопленной доли ранжированных интервалов. Где накопленная доля впервые перевалила через 50% всех значений, там и медианный интервал.
Не знаю, кто придумал формулу медианы, но исходили явно из того предположения, что распределение данных внутри медианного интервала равномерное (т.е. 30% ширины интервала – это 30% значений, 80% ширины – 80% значений и т.д.). Отсюда, зная количество значений от начала медианного интервала до 50% всех значений совокупности (разница между половиной количества всех значений и накопленной частотой предмедианного интервала), можно найти, какую долю они занимают во всем медианном интервале. Вот эта доля аккурат переносится на ширину медианного интервала, указывая на конкретное значение, именуемое впоследствии медианой.
Обратимся к наглядной схеме.
Немного громоздко получилось, но теперь, надеюсь, все наглядно и понятно. Чтобы при расчете каждый раз не рисовать такой график, можно воспользоваться готовой формулой. Формула медианы имеет следующий вид:
где xMe — нижняя граница медианного интервала;
iMe — ширина медианного интервала;
∑f/2 — количество всех значений, деленное на 2 (два);
S(Me-1)— суммарное количество наблюдений, которое было накоплено до начала медианного интервала, т.е. накопленная частота предмедианного интервала;
fMe — число наблюдений в медианном интервале.
Как нетрудно заметить, формула медианы состоит из двух слагаемых: 1 – значение начала медианного интервала и 2 – та самая часть, которая пропорциональна недостающей накопленной доли до 50%.
Для примера рассчитаем медиану по следующим данным.
Требуется найти медианную цену, то есть ту цену, дешевле и дороже которой по половине количества товаров. Для начала произведем вспомогательные расчеты накопленной частоты, накопленной доли, общего количества товаров.
По последней колонке «Накопленная доля» определяем медианный интервал – 300-400 руб (накопленная доля впервые более 50%). Ширина интервала – 100 руб. Теперь остается подставить данные в приведенную выше формулу и рассчитать медиану.
То есть у одной половины товаров цена ниже, чем 350 руб., у другой половины – выше. Все просто. Средняя арифметическая, рассчитанная по этим же данным, равна 355 руб. Отличие не значительное, но оно есть.
Расчет медианы в Excel
Медиану для числовых данных легко найти, используя функцию Excel, которая так и называется — МЕДИАНА. Другое дело интервальные данные. Соответствующей функции в Excel нет. Поэтому нужно задействовать приведенную выше формулу. Что поделаешь? Но это не очень трагично, так как расчет медианы по интервальным данным – редкий случай. Можно и на калькуляторе разок посчитать.
Напоследок предлагаю задачку. Имеется набор данных. 15, 5, 20, 5, 10. Каково среднее значение? Четыре варианта:
Мода, медиана и среднее значение выборки – это разный способ определить центральную тенденцию в выборке.
Ниже видеоролик о том, как рассчитать медиану в Excel.
Медиана (статистика)
Из Википедии — свободной энциклопедии
Медиа́на (от лат. mediāna «середина») набора чисел — число, которое находится в середине этого набора, если его упорядочить по возрастанию, то есть такое число, что половина из элементов набора не меньше него, а другая половина не больше. Другое равносильное определение [1] : медиана набора чисел — это число, сумма расстояний (или, если более строго, модулей) от которого до всех чисел из набора минимальна. Это определение естественным образом обобщается на многомерные наборы данных и называется 1-медианой.
Например, медианой набора <11, 9, 3, 5, 5>является число 5, так как оно стоит в середине этого набора после его упорядочивания: <3, 5, 5, 9, 11>. Если в выборке чётное число элементов, медиана может быть не определена однозначно: тогда для числовых данных чаще всего используют полусумму двух соседних значений (то есть медиану набора <1, 3, 5, 7>принимают равной 4), подробнее см. ниже. В математической статистике медиана может использоваться как одна из характеристик выборки или совокупности чисел.
Также определяется медиана случайной величины: в этом случае оно определяется как число, которое делит пополам распределение. Грубо говоря, медианой случайной величины является такое число, что вероятность получить значение случайной величины справа от него равна вероятности получить значение слева от него (и они обе равны 1/2), — более точное определение дано ниже.
Можно также сказать, что медиана является 50-м персентилем, 0,5-квантилем или вторым квартилем выборки или распределения.
4. Мода. Медиана. Генеральная и выборочная средняя
Мода на экране, медиана в треугольнике, а средние – это температура по больнице и в палате. Продолжаем наш практический курс занимательной статистики (Занятие 1) изучением центральных характеристик статистической совокупности, названия которых вы видите в заголовке. И начнём мы с его конца, поскольку о средних величинах речь зашла практически с первых же абзацев темы. Для подготовленных читателей оглавление:
ну а «чайникам» лучше ознакомиться с материалом по порядку:
Итак, пусть исследуется некоторая генеральная совокупность объёма , а именно её числовая характеристика
, не важно, дискретная или непрерывная (Занятия 2, 3).
Генеральной средней называется среднее арифметическое всех значений этой совокупности:
Если среди чисел есть одинаковые (что характерно для дискретного ряда), то формулу можно записать в более компактном виде:
, где
варианта повторяется
раз;
варианта –
раз;
варианта –
раз;
…
варианта –
раз.
Живой пример вычисления генеральной средней встретился в Примере 2, но чтобы не занудничать, я даже не буду напоминать его содержание.
Далее. Как мы помним, обработка всей генеральной совокупности часто затруднена либо невозможна, и поэтому из неё организуют представительную выборку объема , и на основании исследования этой выборки делают вывод обо всей совокупности.
Выборочной средней называется среднее арифметическое всех значений выборки:
и при наличии одинаковых вариант формула запишется компактнее:
– как сумма произведений вариант
на соответствующие частоты
.
Выборочная средняя позволяет достаточно точно оценить истинное значение
, чего вполне достаточно для многих исследований. При этом, чем больше выборка, тем точнее будет эта оценка.
Практику начнём, а точнее продолжим, с дискретного вариационного ряда и знакомого условия:
По результатам выборочного исследования рабочих цеха были установлены их квалификационные разряды: 4, 5, 6, 4, 4, 2, 3, 5, 4, 4, 5, 2, 3, 3, 4, 5, 5, 2, 3, 6, 5, 4, 6, 4, 3.
Это числа из Примера 4 (см. по ссылке выше), но теперь нам требуется: вычислить выборочную среднюю, и, не отходя от станка, найти моду и медиану.
Как решать задачу? Если нам даны первичные данные (исходные необработанные значения), то их можно тупо просуммировать и разделить результат на объём выборки:
– среднестатистический квалификационный разряд рабочих цеха.
Но во многих задачах требуется составить вариационный ряд (см. Пример 4):
– или же этот ряд предложен изначально (что бывает чаще). И тогда, мы, конечно, используем «цивилизованную» формулу:
Далее. Мода и медиана. Эти понятия тоже вводятся как для генеральной, так и для выборочной совокупности, и определения я сформулирую в общем виде.
Мода. Мода дискретного вариационного ряда – это варианта с максимальной частотой. В данном случае
. Моду легко отыскать по таблице, и ещё легче на полигоне частот – это абсцисса самой высокой точки:
Иногда таковых значений несколько (с одинаковой максимальной частотой), и тогда модой считают каждое из них.
Если все или почти все варианты различны (что характерно для интервального ряда), то модальное значение определяется несколько другим способом, о котором во 2-й части урока.
Медиана. Медиана вариационного ряда* – это значение, которая делит его на две равные части (по количеству вариант).
* не важно, дискретного или интервального, генеральной совокупности или выборочной.
Медиану можно отыскать несколькими способами.
Если даны первичные данные, то сортируем их по возрастанию либо убыванию (см. Задание 1) и находим середину ранжированного ряда: . Почему именно 13-е число? Потому что перед ним находится 12 чисел и после него тоже 12 чисел, таким образом, значение
разделило ряд на две равные части, а значит, является медианой. Этот номер можно найти аналитически:
– если совокупность содержит нечётное количество чисел (наш случай), то делим её объём пополам: и округляем полученное значение в бОльшую сторону: 13 – получая тем самым срединный номер.
– если совокупность содержит чётное количество чисел, например, 20, то делаем то же самое: , и медианное значение здесь рассчитывается как среднее арифметическое 10-го и следующего числа:
.
Напоминаю, что изложенная инструкция работает для упорядоченного (по возрастанию либо убыванию) ряда. Но есть и более быстрый путь, где ничего не нужно сортировать. Это использование стандартной функции Экселя:
– забиваем в любую свободную ячейку =МЕДИАНА(, выделяем мышью все числа, закрываем скобку ) и жмём Enter. Попробуйте самостоятельно. Этот способ удобен, когда вам дано много значений.
Следует отметить, что в Экселе существуют и отдельные функции для вычисления средней (=СРЗНАЧ), моды (=МОДА) и ещё много чего, но я против использования этих функций в учебном курсе, за исключением случаев, где это действительно целесообразно. …Почему против? Потому что они не помогают понять суть показателей и, более того, отупляют. Так, среднюю гораздо вразумительнее рассчитывать следующим образом:
=СУММ(выделяем мышью диапазон) / объем совокупности. Вычисления рекомендую опробовать лично (ссылка выше).
Ситуация вторая. Когда составлен либо изначально дан готовый дискретный ряд. Тут можно поступить «по любительски» – начать отсчитывать примерно равное количество чисел по краям ряда:
после чего мысленно либо на черновике их отбрасывать, в данном случае отброс им по 8 штук сверху и снизу:
откуда становится ясно, что медианное значение:
Второй способ более академичен, находим относительные накопленные частоты:
и то значение «икса», у которого «переваливает» за отметку 0,5 (50% упорядоченной совокупности). Для 3-го разряда успело накопиться
(32% совокупности), а вот для 4-го – уже
(64%). Таким образом, отметка в 50% пройдена именно здесь, и, стало быть,
.
Запишем красивый ответ:
Полученные значения близки друг к другу, и это говорит о симметрии вариационного ряда относительно центра, что хорошо видно по полигону частот (см. чертёж выше). И с высокой вероятностью можно утверждать, что примерно так же распределена и вся генеральная совокупность (все рабочие цеха).
И тут возникает следующий закономерный вопрос: а зачем вообще нужна мода с медианой? – ведь есть средняя.
А дело в том, что в ряде случаев среднее значение неудовлетворительно характеризует центральную тенденцию статистической совокупности:
Известны результаты продаж пиджаков в универмаге города:
где, – количество пуговиц на пиджаке,
– число продаж, буква «эф» – это тоже достаточно популярная буква для обозначения частот, и она не должна вас смущать при встрече.
…ну, а если вам не нравятся пиджаки, то представьте какие-нибудь шляпки с цветочками 🙂
Также обратим внимание, что в условии задачи ничего не сказано о том, генеральная ли это совокупность или выборочная, и в подобной ситуации я не рекомендую ничего додумывать – среднюю просто обозначаем через , без подстрочного индекса.
Вычислить среднюю – в экселевском файле уже забиты исходные данные и приведена краткая инструкция. Если под пальцами нет Экселя, то считаем на калькуляторе. Не ленимся! – заданий я предлагаю немного (у вас своих хватает :)), но прорешать их очень важно! Краткое решение для сверки в конце урока.
…какие мысли на счёт полученного значения ? С такой статистикой магазин разорится.
И, конечно, важнейший показатель здесь мода: . Потому что такая мода 🙂 Более того, в прикладных исследованиях рассматривают несколько модальных значений (вроде даже в Экселе функция есть), в частности, ещё одной модой можно считать варианту
. Но это уже попсовая статистика, которую я не буду развивать в этом курсе.
Ещё хуже (в содержательном плане) ситуация с медианой – продолжаем решать задачу в Экселе (ссылка выше) либо в тетради! Особо зоркие читатели медиану углядят и устно, и в конце урока я привёл способ, который просто бросился мне в глаза.
Теперь надеваем пиджаки / шляпы и возвращаемся на фабрику, где бухгалтер Петрова вычислила генеральную среднюю заработную плату рабочих: денежных единиц. Здесь мы плавно перешли к интервальному ряду, который целесообразно составлять для «денежных» показателей.
Что будет, если к совокупности добавить руководящий персонал и директора Петрова? Средняя зарплата немного увеличится: , и это уже будет несколько искажённая картина.
А вот если сюда добавить олигарха Петровского, то полученная средняя не только дезинформирует, но и вызовет широкое возмущение общественности.
Поэтому, если в статистической совокупности есть «аномальные» отклонения в ту или иную сторону, то в качестве оценки центрального значения как нельзя лучше подходит медиана, которая в нашем условном примере будет равна, скажем, . Ниже этой планки зарабатывает ровно половина совокупности и выше – другая половина, включая Петрова и Петровского. …Главное только, чтобы они наняли правильного статистика 🙂
Как вычислить моду, медиану и среднюю интервального ряда?
Начнём опять с ситуации, когда нам даны первичные статические данные:
По результатам выборочного исследования цен на ботинки в магазинах города получены следующие данные (ден. ед.):
– это в точности числа из Примера 6 статьи об интервальном вариационном ряде.
Но теперь нам нужно найти среднюю, моду и медиану.
Решение: чтобы найти среднюю по первичным данным, лучше всего просуммировать все варианты и разделить полученный результат на объём совокупности:
ден. ед.
Эти подсчёты, кстати, займут не так много времени и при использовании оффлайн калькулятора. Но если есть Эксель, то, конечно, забиваем в любую свободную ячейку =СУММ(, выделяем мышкой все числа, закрываем скобку ), ставим знак деления /, вводим число 30 и жмём Enter. Готово.
Что касается моды, то её оценка по исходным данным, становится непригодна. Хоть мы и видим среди чисел одинаковые, но среди них запросто может найтись пять так шесть-семь вариант с одинаковой максимальной частотой, например, частотой 2. Кроме того, цены могут быть округлёнными. Поэтому модальное значение рассчитывается по сформированному интервальному ряду (о чём чуть позже).
Чего не скажешь о медиане: забиваем в Эксель =МЕДИАНА(, выделяем мышью все числа, закрываем скобку ) и жмём Enter: . Причём, здесь даже ничего не нужно сортировать.
Но в Примере 6 была проведена сортировка по возрастанию (вспоминаем и сортируем – ссылка выше), и это хорошая возможность повторить формальный алгоритм отыскания медианы. Делим объём выборки пополам:
, и поскольку она состоит из чётного количества вариант, то медиана равна среднему арифметическому 15-й и 16-й варианты упорядоченного (!) вариационного ряда:
ден. ед.
Ситуация вторая. Когда дан готовый интервальный ряд (типичная учебная задача).
Продолжаем анализировать тот же пример с ботинками, где по исходным данным был составлен ИВР. Для вычисления средней потребуются середины интервалов:
– чтобы воспользоваться знакомой формулой дискретного случая:
– отличный результат! Расхождение с более точным значением (
), вычисленным по первичным данным, составляет всего 0,04.
По сути дела, здесь мы приблизили интервальный ряд дискретным, и это приближение оказалось весьма эффективным. Впрочем, особой выгоды тут нет, т.к. при современном программном обеспечении не составляет труда вычислить точное значение даже по очень большому массиву первичных данных. Но это при условии, что они нам известны 🙂
С другими центральными показателями всё занятнее.
Чтобы найти моду, нужно найти модальный интервал (с максимальной частотой) – в данной задаче это интервал с частотой 11, и воспользоваться следующей страшненькой формулой:
, где:
– нижняя граница модального интервала;
– длина модального интервала;
– частота модального интервала;
– частота предыдущего интервала;
– частота следующего интервала.
Таким образом:
ден. ед. – как видите, «модная» цена на ботинки заметно отличается от средней арифметической
.
Не вдаваясь в геометрию формулы, просто приведу гистограмму относительных частот и отмечу :
откуда хорошо видно, что мода смещена относительно центра модального интервала в сторону левого интервала с бОльшей частотой. Логично.
Справочно разберу редкие случаи:
– если модальный интервал крайний, то либо
;
– если обнаружатся 2 модальных интервала, которые находятся рядом, например, и
, то рассматриваем модальный интервал
, при этом близлежащие интервалы (слева и справа) по возможности тоже укрупняем в 2 раза.
– если между модальными интервалами есть расстояние, то применяем формулу к каждому интервалу, получая тем самым 2 или бОльшее количество мод.
Вот такой вот депеш мод 🙂
И медиана. Если дан готовый интервальный ряд, то медиана рассчитывается чуть по менее страшной формуле, но сначала нудно (описка по Фрейду:)) найти медианный интервал – это интервал, содержащий варианту (либо 2 варианты), которая делит вариационный ряд на две равные части.
Выше я рассказал, как определить медиану, ориентируясь на относительные накопленные частоты , здесь же сподручнее рассчитать «обычные» накопленные частоты
. Вычислительный алгоритм точно такой же – первое значение сносим слева (красная стрелка), и каждое следующее получается как сумма предыдущего с текущей частотой из левого столбца (зелёные обозначения в качестве примера):
Всем понятен смысл чисел в правом столбце? – это количество вариант, которые успели «накопиться» на всех «пройденных» интервалах, включая текущий.
Поскольку у нас чётное количество вариант (30 штук), то медианным будет тот интервал, который содержит 30/2 = 15-ю и 16-ю варианту. И ориентируясь по накопленным частотам, легко прийти к выводу, что эти варианты содержатся в интервале .
Формула медианы: , где:
– объём статистической совокупности;
– нижняя граница медианного интервала;
– длина медианного интервала;
– частота медианного интервала;
– накопленная частота предыдущего интервала.
Таким образом:
ден. ед. – заметим, что медианное значение, наоборот, оказалось смещено правее, т.к. по правую руку находится значительное количество вариант:
И справочно особые случаи:
– Если медианным является крайний левый интервал, то ;
– Если вариационный ряд содержит чётное количество вариант и две средние варианты попали в разные интервалы, то объединяем эти интервалы, и по возможности удваиваем предыдущий интервал
Ответ: ден. ед.
Здесь центральные показатели оказались заметно отличны друг от друга, и это говорит об асимметрии распределения, которая хорошо видна по гистограмме.
И задача для тренировки:
Для изучения затрат времени на изготовление одной детали рабочими завода проведена выборка, в результате которой получено следующее статистическое распределение:
…да, тематичная у меня получилась статья 🙂
Найти среднюю, моду и медиану.
Это, кстати, уже каноничная «интервальная» задача, в которой исследуется непрерывная величина – время.
Решаем эту задачу в Экселе – все числа и инструкции уже там. Если нет Экселя, считаем на калькуляторе, что в данном случае может оказаться даже удобнее. Образец решения, как обычно, в конце урока.
Несмотря на разнообразия рассмотренных показателей, их всё равно бывает не достаточно. Существуют крайне неоднородные совокупности, у которых варианты «кучкуются» во многих местах, и по этой причине средняя, мода и медиана неудовлетворительно характеризуют центральную тенденцию.
В таких случаях вариационный ряд дробят с помощью квартилей, децилей, а в упоротых специализированных исследованиях – и с помощью перцентилей.
Квартили упорядоченного вариационного ряда – это варианты , которые делят его на 4 равные (по количеству вариант) части. Откуда автоматически следует, что 2-я квартиль – есть в точности медиана:
.
В тяжёлых случаях проводится разбиение на 10 частей – децилями – это варианты, который делят упорядоченный вариационный ряд на 10 равных (по количеству вариант) частей.
И в очень тяжелых случаях в ход пускается 99 перцентилей .
И после разбиения вариационного ряда каждый участок исследуется по отдельности – рассчитываются локальные средние показатели, локальные показатели вариации и т.д.
В учебном курсе квартили, децили, перцентили встречаются редко, и посему я оставляю этот материал (их нахождение) для самостоятельного изучения.
Ну а сейчас мы перейдём к рассмотрению другой группы статистических показателей – как раз к показателям вариации.
Пример 9. Решение: заполним расчётную таблицу:
Вычислим среднюю:
– две с половиной пуговицы, Карл!
По правому столбцу определяем «иксовое» значение, которое делит совокупность на 2 равные части: (именно здесь накопленная частота «перевалила» за 0,5).
Кроме того, медиану легко усмотреть и устно – поскольку половина совокупности равна , а сумма первых двух частот
, то совершенно понятно, что 250-й и 251-й пиджак – двухпуговичные.
Пример 11. Решение: поскольку длина внутренних интервалов равна , то длины крайних интервалов полагаем такими же (см. конец статьи Интервальный вариационный ряд). Заполним расчётную таблицу:
Вычислим выборочную среднюю:
мин.
Моду вычислим по формуле , в данном случае:
– нижняя граница модального интервала;
– длина модального интервала;
– частота модального интервала;
– частота предшествующего интервала;
– частота следующего интервала.
Таким образом:
мин.
Анализируя накопленные частоты, приходим к выводу, что медианным является интервал (именно он содержит 50-ю и 51-ю варианты, которые делят ряд пополам).
Медиану вычислим по формуле , в данном случае:
– нижняя граница медианного интервала;
– длина этого интервала;
– объём статистической совокупности;
– частота медианного интервала;
– накопленная частота предыдущего интервала.
Таким образом:
мин.
Ответ: среднее время изготовления детали характеризуется следующими центральными характеристиками:
Автор: Емелин Александр
(Переход на главную страницу)
Zaochnik.com – профессиональная помощь студентам
cкидкa 15% на первый зaкaз, прoмoкoд: 5530-hihi5
Tutoronline.ru – онлайн репетиторы по математике и другим предметам