что такое квартиль в статистике
Квартиль
Опубликовано 16.06.2021 · Обновлено 17.06.2021
Что такое Квартиль?
Квартиль – это статистический термин, который описывает разделение наблюдений на четыре определенных интервала на основе значений данных и их сравнения со всем набором наблюдений.
Общие сведения о квартилях
Медиана является надежным средством оценки местоположения, но ничего не говорит о том, как данные по обе стороны от ее значения распространяются или рассредоточены. Вот где вступает в игру квартиль. Квартиль измеряет разброс значений выше и ниже среднего путем деления распределения на четыре группы.
Ключевые моменты
Как работают квартили
Точно так же, как медиана делит данные пополам, так что 50% измерения лежит ниже медианы, а 50% – выше нее, квартиль разбивает данные на кварталы, так что 25% измерений меньше нижнего квартиля, 50 % меньше среднего, а 75% меньше верхнего квартиля.
Квартиль делит данные на три точки – нижний квартиль, медиана и верхний квартиль – для формирования четырех групп набора данных. Нижний квартиль или первый квартиль обозначается как Q1 и является средним числом, которое находится между наименьшим значением набора данных и медианой. Второй квартиль, Q2, также является медианным. Верхний или третий квартиль, обозначаемый Q3, является центральной точкой, которая находится между медианой и наивысшим номером распределения.
Теперь мы можем выделить четыре группы, сформированные из квартилей. Первая группа значений содержит наименьшее число до Q1; во вторую группу входит Q1 до медианы; третий набор – это медиана Q3; четвертая категория включает Q3 в самую высокую точку данных всего набора.
Каждый квартиль содержит 25% от общего числа наблюдений. Как правило, данные располагаются от наименьшего к наибольшему:
Пример квартиля
Предположим, что баллы по математике в классе из 19 учеников в порядке возрастания распределены следующим образом:
59, 60, 65, 65, 68, 69, 70, 72, 75, 75, 76, 77, 81, 82, 84, 87, 90, 95, 98
Сначала отметьте медианное значение Q2, которое в данном случае является 10- м значением: 75.
Q1 – это центральная точка между наименьшей оценкой и медианой. В этом случае Q1 попадает между первым и пятым баллом: 68. [Обратите внимание, что медиана также может быть включена при вычислении Q1 или Q3 для нечетного набора значений. Если бы мы включили медианное значение по обе стороны от средней точки, то Q1 будет средним значением между первым и 10- м баллами, что является средним значением пятого и шестого баллов – (пятый + шестой) / 2 = ( 68 + 69) / 2 = 68,5].
Q3 – это среднее значение между Q2 и наивысшим баллом: 84. [Или, если вы включаете медиану, Q3 = (82 + 84) / 2 = 83].
Теперь, когда у нас есть квартили, давайте интерпретируем их числа. Оценка 68 (Q1) представляет первый квартиль и 25- й процентиль. 68 – это медиана нижней половины оценки, установленной в имеющихся данных, то есть медиана оценок от 59 до 75.
Q1 говорит нам, что 25% оценок ниже 68 и 75% оценок класса выше. Q2 (медиана) – это 50- й процентиль и показывает, что 50% оценок меньше 75, а 50% оценок выше 75. Наконец, Q3, 75- й процентиль, показывает, что 25% оценок являются больше и 75% меньше 84.
Особые соображения
Если точка данных для Q1 дальше от медианы, чем Q3 от медианы, то мы можем сказать, что существует больший разброс среди меньших значений набора данных, чем среди больших значений. Та же самая логика применяется, если Q3 дальше от Q2, чем Q1 от медианы.
В качестве альтернативы, если имеется четное количество точек данных, медиана будет средним из двух средних чисел. В нашем примере выше, если бы у нас было 20 студентов вместо 19, медиана их оценок будет средним арифметическим 10- го и 11- го числа.
Квартили используются для расчета межквартильного размаха, который является мерой изменчивости вокруг медианы. Межквартильный размах просто рассчитывается как разница между первым и третьим квартилями: Q3 – Q1. Фактически, это диапазон средней половины данных, который показывает, насколько разбросаны данные.
Для больших наборов данных в Microsoft Excel есть функция КВАРТИЛЬ для вычисления квартилей.
Расчет медианы и квартилей для дискретного ряда запросом
Что такое медиана и квартили?
Медиана — числовое значение признака, которое делит упорядоченную по возрастанию совокупность на две равных части.
Квартили — числовые значения признака, которые делят упорядоченную по возрастанию совокупность на четыре равных части.
Раз квартили делят совокупность на четыре части, то квартилей бывает три варианта: первый (нижний), второй(средний), третий (верхний). Второй квартиль это и есть медиана.
Пример
Имеем числовой ряд [1,3,5,7,9,11,13]:
Все становится немного сложнее, когда элементов, например, нечетное количество — выбрать конкретный элемент уже не получится.
Зачем все это нужно?
Медиана
Такой показатель как «среднее» знаком всем и ни у кого не возникает вопросов о его необходимости. Проблема со средним в том, что оно хорошо описывает данные, если они распределены нормально. Иначе, как правило, разумнее использовать медиану.
Самый простой пример: средняя зарплата в России. Показатель в некотором смысле отражает «среднюю температуру по больнице», так как на него оказывают сильное влияние выбросы — условно, слишком большие зарплаты олигархов. В то же время, медиана показывает такой размер зарплаты, который делит население пополам — половина получает меньше этой суммы, половина больше. В итоге, медиана почти в 1.5 раза меньше средних показателей зарплаты.
Более близкий пример к 1С: средний чек. Если хочется оценить динамику этого показателя, то лучше использовать медиану. Причина: на среднее сильно влияют выбросы — очень маленькие покупки или наоборот очень большие.
Квартили
Например, есть задача оценки адекватности закупочной цены на товар на текущий момент.
Один из вариантов — посмотреть по каким ценам продавался этот товар ранее и исходя из наценки рассчитать целевую закупочную цену. Но смотреть на среднее, как было сказано выше, плохая затея. Можно, например, попытаться определить такую цену, что 75% товара продавалось по ней или выше — это и будет 1-й квартиль. Все это, правда, будет работать, если у нас достаточно наблюдений — например, товар продавался хотя бы раз 30, чтобы было на основе чего все рассчитывать.
Безусловно, все это не может быть единственным критерием для определения разумной закупочной цены и нужно использоваться что-то еще.
Формулы
В общем случае можно посчитать порядковый номер медианы и квартилей:
В общем случае, все эти порядковые номера могут быть нецелыми (например, если количество элементов нечетно).
Если номер квартиля – нецелое число, то значением квартиля будет сумма, состоящая из значения элемента, для которого порядковый номер равен целому значению номера квартиля, и указанной части (нецелая часть номера квартиля) разности между значением этого элемента и значением следующего элемента.
Так же в общем случае, не всегда есть порядковый номер: один и тот же признак может встречаться в выборке несколько раз и пронумеровать их можно будет только условно. Например, в статье //infostart.ru/public/539316/ рассматривается как раз такой вариант решения.
В общем случае, можно использовать понятие накопленной частоты для каждого уникального элемента ряда. Подробнее про теорию можно почитать, например, тут: https://studfile.net/preview/5316597/page:3/#9. Там же есть хорошие примеры расчета.
Запрос
Постарался прокомментрировать все действия в самом запросе
Квантили
Рассмотрен расчет медианы и квартилей, но запрос легко доработать для расчета любых других квантилей, в частности децилей и перцентилей.
Обсудив меры центральной тенденции, рассмотрим подход к описанию положения статистических данных, который включает в себя определение пороговых значений, в пределах которых лежат указанные пропорции данных.
Мы знаем, что медиана делит распределение пополам. Мы можем определить другие разделительные линии, которые разбивают распределение на меньшие части.
Например, первый квартиль (Q1) делит распределение так, что 25 процентов наблюдений лежат не выше него; следовательно, 1-й квартиль также является 25-м процентилем.
Второй квартиль (Q2) представляет 50-й процентиль, а третий квартиль (Q3) представляет 75-й процентиль, потому что 75 процентов наблюдений лежат не выше него.
Имея дело с фактическими данными, мы часто обнаруживаем, что нам нужно найти приблизительное значение процентиля. Например, если нас интересует значение 75-го процентиля, мы можем обнаружить, что ни одно наблюдение не разделяет выборку так, что ровно 75 процентов наблюдений лежат не выше этого значения.
Следующая процедура, однако, может помочь нам определить или оценить процентиль. Процедура включает в себя сначала определение положения процентиля в наборе наблюдений, а затем определение (или оценку) значения, связанного с этой позицией.
Формула для позиции процентиля в массиве из n записей, отсортированных по возрастанию:
Ly = (n + 1) y / 100 (формула 8)
В качестве примера случая, когда Ly не является целым числом, предположим, что мы хотим определить 3-ий квартиль доходности за 2012 год (Q3 или P75) для 16 европейских фондовых рынков, представленных в Таблице 8.
В соответствии с Формулой 8 позиция третьего квартиля имеет вид L75 = (16 + 1) (75/100) = 12.75 или между 12-м и 13-м позициями в Таблице 9, в которой доходность представлена в порядке возрастания.
Определив «0.75» как «12.75», мы пришли бы к выводу, что P75 находится на 75% расстояния между 15.90% и 20.72%.
Подведем итоги:
1) Когда позиция Ly представляет собой целое число, она соответствует фактическому наблюдению. Например, если бы Дания не была включена в выборку, то n + 1 было бы равно 16, а при L75 = 12 третий квартиль был бы P75 = X12, где Xi определяется как значение наблюдения в i-й (i = L75) позиции данных, отсортированных в порядке возрастания (т. е. P75 = 15.90).
2) Когда Ly не является целым числом, Ly лежит между двумя ближайшими целыми числами (одно сверху и одно снизу), и мы используем линейную интерполяцию между этими двумя положениями для определения Py. Интерполяция означает оценку неизвестного значения на основе двух известных значений, которые его окружают (лежат над и под ним); термин «линейный» относится к линейной оценке.
Возвращаясь к расчету P75 для доходности капитала, мы обнаружили, что Ly = 12.75; следующее более низкое целое число равно 12, а следующее более высокое целое число равно 13.
Используя линейную интерполяцию, находим:
Как указано выше, на 12-й позиции находится доходность акций Франции, поэтому X12 = 15.90%; X13 = 20.72%, что соответствует доходности акций Австрии.
Таким образом, наша оценка методом линейной интерполяции составит:
Мы следуем этой схеме всякий раз, когда Ly не является целым числом: ближайшие целые числа ниже и выше Ly устанавливают позиции наблюдений, которые ограничивают Py, а затем используются для интерполяции.
Пример, приведенный ниже иллюстрирует расчет различных квантилей для дивидендной доходности компонентов основного европейского индекса акций.
Пример расчета процентилей, квартилей и квинтилей.
Рыночная капитализация ранжируется в порядке возрастания.