что такое нормальное распределение простыми словами

Нормальное распределение (Normal Distribution)

Нормальное распределение (распределением Гаусса или Гаусса — Лапласа) – распространенная разновидность непрерывного распределения вероятностей для случайной величины.

Помните колоколообразную кривую? Вот эту:

что такое нормальное распределение простыми словами. Смотреть фото что такое нормальное распределение простыми словами. Смотреть картинку что такое нормальное распределение простыми словами. Картинка про что такое нормальное распределение простыми словами. Фото что такое нормальное распределение простыми словами

Долгое время она служила главным критерием профессиональной оценки сотрудников американских учреждений, и равнодушных не оставляла, ведь от нее зависело, как себя позиционирует человек и его начальство.

Нормальное распределение – это ключевая концепция Статистики (Statistics) и основа Науки о данных (Data Science). При выполнении Разведочного анализа данных (EDA) мы сначала стремимся найти их распределение вероятностей, и наиболее распространенный ее вид – нормальное распределение.

Посмотрите на распределение вероятностей окупить инвестиции в фондовый индекс S&P 500:

что такое нормальное распределение простыми словами. Смотреть фото что такое нормальное распределение простыми словами. Смотреть картинку что такое нормальное распределение простыми словами. Картинка про что такое нормальное распределение простыми словами. Фото что такое нормальное распределение простыми словами

Да-да, вероятность «выйти в ноль» выше остальных! Также справедливо утверждение, что вероятность потерять больше как бы тает вместе с отрицательным процентом возврата. Белой непрерывной линией обозначено предсказание кривой нормального распределения. Прочие наблюдения, такие как вес при рождении и показатель IQ, часто следуют нормальному распределению подобным образом.

Еще одна причина, по которой нормальное распределение становится важным для Дата-сайентистов (Data Scientist) – это Центральная предельная теорема (Central Limit Theorem). Эта теорема объясняет магию математики и является основой методов проверки гипотез.

В этой статье мы поймем важность и различные свойства нормального распределения, а изучим, как использовать эти свойства для проверки нормальности наших данных.

Свойства нормального распределения

Кривая стандартного нормального распределения симметрична относительно Среднего арифметического (Mean), Медианы (Median) и Моды (Mode). Более того, также являются нормальным распределением произведение двух нормальных распределений и их сумма. Магия, не правда ли? Существуют и другие, более сложные закономерности, пока обойдемся самыми понятными.

Эмпирическое правило

Вы слышали об эмпирическом правиле? Оно часто используется в статистике и гласит: «68,27% наблюдений случайной Выборки (Sample) лежат в пределах одного Стандартного отклонения (Standard Deviation), 95,45% – в пределах двух, а 99,73 – в пределах трех стандартных отклонений от среднего»:

что такое нормальное распределение простыми словами. Смотреть фото что такое нормальное распределение простыми словами. Смотреть картинку что такое нормальное распределение простыми словами. Картинка про что такое нормальное распределение простыми словами. Фото что такое нормальное распределение простыми словами

Это правило позволяет нам идентифицировать Выбросы (Outlier) и очень полезно при Проверке на нормальность (Normality Test).

Стандартное нормальное распределение

Стандартное нормальное распределение – это частный случай нормального распределения, когда среднее значение равно нулю и стандартное отклонение равно единице. Любое нормальное распределение мы можем преобразовать его в стандартное, используя формулу:

Пример. Есть два интерна: Левин и Ричардс. Левин набрал 65 баллов на экзамене по терапии, а Ричардс – 80 баллов на экзамене по кожной венерологии. Верно ли, что Ричардс учился лучше, чем Левин?

Нет, потому что манера поведения людей в терапии отличается от того, как люди проявляют себя в кожной венерологии. Таким образом, прямое сравнение простым сравнением оценок некорректно.

Теперь предположим, что отметки теста по терапии подчиняются нормальному распределению со средним значением 60 и стандартным отклонением 4. С другой стороны, отметки о кожвенерологии подчиняются нормальному распределению со средним значением 79 и стандартным отклонением 2.

Нам нужно будет вычислить Стандартизированную оценку (Z-score) путем стандартизации обоих этих распределений:

Таким образом, Левин набрал 1,25 стандартного отклонения выше среднего, в то время как Ричардс – только 0,5. Следовательно, Левин показал себя лучше:

что такое нормальное распределение простыми словами. Смотреть фото что такое нормальное распределение простыми словами. Смотреть картинку что такое нормальное распределение простыми словами. Картинка про что такое нормальное распределение простыми словами. Фото что такое нормальное распределение простыми словами

Асимметричное распределение

Нормальное распределение – это симметрично, что означает, что его «хвосты» слева и справа – зеркальные отображения друг друга. Но это не относится к большинству реальных наборов данных. Как правило, мы будем иметь дело со скошенными асимметричными распределениями.

Визуальная оценка нормальности

Для таких целей принято использовать три вида графиков:

Для оценки нормальности распределения также используют Скошенность (Skewness) и Эксцесс (Kurtosis).

Нормальное распределение и Python

Посмотрим, как выглядит код, визуализирующий распределение и заодно рассчитывающий основные метрики Датасета (Dataset). Для начала импортируем необходимые библиотеки:

Определим функцию, которая пройдется по всем столбцам датасета, рассчитает основные статистические метрики (среднее, минимум, максимум и т.д.):

Построим тройной график:

что такое нормальное распределение простыми словами. Смотреть фото что такое нормальное распределение простыми словами. Смотреть картинку что такое нормальное распределение простыми словами. Картинка про что такое нормальное распределение простыми словами. Фото что такое нормальное распределение простыми словами

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *