что такое выборка в математической статистике
Математическая статистика. Начало
Есть правда, есть большая правда, а есть статистика на mathprofi.ru!
На протяжении многих лет я всё думал, когда же доберусь до этой темы, и вот, наконец-то свершилось! …как и во многих делах, самое трудное – первый шаг, но я таки открыл вёрдовский файл (решался и обдумывал 2 недели) и с радостью и даже какой-то торжественностью написал первый абзац.
И сразу второй. Что нужно для изучения математической статистики? Ничего особенного. Нужно уметь складывать, умножать, делить, извлекать корни и ещё много чего выполнять другие бесхитростные действия. Да, вот так просто. Настоящий курс предназначен для начинающих статистиков, и на предстоящих уроках научимся решать типовые задачи, которые реально встречаются в ваших студенческих работах.
Из инструментальных средств потребуется Эксель (не умеете – научим!), проверьте, есть ли он у вас, и калькулятор, лучше оффлайн калькулятор с кнопочками, ибо на зачёте или экзамене гаджетами, как правило, пользоваться нельзя.
Из литературы рекомендую те же две книги: задачник и учебное пособие В.Е. Гмурмана под названием Теория вероятностей и математическая статистика.
Математическая статистика следует «вторым эшелоном» за теорией вероятностей, и это не случайность, а логическое продолжение. Отличие состоит в том, что тервер даёт теоретическую оценку случайным событиям, а статистика работает с практическими, или как говорят, эмпирическими данными, которые берутся непосредственно «из жизни». Поэтому для изучения темы желательно (но не критично обязательно) знать азы теории вероятности, в частности, случайные величины – многие понятия и формулы будут очень и очень схожи.
Что такое математическая статистика? Её часто называют то наукой, то разделом математики. И это правда 🙂 Математическая статистика, буду краток, изучает методы сбора и обработки статистической информации для получения научных и практических выводов. Статистическая – это та, которую можно выразить числами. Эта информация появляется в результате исследования массовых (обычно) явлений, которые носят случайный характер.
Причём, информация может носить как количественный характер (например, размеры чего-либо), так и качественную природу – «оцифровать» можно, да хоть пятьдесят оттенков серого.
Немедленный пример. Что главное орудие физика? Секундомер:
Студент Константин выполняет лабораторную работу по определению коэффициента вязкости жидкости методом Стокса.
…тихо-тихо, тут будет всего несколько чисел 🙂
Экспериментальная часть этой работы состоит в том, что в высокий цилиндрический сосуд с жидкостью сбрасывается достаточно маленький и тяжёлый шарик, после чего замеряется время его погружения.
Время погружения шарика зависит от множества случайных факторов: прямоты рук экспериментатора, погрешности измерения времени, хаотичного движения молекул жидкости и т.д., вплоть до влияния Луны. Поэтому эксперимент целесообразно провести 5-10 раз (как оно обычно и требуется).
Предположим, что в результате 5 опытов получены следующие результаты (в секундах):
Что произошло? Студент Костя собрал первичные (ещё не обработанные) статистические данные. Они эмпирические (взяты непосредственно из опыта), носят случайный характер (см. выше). И массовый. Ну а как нет? Все однокурсники только и занимаются тем, что бросают в сосуды шарики, да и мало ли на планете похожих шариков, которые тонут в похожей жидкости.
Ну а мы потихоньку погружаемся в терминологию:
— полученные экспериментальные значения называются вариантами, а их совокупность – вариационным рядом. Почему так? Потому что полученные значения варьируются под воздействием случайных факторов.
Справка: вариАнта (существительное женского рода) – в статистике означает отдельно взятое эмпирическое значение.
Далее. Далее Константин должен обработать полученные данные. Во-первых, посмотреть, а нет ли среди полученных значений варианты, которая сильно отличается от всех остальных? Наличие такого значения сигнализирует о том, что соответствующий опыт проведён неудачно и его следует исключить из рассмотрения.
Нет, все значения достаточно близкИ друг к другу, и теперь напрашивается вычислить среднюю величину – разделить сумму значений на их количество:
секунды.
Это значение называют простой средней или, как многие знают, средним арифметическим. Его стандартно обозначают с чёрточкой наверху.
Справка на всякий случай: математический значок означает суммирование, а переменная
играет роль «счётчика»; в данном случае
изменяется от 1 до 5.
Если грызут сомнения на счёт точности, то лучше не полениться и провести 10 опытов, что, кстати, удобнее в плане вычислений (на 10 делить проще). И, разумеется, полученный результат будет надёжнее, чем в 1-м случае.
Всё. Статические данные обработаны, осталось сделать выводы. А именно, с помощью значения вычислить коэффициент вязкости жидкости и ещё там вроде что-то, желающие могут найти эту лабу в Сети.
…возможно, у вас возник вопрос, почему я выбрал такой пример? Это единственное, что мне запомнилось из институтского курса физики 🙂
Студенческая группа сдала коллоквиум по матанализу со следующими результатами:
Требуется определить среднюю успеваемость группы
Сбором статистических данных здесь занимался преподаватель, и обратите внимание на их характер: они эмпирические, массовые (громко, конечно, сказано, но таки массовые) и отчасти случайные. Кому-то повезло с вопросом, кому-то нет, кто-то что-то вспомнил / забыл, списал, прогулял и так далее…, прямо какое-то броуновское движение студентов))
Как нетрудно понять, роль вариант здесь играют полученные оценки, а
– это соответствующие частоты – количество студентов, которые получили ту или иную оценку. Подсчитаем общую численность группы:
человек и, привыкаем к терминам, исследуемое множество называют статистической совокупностью, а количество его элементов – объёмом совокупности.
Теперь обратим внимание на следующую вещь: двоечников и отличников у нас мало, а нормальных студентов 🙂 много. И возникает вопрос: как вычислить «справедливую» среднюю оценку по всей совокупности? Решение напрашивается – с помощью так называемой средневзвешенной средней:
– средняя успеваемость по группе. И я обязательно приму соответствующие меры!
…да, суровые у меня сегодня примеры 🙂 Давайте проанализируем их принципиальные отличия:
1) В первом примере проводится статистическое исследование количественной величины (времени), а во втором «оцифровывается» и анализируется качественный признак (успеваемость).
2) В первом случае исследуемая величина непрерывна, и, строго говоря, все полученные значения различны (отличаются хоть какими-то миллисекундами). Во втором случае варианты дискретны, т.е. представляют собой отдельно взятые изолированные значения. Следует заметить, что они не обязаны быть целыми, так, например, можно ввести в рассмотрение оценки 2,5; 3,5 и 4,5. И у дискретной величины, как правило, есть неоднократно встречающиеся (одинаковые) варианты, так, например, «пятёрка» встретилась 3 раза.
3) В первом примере речь идёт о выборке значений. Что это значит? Это значит, что шарик можно сбрасывать в воду гораздо бОльшее и теоретически вообще бесконечное количество раз. Таким образом, проведённые 5 опытов есть, по сути, выборка, которую называют выборочной совокупностью. При этом соответствующее среднее значение принято называть выборочной средней.
Второй пример отличен тем, что в нём исследуется ВСЯ совокупность, и поэтому её называют генеральной совокупностью, а соответствующее среднее значение – генеральной средней. Но такая ситуация редкость. Редко когда удаётся исследовать всю совокупность.
И сейчас мы подошли к основному методу математической статистики:
Федор пошёл на базу исследовать помидоры. Требуется определить среднюю массу помидора и среднюю долю первосортных помидоров.
Разбираемся в ситуации. Очевидно, что на базе находится очень и очень много помидоров, обозначим их общее количество через . Это генеральная совокупность. Для того чтобы решить задачу, можно взвесить каждый овощ:
(в граммах, например) и вычислить генеральную среднюю:
– среднюю массу помидора.
Но это долго и трудно, даже если Феде будут помогать все его однокурсники.
Поэтому для оценки параметров генеральной совокупности целесообразно использовать выборочный метод. Его суть состоит в том, что из генеральной совокупности достаточно выбрать объектов, которые хорошо характеризуют всю совокупность. Это «хорошо» называют представительностью или, как говорят, репрезентативностью выборки. Проговорим это модное слово вслух: ре-пре-зен-та-тив-ность.
Что нужно для того, чтобы обеспечить репрезентативность?
Ну, во-первых, выборка должна быть достаточно велика, помидоров так 500-1000 точно, что уже вполне по силам даже одному Феде.
Примечание: в дальнейшем мы сформулируем более строгие статистические критерии на счёт оптимального размера выборки.
Во-вторых, отбор следует осуществлять равномерно – из каждого ящика.
В-третьих, отбор должен быть случайным. Для этого используются разные приёмы, и самый простой здесь – это выбор «вслепую» из случайно выбранного места ящика, обязательно с разной глубины (а то мало ли, что поставщик там мог спрятать).
И, в-четвёртых (а может быть, и, в-первых), есть и другие факторы, которые могут быть менее очевидны. В частности, важно знать, а однородна ли генеральная совокупность? Так, если помидоры поступили от разных поставщиков, то каждую партию полезно исследовать по отдельности (сделать несколько выборок).
Итак, пусть Фёдор по всем правилам выбрал помидоров, и теперь дело за малым – взвесить каждый овощ:
(граммы) и вычислить выборочную среднюю:
– среднюю массу помидора в выборке.
При этом очевидно, что чем больше объем выборочной совокупности, тем полученное значение будет точнее приближать генеральную среднюю
.
Но фишка состоит в том, что если начать увеличивать выборку в два, три и бОльшее количество раз, то будут получаться выборочные средние, которые мало отличаются от уже рассчитанного значения . Вы спрОсите, как это установлено? Эмпирически. В результате огромного количества реально проведённых исследований.
Таким образом, нет никакого практического смысла тратить силы, время, деньги, нервы на исследование бОльшей выборки и тем более, всей генеральной совокупности.
Вот оно как – в статистике есть и прямая экономическая выгода!
И ещё один момент, чуть не забыл: обратите внимание на используемые буквы – они стандартны. Другие варианты встречаются реже.
Вторая часть задачи. Определим вместе с Фёдором среднюю долю высококачественных помидоров на базе (ну мы же не садисты заставлять его одного заново перебирать 1000 штук :)).
В отличие от первого этапа, здесь мы исследуем уже качественный признак, для которого, тем не менее, можно сформулировать чёткие критерии. Пусть первосортный помидор – это чёрный, лысый красный, спелый, без видимых дефектов, массой выше среднего.
Совершенно понятно, что генеральная совокупность содержит таких помидоров, и существует точное значение:
– генеральная доля первосортных помидоров.
Но по причине трудозатратности и нецелесообразности полного исследования, достаточно подсчитать количество таких овощей в выборке и вычислить:
– выборочную долю, которая будет весьма близка к истинному значению
. Но это только, напомню, при условии грамотно организованной и проведённой выборки.
Доля, как вы догадываетесь, может принимать значение от 0 до 1, и иногда её домножают на 100, чтобы выразить этот показатель в процентах.
Константин, Фёдор, спасибо за участие, а остальные, как в том анекдоте, поедут на картошку 🙂 Тем более, сейчас на дворе конец сентября, а осень, как сказал прозаик, это клубни.
В качестве разминки предлагаю вам задачу с тремя пунктами различного уровня сложности. Проверьте наличие инструментов под рукой и свои навыки вычислений (Эксель вечной живой по-прежнему тут):
а) Урожайность картофеля по трём областям за **** год составила 147, 145, 155 ц/га (центнеров с га). Требуется вычислить среднюю урожайность.
Метрическая справка: 1 центнер = 100 кг, 1 тонна = 1000 кг;
1 гектар (га) = 10000 квадратных метров;
показатель ц/га обозначает, сколько центнеров собрано с 1 гектара.
Не забываем приписывать к итоговому результату размерность! (секунды, граммы и т.д., а в данном случае – ц/га).
Вариация чуть сложнее:
б) Известны следующие данные по трём областям:
…это нарисовали чиновники для отчёта – привыкайте к настоящей статистике!:)))
Требуется вычислить среднюю урожайность.
Обратите внимание, что здесь урожайность, скажем, по 3-й области велика, но её посевная площадь мала. Поэтому урожайность уместно «взвесить» по площадям.
и третий пункт, творческий:
в) вычислить среднюю урожайность по следующим данным:
«Валовой» – это значит, всего собрано по области.
ДУМАЕМ, ВНИКАЕМ и РАССУЖДАЕМ – принцип здесь точно такой же, как и при решении задач по теории вероятностей. И, главное, не паримся – это просто разминочные задачи!
Решения с пояснениями и ответы совсем близко.
И в заключение вводного урока систематизируем самое важное:
Математическая статистика – это наука, изучающая методы сбора и обработки статистической информации для получения научных и практических выводов.
Основным методом матстатистики является выборочный метод, его суть состоит в исследовании представительной выборочной совокупности – для достоверной характеристики совокупности генеральной. Данный метод экономит временнЫе, трудовые и материальные затраты, поскольку исследование всей совокупности зачастую затруднено или невозможно.
Для решения задач по математической статистике требуется калькулятор, Эксель и голова. …Нет-нет-нет, голова, разумеется, ещё много где нужна 🙂
И я желаю вам успехов в дальнейшем освоении курса!
Вперёд без страха и сомнений:
. как ваша форма? Продолжаем!
и продолжение следует!
а) Используем простую среднюю:
ц/га – в среднем по трём областям.
б) Используем средневзвешенную (по площади) среднюю:
ц/га в среднем по трём областям.
в) Здесь урожайность тоже следует переоценить через посевную площадь, используя формулу Посевная площадь = Валовой сбор / Урожайность:
ц/га в среднем по трём областям. Такой вид средней иногда называют средней гармонической.
И здесь часто задают вопрос по размерности, комментирую: за размерностью можно проследить в бравом физико-математическом стиле. В числителе у нас расположены сотни тонн (миллионы кг). В знаменателе миллионы кг делим на центнеры с га, избавляемся от трёхэтажности и сокращаем дробь на 100 кг:
(общая посевная площадь)
И, наконец, размерность всей дроби:
или центнеры с га.
Автор: Емелин Александр
(Переход на главную страницу)
«Всё сдал!» — онлайн-сервис помощи студентам
Элементы статистики
Продолжаем изучать элементарные задачи по математике. Сегодня мы поговорим о статистике.
Статистика — это раздел математики в котором изучаются вопросы сбора, измерения и анализа информации, представленной в числовой форме. Происходит слово статистика от латинского слова status (состояние или положение дел).
Так, с помощью статистики мы можем узнать свое положение дел, касающихся финансов. С начала месяца можно вести дневник расходов и по окончании месяца, воспользовавшись статистикой, узнать сколько денег в среднем мы тратили каждый день или какая потраченная сумма была наибольшей в этом месяце либо узнать какую сумму мы тратили наиболее часто.
На основе этой информации можно провести анализ и сделать определенные выводы: следует ли в следующем месяце немного сбавить аппетит, чтобы тратить меньше денег, либо наоборот позволить себе не только хлеб с водой, но и колбасу.
Выборка. Объем. Размах
Что такое выборка? Если говорить простым языком, то это отобранная нами информация для исследования. Например, мы можем сформировать следующую выборку — суммы денег, потраченных в каждый из шести дней. Давайте нарисуем таблицу в которую занесем расходы за шесть дней
Выборка состоит из n-элементов. Вместо переменной n может стоять любое число. У нас имеется шесть элементов, поэтому переменная n равна 6
Элементы выборки обозначаются с помощью переменных с индексами . Последний
элемент является шестым элементом выборки, поэтому вместо n будет стоять число 6.
Обозначим элементы нашей выборки через переменные
Количество элементов выборки называют объемом выборки. В нашем случае объем равен шести.
Размахом выборки называют разницу между самым большим и маленьким элементом выборки.
Среднее арифметическое
Понятие среднего значения часто используется в повседневной жизни.
Речь идет о среднем арифметическом — результате деления суммы элементов выборки на их количество.
Среднее арифметическое — это результат деления суммы элементов выборки на их количество.
Вернемся к нашему примеру
Узнаем сколько в среднем мы тратили в каждом из шести дней:
Средняя скорость движения
При изучении задач на движение мы определяли скорость движения следующим образом: делили пройденное расстояние на время. Но тогда подразумевалось, что тело движется с постоянной скоростью, которая не менялась на протяжении всего пути.
В реальности, это происходит довольно редко или не происходит совсем. Тело, как правило, движется с различной скоростью.
Когда мы ездим на автомобиле или велосипеде, наша скорость часто меняется. Когда впереди нас помехи, нам приходиться сбавлять скорость. Когда же трасса свободна, мы ускоряемся. При этом за время нашего ускорения скорость изменяется несколько раз.
Речь идет о средней скорости движения. Чтобы её определить нужно сложить скорости движения, которые были в каждом часе/минуте/секунде и результат разделить на время движения.
Задача 1. Автомобиль первые 3 часа двигался со скоростью 66,2 км/ч, а следующие 2 часа — со скоростью 78,4 км/ч. С какой средней скоростью он ехал?
Сложим скорости, которые были у автомобиля в каждом часе и разделим на время движения (5ч)
Значит автомобиль ехал со средней скоростью 71,08 км/ч.
Определять среднюю скорость можно и по другому — сначала найти расстояния, пройденные с одной скоростью, затем сложить эти расстояния и результат разделить на время. На рисунке видно, что первые три часа скорость у автомобиля не менялась. Тогда можно найти расстояние, пройденное за три часа:
Аналогично можно определить расстояние, которое было пройдено со скоростью 78,4 км/ч. В задаче сказано, что с такой скоростью автомобиль двигался 2 часа:
Сложим эти расстояния и результат разделим на 5
Задача 2. Велосипедист за первый час проехал 12,6 км, а в следующие 2 часа он ехал со скоростью 13,5 км/ч. Определить среднюю скорость велосипедиста.
Скорость велосипедиста в первый час составляла 12,6 км/ч. Во второй и третий час он ехал со скоростью 13,5. Определим среднюю скорость движения велосипедиста:
Мода и медиана
Модой называют элемент, который встречается в выборке чаще других.
Рассмотрим следующую выборку: шестеро спортсменов, а также время в секундах за которое они пробегают 100 метров
Элемент 14 встречается в выборке чаще других, поэтому элемент 14 назовем модой.
Рассмотрим еще одну выборку. Тех же спортсменов, а также смартфоны, которые им принадлежат
Элемент iphone встречается в выборке чаще других, значит элемент iphone является модой. Говоря простым языком, носить iphone модно.
Конечно элементы выборки в этот раз выражены не числами, а другими объектами (смартфонами), но для общего представления о моде этот пример вполне приемлем.
Рассмотрим следующую выборку: семеро спортсменов, а также их рост в сантиметрах:
Упорядочим данные в таблице так, чтобы рост спортсменов шел по возрастанию. Другими словами, построим спортсменов по росту:
Выпишем рост спортсменов отдельно:
В получившейся выборке 7 элементов. Посередине этой выборки располагается элемент 184. Слева и справа от него по три элемента. Такой элемент как 184 называют медианой упорядоченной выборки.
Медианой упорядоченной выборки называют элемент, располагающийся посередине.
Отметим, что данное определение справедливо в случае, если количество элементов упорядоченной выборки является нечётным.
В рассмотренном выше примере, количество элементов упорядоченной выборки было нечётным. Это позволило нам быстро указать медиану
Но возможны случаи, когда количество элементов выборки чётно.
К примеру, рассмотрим выборку в которой не семеро спортсменов, а шестеро:
Построим этих шестерых спортсменов по росту:
Выпишем рост спортсменов отдельно:
180, 182, 184, 186, 188, 190
В данной выборке не получается указать элемент, который находился бы посередине. Если указать элемент 184 как медиану, то слева от этого элемента будут располагаться два элемента, а справа — три. Если как медиану указать элемент 186, то слева от этого элемента будут располагаться три элемента, а справа — два.
В таких случаях для определения медианы выборки, нужно взять два элемента выборки, находящихся посередине и найти их среднее арифметическое. Полученный результат будет являться медианой.
Вернемся к нашим спортсменам. В упорядоченной выборке 180, 182, 184, 186, 188, 190 посередине располагаются элементы 184 и 186
Найдем среднее арифметическое элементов 184 и 186
Элемент 185 является медианой выборки, несмотря на то, что этот элемент не является членом исходной и упорядоченной выборки. Спортсмена с ростом 185 нет среди остальных спортсменов. Рост в 185 см используется в данном случае для статистики, чтобы можно было сказать о том, что срединный рост спортсменов составляет 185 см.
Поэтому более точное определение медианы зависит от количества элементов в выборке.
Если количество элементов упорядоченной выборки нечётно, то медианой выборки называют элемент, располагающийся посередине.
Если количество элементов упорядоченной выборки чётно, то медианой выборки называют среднее арифметическое двух чисел, располагающихся посередине этой выборки.
Медиана и среднее арифметическое по сути являются «близкими родственниками», поскольку и то и другое используют для определения среднего значения. Например, для предыдущей упорядоченной выборки 180, 182, 184, 186, 188, 190 мы определили медиану, равную 185. Этот же результат можно получить путем определения среднего арифметического элементов 180, 182, 184, 186, 188, 190
Но медиана в некоторых случаях отражает более реальную ситуацию. Например, рассмотрим следующий пример:
Было подсчитано количество имеющихся очков у каждого спортсмена. В результате получилась следующая выборка:
0, 1, 1, 1, 2, 1, 2, 3, 5, 4, 5, 0, 1, 6, 1
Определим среднее арифметическое для данной выборки — получим значение 2,2
По данному значению можно сказать, что в среднем у спортсменов 2,2 очка
Теперь определим медиану для этой же выборки. Упорядочим элементы выборки и укажем элемент, находящийся посередине:
В данном примере медиана лучше отражает реальную ситуацию, поскольку половина спортсменов имеет не более одного очка.
Частота
Частота это число, которое показывает сколько раз в выборке встречается тот или иной элемент.
Предположим, что в школе проходят соревнования по подтягиваниям. В соревнованиях участвует 36 школьников. Составим таблицу в которую будем заносить число подтягиваний, а также число участников, которые выполнили столько подтягиваний.
По таблице можно узнать сколько человек выполнило 5, 10 или 15 подтягиваний. Так, 5 подтягиваний выполнили четыре человека, 10 подтягиваний выполнили восемь человек, 15 подтягиваний выполнили три человека.
Количество человек, повторяющих одно и то же число подтягиваний в данном случае являются частотой. Поэтому вторую строку таблицы переименуем в название «частота»:
Такие таблицы называют таблицами частот.
Частота обладает следующим свойством: сумма частот равна общему числу данных в выборке.
Это означает, что сумма частот равна общему числу школьников, участвующих в соревнованиях, то есть тридцати шести. Проверим так ли это. Сложим частоты, приведенные в таблице:
4 + 5 + 10 + 8 + 6 + 3 = 36
Относительная частота
Относительная частота это в принципе та же самая частота, которая была рассмотрена ранее, но только выраженная в процентах.
Относительная частота равна отношению частоты на общее число элементов выборки.
Вернемся к нашей таблице:
Пять подтягиваний выполнили 4 человека из 36. Шесть подтягиваний выполнили 5 человек из 36. Восемь подтягиваний выполнили 10 человек из 36 и так далее. Давайте заполним таблицу с помощью таких отношений:
Выполним деление в этих дробях:
Выразим эти частоты в процентах. Для этого умножим их на 100. Умножение на 100 удобно выполнить передвижением запятой на две цифры вправо:
Теперь можно сказать, что пять подтягиваний выполнили 11% участников, 6 подтягиваний выполнили 14% участников, 8 подтягиваний выполнили 28% участников и так далее.
Понравился урок?
Вступай в нашу новую группу Вконтакте и начни получать уведомления о новых уроках
Возникло желание поддержать проект?
Используй кнопку ниже
42 thoughts on “Элементы статистики”
Спасибо, что вы вернулись.
Будут ли новые уроки?