Чего не знает статистика
Что не знает статистика
Сила статистики в современном баскетболе велика и оказывает серьезное влияние на многие суждения и выводы. В связи с этим хочется прояснить один вопрос. Неужели на самом деле реальную эффективность действий игрока можно перевести в сухие цифры, которые способны полностью заменить личные впечатления от действий того или иного баскетболиста.
Итак, что нам говорит статистика. Милован провел на площадке восемь минут и две секунды. За это время Ракович набрал 9 очков (реализовав все четыре своих броска с игры и единственный штрафной), а также сделал один подбор на чужом щите, заствил однажды соперника сфолить на себе и совершил одну потерю. По популярному в Европе рейтингу ЕвроКПИ его полезность составила 10 баллов. Для одной четверти это очень большие цифры. Исходя из всего этого, можно смело давать Раковичу заслуженный титул МВП первой четверти матча.
Сербский центровой очень хороший атакующий игрок. Вот только насколько он хорош в нападении, настолько же слаб в обороне. И если с травмированным Кауном в дебюте Ракович справился, то появление на площадке Андрея Воронцевича наглядно продемонстрировало слабости Милована. Молодой форвард ЦСКА всего за полторы минуты сумел трижды завершить атаки своей команды из-под кольца соперника без особого сопротивления.
Давайте посмотрим.
В первом эпизоде армейцы разыграли стандартный пик-н-ролл, и мяч транзитом через Виктора Хряпу нашел одинокого Андрея Воронцевича в «краске» питерского «Спартака». Ракович же в этом моменте продемонстрировал свое неумение защищаться против двоечек. Самое смешное, что, судя по расстановке игроков питерской команды, они в этом эпизоде либо играли «зону», либо же просто безобразно возвращались в оборону, «перепутав» своих опекуемых.
Во втором эпизоде Ракович просто неправильно занял позицию. Воронцевич получил мяч за его спиной и легко реализовал представившуюся возможность.
В третьем моменте Милован запутался в разменах игроков. Вследствие этого он все время атаки армейцев разрывался между желанием быть ближе к кольцу и попытаться помешать ближайшему баскетболисту ЦСКА. В итоге всё произошло как в известной пословице про зайцев. Раковичу не удалось ни первое, ни второе. Ну а Воронцевич, взяв подбор на чужом щите, спокойно переправил его в кольцо.
Что же мы имеем в итоге. С одной стороны хорошая результативная игра Раковича в атаке. С этим никак не поспоришь. С другой же стороны постоянные ошибки в обороне, которые если и не полностью нивелируют успехи в нападении, то, по меньшей мере, заметно снижают реальную эффективность сербского центрового на площадке.
А что нам на это говорит статистика? Правильно.
Милован провел на площадке восемь минут и две секунды. За это время Ракович набрал 9 очков (реализовав все четыре своих броска с игры и единственный штрафной), а также сделал один подбор на чужом щите, заствил однажды соперника сфолить на себе и совершил одну потерю. По популярному в Европе рейтингу ЕвроКПИ его полезность составила 10 баллов. Для одной четверти это очень большие цифры. Исходя из всего этого, можно смело давать Раковичу заслуженный титул МВП первой четверти матча.
Основы статистики: просто о сложных формулах
Статистика вокруг нас
Статистика и анализ данных пронизывают практически любую современную область знаний. Все сложнее становится провести границу между современной биологией, математикой и информатикой. Экономические исследования и регрессионный анализ уже практически неотделимы друг от друга. Один из известных методов проверки распределения на нормальность — критерий Колмогорова-Смирнова. А вы знали, что именно Колмогоров внес огромный вклад в развитие математической лингвистики?
Еще будучи студентом психологического факультета СПбГУ, я заинтересовался когнитивной психологией. Кстати, Иммануил Кант не считал психологию наукой, так как не видел возможности применять в ней математические методы. Мои текущие исследования посвящены моделированию психических процессов, и я надеюсь, что такие направления в современной когнитивной психологии, как вычислительные и коннективисткие модели, смягчили бы его отношение!
Конечно, статистика применяется далеко за пределами научных лабораторий: в рекламе, маркетинге, бизнесе, медицине, образовании и т.д. Но, что самое интересное, базовые знания анализа данных крайне полезны и в повседневной жизни. Например, думаю, все вы знакомы с понятием среднего арифметического. Среднее значение очень часто используется в СМИ при обсуждении различных социально-экономических показателей — доходов, уровня безработицы и т.д. В 2005 году британские СМИ писали о том, что средний уровень дохода населения не только не возрос, но снизился на 0,2 % по сравнению с предыдущим годом. Мелькали заголовки «Доходы населения снизились впервые с 1990 года». Некоторые политики даже использовали этот факт, критикуя действующее правительство. Однако, важно понимать, что среднее арифметическое — хороший показатель, когда наш признак имеет симметричное распределение (богатых столько же, сколько бедных). Реальное же распределение доходов имеет скорее следующий вид:
Распределение имеет явно выраженную асимметрию: очень состоятельных людей заметно меньше, чем представителей среднего класса. Это приводит к тому, что в данном случае банкротство одного из миллионеров может значительно повлиять на этот показатель. Гораздо информативнее использовать значение медианы для описания таких данных. Медиана — это значение зарплаты, которое находится в самой середине распределения доходов (50% всех наблюдений меньше медианы, 50% — больше). И, как ни удивительно, медиана дохода в 2005 году в Великобритании, в отличие от среднего значения, продолжила свой рост. Таким образом, если вы знаете о различных типах распределения и различных мерах центральной тенденции (среднее и медиана), то вас не так просто ввести в заблуждение в таких случаях, как описаны в примере.
Черный ящик статистического анализа
Как мы уже выяснили, чем бы вы ни планировали заниматься, вероятность столкнуться с курсом «математическая статистика в вашей области» постепенно приближается к единице. Однако, часто занятия по введению в статистику не вызывают восторга у студентов нетехнических факультетов. Через несколько занятий выясняется, что такие базовые понятия, как, например, корреляция представляют собой нечто следующее:
О чем нам, собственно, говорит p-value?
Предположим, мы решили выяснить, существует ли взаимосвязь между пристрастием к кровавым компьютерным играм и агрессивностью в реальной жизни. Для этого были случайным образом сформированы две группы школьников по 100 человек в каждой (1 группа — фанаты стрелялок, вторая группа — не играющие в компьютерные игры). В качестве показателя агрессивности выступает, например, число драк со сверстниками. В нашем воображаемом исследовании оказалось, что группа школьников-игроманов действительно заметно чаще конфликтует с товарищами. Но как нам выяснить, насколько статистически достоверны полученные различия? Может быть, мы получили наблюдаемую разницу совершенно случайно? Для ответа на эти вопросы и используется значение p-уровня значимости (p-value) — это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет. Иными словами, это вероятность получить такие или еще более сильные различия между нашими группами, при условии, что, на самом деле, компьютерные игры никак не влияют на агрессивность. Звучит не так уж и сложно. Однако, именно этот статистический показатель очень часто интерпретируется неправильно.
А теперь несколько примеров про p-value
Давайте разберем все ответы по порядку:
Онлайн-курс по основам статистики: сложные формулы несложным языком
Сейчас я пишу диссертацию на факультете психологии СПбГУ и преподаю статистику биологам в Институте биоинформатики. Основываясь на курсе читаемых лекций и собственного исследовательского опыта, возникла идея создать онлайн-курс по введению в статистику на русском языке для всех желающих, необязательно биоинформатиков или биологов.
Существует много хороших онлайн-курсов по анализу данных и статистике (например, такой, такой, или такой), но практически все они на английском языке. Надеюсь, что курс будет полезен для тех, кто только знакомится с основами статистики. В нем я стараюсь в максимально доступной форме разобрать основные идеи и методы анализа данных, уделяя особое внимание самой идее статистической проверки гипотез и интерпретации получаемых результатов. В качестве примеров будут задачи из различных областей: от биоинформатики до социологии. Курс бесплатный и все его материалы останутся открытыми после окончания, начинается 15 февраля.
Доброе утро
Чего не знает статистика
Код для встраивания видео
Настройки
Плеер автоматически запустится (при технической возможности), если находится в поле видимости на странице
Размер плеера будет автоматически подстроен под размеры блока на странице. Соотношение сторон — 16×9
Плеер будет проигрывать видео в плейлисте после проигрывания выбранного видео
Юлия Павлова, врач-неонатолог: «После праздничных дней рождаемость может возрастать, но она связана с тем, что в праздники мамы ведут себя более активно, стимулируя процесс рождения».
Проверяем еще один факт. Оказывается, средний рост россиянина — 170 сантиметров. Мы сверили эти данные с наблюдениями врача Виктории Мерьковой. Она работает в отделении профилактики и измеряет рост в среднем 30 посетителям за день, через ее руки за год проходит 6 000 человек. По словам врача, средний рост мужчин составляет от 173 до 178, женщин — от 160 до 167 сантиметров. Действительно, среднее значение — 170 сантиметров.
Есть еще одни интересный факт. Люди на планете от поколения к поколению становятся выше. Например, средний рост неандертальцев был всего 150 сантиметров. А в прошлом веке рост составлял 160 сантиметров.
Какое в России самое популярное женское имя? Статистика утверждает — Анна. Проверять эту информацию мы отправились в городской отдел ЗАГС. Здесь регистрируют 5 600 детей в год. Самыми распространенным именем оказались Мария, Анна, Анастасия, Елизавета. Из мужских — Александр. Эти имена остаются в топе 15 лет подряд. Сотрудники отдела ЗАГС обязательно спрашивают согласие второго родителя — это закон. А на выбор имени у мамы и папы есть целый месяц.
Чего не знает статистика
Моя бабушка по маме родилась в 1913 году. Как говорит статистика, к этому году Россия достигла апогея своего развития по многим показателям, выйдя на шестое место в мире. И моя новорожденная бабушка вышла на это почётное место вместе со всей страной. Знала ли она об этом? Знали ли об этом её родители, а также десять братьев и сестёр? Думаю, статистика не учитывала благосостояние или, скорее, отсутствие благосостояния каждой многодетной семьи, особенно еврейской.
Статистика предпочитает учитывать собранное зерно, выкачанную нефть, построенные дома, съеденное мясо, выпитое молоко, полученную зарплату. Тем не менее, моя бабушка и её родители имели непосредственное отношение к показателям 1913 года. По статистике, в тогдашней России прирост населения за год составлял 17 человек на 1000. Без бабушки и особенно её мамы такого показателя достигнуть бы точно не удалось. Спустя сто лет аналогичный показатель едва превышает одного-единственного человека.
После Первой Мировой войны и революции нашей стране долго не удавалось достичь уровня 1913 года. Расстраиваться из-за этой ерунды бабушке было некогда. Её волновал съеденный конкретно их семьёй хлеб и выпитое молоко. Жаль, что литраж пролитых слёз никогда не учитывался статистикой.
Впервые бабушка узнала о том, что статистики сравнивают современную ситуацию с 1913 годом, от меня. Я пришёл из школы и гордо заявил, что в 1970 году в СССР было выплавлено стали в два раза больше, чем в России в год её рождения. Бабушка как раз опаливала на газовой горелке куриную тушку и ответила мне что-то на идиш. По интонации я понял, что с момента своего рождения она не слышала более радостного известия. Я был догадливым мальчиком и решил, что сообщать об успехах сельского хозяйства смысла не имеет.
Статистика видит результат, не интересуясь подробностями процесса. К примеру, она может назвать вам количество водки, выпитой за год. Но знает ли статистика, по какому поводу выпита эта водка? Сколько было выпито на свадьбах, сколько – на корпоративных вечеринках, а сколько – на поминках? Моя бабушка, как ни странно, всегда вносила свой вклад в статистику пития водки.
Я уже вырос, окончил школу, и иногда мы с друзьями собирались у меня в квартире. Водку не пили. Пиво, марочный молдавский портвейн, рислинг – на что хватало в тот момент денег. Но для бабушки, которая других алкогольных напитков не признавала, мы специально покупали чекушку. За это она угощала нас всем, что имелось в доме. Обычно это были какие-нибудь сладкие пироги, отварная курица, которую бабушка специально для нас обжаривала в сухарях, салатик на скорую руку.
Я наливал бабушке половинку рюмки водки, она охватывала её всей рукой, молча выпивала и, не закусывая, уходила на кухню. Там она садилась на табурет, упирала голову в руку, глядела подслеповатыми глазами в окно и плакала. Я уже знал, что в такие минуты бабушка вспоминает погибшую под бомбёжкой старшую дочь, и просил друзей вести себя тихо.
Эти двадцать грамм водки становились катализатором реакции, кнопкой пуска документального кино, которое каждый время от времени просматривает внутренним зрением, предпочитая делать это в одиночку. Я мог только догадываться, что бабушка видела в этом кино ещё живых своих родителей, сестёр, братьев и прожившую всего четыре года дочь.
Статистика умудряется и сегодня сравнивать достижения с 1913 годом. Жаль, что я не могу рассказать о них бабушке. Она бы ответила мне что-то на идиш, и по её интонации я бы понял, что статистика так и осталась поверхностной наукой, ничего не понимающей в жизни.
Сегодня я бы выпил вместе с бабушкой по полрюмки водки, потому что давно перестал ценить в алкоголе вкус и другие внешние атрибуты. Я выпиваю половинку рюмки, потом вторую, если надо – третью, пока не запущу нужную мне реакцию. Добившись цели, я сажусь на табурет и, подперев голову руками, делаю вид, что гляжу в окно. Там мне показывают старую кинохронику, которую я предпочитаю смотреть в одиночку…
12 нелепых, но показательных статистических фактов со всего мира
Статистика говорит: 12 самых странных примеров
Статистика – вещь упрямая, научно обоснованная и имеющая доказательную базу. Однако иногда выявленные данные могут быть настолько странными и необычными, что в это просто очень сложно поверить. Как такое возможно?! Да не в жизни, чтоб это произошло в реальности!
Когда узнаешь нечто такое из чего-то нового, такая информация в буквальном смысле может поставить под сомнение все ваше мировоззрение или заставить усомниться в своей или чужой ментальной стабильности. Кто-то здесь явно сошел с ума, осталось только выяснить – весь мир или я.
12. Ежегодно полмиллиона итальянцев оказываются одержимыми демонами
Согласно статье в Newsweek, в Италии ежегодно сообщается о 500 000 случаев экзорцизма. Причем об этом говорят не где-нибудь в желтой прессе, а на радио Ватикана, добавляя при случае, что им нужно больше обученных экзорцистов. Интересно, где их обучают? Есть специальные факультеты в семинариях?
Удивительный факт – полмиллиона человек! При этом вовсе не обязательно верить, что одержимость существует, достаточно принять фактические данные и понять, что для решения проблемы одержимости разнокалиберными демонами католические священники предпринимают самые активные действия.
Немного замечательных статистических рассуждений:
Население Италии составляет 60 миллионов человек плюс-минус. Если 500 000 человек ежегодно становятся одержимыми, это 1 из 120 итальянцев. Если не будет удвоения, к концу десятилетия 1 из 12 итальянцев так или иначе будет отмечен как одержимый (в прошлом или на текущий момент). Лет через 20 каждый шестой итальянец окажется во власти демонов (так или иначе), а через 40 лет одержимость при тех же темпах начнет проявляться по второму кругу.
Настоящая эпидемия. Нужно больше экзорцистов. Все очень серьезно!
11. Ежегодно 200 000 россиян оказываются запертыми в лифтах
Сталин дал стране, но в основном крупным ее городам, жилые здания «сталинки» в так называемом сталинском ампире. Красивые, величественные сооружения. Никита Сергеевич Хрущев подарил стране «хрущевки», во многом решив жилищный кризис на территории всего СССР. При Брежневе строительство больших жилых зданий значительно увеличилось. Дома стали выше. В них появилось множество лифтов. На 17-й, 20-й этаж пешком особо не походишь.
Сейчас в Москве в два раза больше лифтов, чем в Нью-Йорке. Но есть проблема: многие из этого подвижного состава – старые лифтовые кабины со старым оборудованием, а значит, каждый год от 120 000 до 200 000 человек будут вынуждены остаться на какое-то время в лифте. Главное, чтобы среди них не было клаустрофобов.
10. Каждый год в мире продается 95 миллиардов пакетиков быстрозавариваемой лапши
«Доширак», «Роллтон» и еще сотни фирм и компаний производят быстрозавариваемую лапшу по всему миру. Как думаете, сколько этого блюда съедают из года в год по всему миру? Много, ну очень много!
В 2010 году, по данным Всемирной ассоциации лапши быстрого приготовления (ага, есть и такая: World Instant Noodle Association), было продано 95,39 миллиарда пакетов лапши быстрого приготовления. Таким образом, в тот год на каждого человека на Земле было произведено около 15 пачек лапши. Вы съедаете 15 упаковок лапши ежегодно? Можем поспорить, что среди ваших знакомых есть немалое количество тех, кто не съел ни одной БПшки за все 365 дней. Таким образом, какая-то меньшая часть населения планеты умудряется запихнуть в себя и переварить 95 млрд пакетиков этой еды на скорую руку.
9. Ежегодно 12 000 американцев случайно объявляются мертвыми
По данным властей США, в Штатах ежегодно более 12 тыс. 200 американцев объявляются мертвыми из-за опечаток. Звучит комично, но не для тех людей, которых объявили таковыми заранее, ведь, несмотря на явность ошибки, чтобы воскреснуть, этим гражданам придется пройти все круги бюрократического ада.
Когда организации случайно делают этакие ошибки, люди стираются из различных баз данных, у них аннулируется социальное обеспечение, водительские права и так далее. Все это придется восстанавливать, скорее всего, самостоятельно.
Оказывается, проблема часто случается из-за работников, заполняющих формы для действительно умерших людей. Одно неверное нажатие клавиши на номере социального страхования настоящего покойника – и вдруг именно ты теперь «мертв». И удачи теперь тебе, чтобы доказать американским властям, что ты не мертв. Они говорят вам, кто мертв, а не наоборот.
8. Costco продает 60 миллионов цыплят-гриль за год
Крупнейшая в мире сеть складов (магазинов) самообслуживания. Что-то вроде Metro, только на американский манер. 6-10-килограммовые упаковки кетчупа и майонеза, коробки чипсов и огромные упаковки бутылок Coca-Cola. Все это можно приобрести в этом полускладе-полумагазине.
Но самое удивительное, что здесь же продаются готовые мясные продукты, те же цыплята-гриль. И ладно бы их просто продавали, нет, их реализуют в огромных количествах. Они продают по США порядка 157 000 кур каждый день. Это 57 миллионов в год. И это еще небольшие показатели продаж. В 2017 году они продали 87 миллионов штук этой продукции.
7. Переход на зимнее время увеличивает сердечные приступы на 24%
Согласно по крайней мере одному исследованию, после перевода часов на зимнее время сердечные приступы увеличиваются на 24%. Это было подсчитано в сравнении с ежедневным средним числом зарегистрированных сердечных приступов в течение нескольких недель до и после этой даты.
При этом, когда время откатывают назад, мы получаем этот дополнительный час и это снижает количество сердечных приступов на 21%. Как минимум такая корреляция существует в статистических данных. Хорошо, что у нас больше этого не делают.
6. Если бы вы захотели попробовать по одному новому продукту Coca-Cola в день, вам потребовалось бы девять лет, чтобы попробовать их все
Как вы думаете, сколько продуктов компания Coca-Cola выпустила за все время своего существования? Coca-Cola, ну Coca-Cola Zero, может быть, какая-нибудь Кола со вкусом апельсина или что-то вроде того. Ну ладно, 55 наименований. Верно?
На самом деле вы будете крайне удивлены, сколько разнообразных продуктов делает эта компания по всему миру. Мы даже близко такого себе представить не могли, пока не увидели это в статистике!
Кока-Кола производит более 3500 различных напитков в мировом масштабе. Так что да, если вы будете пить по одному новому продукту Coca-Cola каждый день, вам потребуется более девяти лет, чтобы попробовать их все.
5. У половины всех австралийских мужчин будет диагностирован рак
Рак в Австралии встречается примерно в два раза чаще, чем в других странах мира. Почему? Примитивным объяснением тому является то, что Австралия – это большая пустая сковородка под палящим солнцем. В среднем по миру заболеваемость раком составляет 22%, на самом большом острове Земли эта вероятность возрастает до 49,58%, особенно это касается австралийских мужчин.
4. Ежегодно мы выбрасываем 1,4 миллиарда тонн продовольствия
Никто не любит думать о том, сколько еды мы тратим впустую, потому что это печальная, трагическая ситуация. Попросту говоря, знаете, сколько мы выбрасываем пищи, не потребив нутриенты по назначению? 1,4 миллиарда тонн продуктов питания ежегодно!
Сколько стоит 1,4 миллиарда тонн продовольствия в практическом плане? Достаточно, чтобы прокормить два миллиарда человек, или более четверти населения планеты. Это примерно треть всей еды, которую мы производим за год. Возмутительно!
3. В Кентукки больше бурбона, чем людей
Кентукки славится курицей и бесконечным запасом выпивки. Американцы так и говорят: Кентукки – это источник бесконечного запаса выпивки! Да, там делают бурбон. И делают его в таком количестве, что фасованного бурбона там больше, чем местных жителей.
В Кентукки сейчас более восьми миллионов баррелей (159 литров = 1 баррелю), но из жителей наличествует только четыре миллиона человек плюс-минус. Фактически на каждого человека в штате приходится по два бочонка спиртного по 159 литров каждый. Неплохо!
2. Американцы используют 36 миллиардов рулонов туалетной бумаги ежегодно
Даже не знаем, как прокомментировать эту статистику. Американцы используют по прямому назначению 36,5 миллиарда рулонов ежегодно!
В целом американцы юзают около 1/5 всей туалетной бумаги в мире, хотя на Америку приходится только около 4% мирового населения. Что они с ней делают, с этой туалетной бумагой? На деревьях что ли развешивают?! Какое кощунство!
1. Как морепродукты? Вы едите 11 000 микрокусочков пластика в год
Как много вы знаете о микропластиках? Если вы хоть немного интересуетесь экологией, вы, должно быть, знаете, что со временем весь пластик в океанах распадается на крошечные микрочастицы, которые кажутся незначительными, пока вы не вспомните, что вокруг плавают миллионы тонн этого вещества. Они представляют опасность для окружающей среды, потому что животные и рыбы будут это глотать и накапливать. Но также это опасно и для человека. Ведь после вылова рыбы мы начинаем есть эту гадость, продвигая ее на самый верх пищевой цепи.