что такое вку в статистике
Статистический показатель и его виды
На этапе статистического наблюдения получены показатели, характеризующие отдельные единицы изучаемой совокупности. Результатом любого статистического исследования являются получение различные статистические показатели, позволяющие оценить уровень, вариацию, структуру, взаимосвязи и динамику изучаемых социально-экономических процессов и явлений.
Статистический показатель — это, количественно – качественная характеристика какого – то свойства группы единиц совокупности или совокупности в целом.
В отличие от признака статистический показатель получают расчетным путем. Объем продукции предприятия за месяц, годовой объем внешнеторгового оборота – статистический показатель. Статистические показатели определяются путем суммирования абсолютных значений признака (численность населения, безработных, трудовых ресурсов), вычисления средних значений признаков (средняя заработная плата, средний доход на душу населения), относительных величин (индекс себестоимости, темпы прироста).
Статистические показатели могут быть плановыми, отчетными и прогностическими (т. е. выступать в качестве прогнозных оценок).
Выделяют три формы выражения статистических показателей. В зависимости от характера исходных данных и методологии исчисления статистические показатели могут быть выражены в форме абсолютных, относительных или средних величин. Эти три формы выражения статистических показателей подробно рассмотрены в последующих параграфах данной главы.
В зависимости от охвата единиц изучаемой статистической совокупности показатели подразделяются на индивидуальные и сводные.
Индивидуальные показатели характеризуют отдельный объект или отдельную единицу совокупности – предприятие, фирму, банк, домохозяйство и т. п. Примером индивидуальных абсолютных показателей может служить численность промышленно-производственного персонала предприятия, оборот торговой фирмы, совокупный доход домохозяйства.
Индивидуальный относительный показатель представляет собой результат соотнесения двух индивидуальных абсолютных показателей, характеризующих один и тот же объект или единицу совокупности. Например, рентабельность продукции отдельного предприятия получают как отношение прибыли от реализации продукции и услуг к затратам на их производство и реализацию. Сводные показатели в отличие от индивидуальных характеризуют группу единиц, представляющую собой часть статистической совокупности или всю совокупность в целом. Эти показатели, в свою очередь, подразделяются на объемные и расчетные
Объемные показатели получают путем сложения значений признака отдельных единиц совокупности. Полученная величина, называемая объемом признака, может выступать в качестве объемного абсолютного показателя (например, стоимость основных фондов всех предприятий отрасли), а может сравниваться с другой объемной абсолютной величиной (например, с численностью промышленно-производственного персонала этих предприятий) или объемом совокупности (в данном примере – с числом предприятии). В последних двух случаях получают объемный относительный и объемный средний показатели (соответственно – фондовооруженность и средняя стоимость основных фондов).
Расчетные показатели, вычисляемые по различным формулам, служат для решения отдельных статистических задач анализа – измерения вариации, характеристики структурных сдвигов, оценки взаимосвязи и т. д. Они также делятся на абсолютные, относительные или средние. В эту группу входят индексы, коэффициенты тесноты связи, ошибки выборки и прочие показатели, подробно рассмотренные ниже в соответствующих главах.
По временному фактору используемые в статистической практике показатели делятся на моментные и интервальные.
Моментные показатели характеризуют изучаемые социально-экономические процессы и явления по состоянию на определенную дату, начало или конец месяца, года, т.е. на определенный момент времени. К таким показателям относится численность населения, стоимость основных фондов, дебиторская задолженность и другие.
Интервальные показатели позволяют получать значения признаков за определенный период – день, неделю, месяц, квартал, год (производство продукции, число заключенных браков, сумма страховых выплат). Отличительной особенностью интервальных показателей является возможность их суммирования. Например, суммируя производство продукции предприятия по месяцам мы получаем общий объем производства за год.
В зависимости от принадлежности к одному или двум объектам изучения различают однообъектные и межобъектные показатели. Если первые характеризуют только один объект, то вторые получают в результате сопоставления двух величин, относящихся к разным объектам (соотношение численности населения городов Москвы и Санкт-Петербурга, соотношение численности детей дошкольного возраста и числа мест в детских дошкольных учреждениях и т. п.). Межобъектные показатели выражаются в форме относительных или средних величин.
С точки зрения пространственной определенности статистические показатели подразделяются на общетерриториальные, характеризующие изучаемый объект или явление в целом по стране, региональные и местные (локальные), относящиеся к какой-либо части территории или отдельному населенному пункту.
Так как отдельные свойства совокупности связанны между собой, то и статистические показатели, характеризующие эти свойства, не являются обособленными и образуют определенную систему показателей.
Система статистических показателей — совокупность статистических показателей, отражающая взаимосвязи, которые объективно существуют между явлениями.
Для каждой общественно-экономической формации характерна определенная система взаимосвязи общественных явлений, что обусловливает статистические показатели. Система статистических показателей охватывает все стороны жизни общества на различных уровнях: страны и региона (макроуровень), предприятий, фирм, объединений, семей и домохозяйств и т. д. (микроуровень).
7 базовых статистических понятий, необходимых дата-сайентисту
Даже если вы хорошо программируете, но слабо ориентируетесь в статистике, вероятность выжить в Data Science очень низка.
У статистики есть несколько различных определений. Одно из самых простых и точных — это «наука о сборе и классификации цифровых данных». А если добавить к нему немного о программировании и машинном обучении, то получится неплохое описание основ Data Science.
В самом деле, в Data Science трудно найти область, где нет статистики в том или ином виде. Она нужна для:
Мы выбрали семь базовых концепций, без которых в Data Science точно не обойтись. К счастью, они не слишком сложны.
С некоторых пор утверждает, что он data scientist. В предыдущих сезонах выдавал себя за математика, звукорежиссёра, радиоведущего, переводчика, писателя. Кандидат наук, но не точных. Бесстрашно пишет о Data Science и программировании на Python.
1. Меры описательной статистики
Ключевые показатели, применяемые в описательной статистике (их ещё называют мерами или, если точнее, мерами центральной тенденции), — это:
Посмотрите это небольшое видео о среднем, медиане и моде на сайте Академии Хана — образовательного ресурса, который славится доходчивыми объяснениями. Там всё просто, на понятном русском языке.
Кроме трёх перечисленных, есть и другие статистические показатели — например, меры рассеяния. Главная из них — дисперсия, о ней ниже. Все они нужны, чтобы понять, какие перед нами данные и о чём именно они рассказывают.
2. Распределение
Внешняя форма данных, выраженная в мерах описательной статистики, даёт нам информацию об их характере. Это как в жизни: по фигуре, походке и одежде человека обычно можно догадаться о его поле, возрасте и даже профессии. В случае числовых данных мы догадываемся о распределении.
Термин пришёл из теории вероятностей, которая рассматривает любое событие в мире как имеющее ту или иную вероятность. Однородные события хоть и происходят с разной вероятностью, но подчиняются распределению, которое «раздаёт» им эти вероятности.
В Data Science распределение понимается обобщённо: это закон соответствия одной величины другой. Оно подсказывает нам, какой именно процесс может скрываться за данными, и то, насколько эти данные полны. Чуть подробнее об этом в нашей статье про математику для джунов.
Возможно, вы уже слышали про колокол нормального распределения, или гауссиану: она описывает процессы, где результат является суммой многих случайных величин, каждая из которых слабо зависит от другой и вносит сравнительно небольшой вклад.
Величина ошибок измерения в физике, длина когтей, зубов и шерсти в биологии, объёмы речных стоков в гидрологии — все эти показатели имеют нормальное распределение. Это, пожалуй, самое распространённое в природе и не только в природе распределение, поэтому оно и названо нормальным.
Распределение Пуассона тоже часто встречается в работе дата-сайентистов и аналитиков: это число событий за какой-то промежуток времени — при условии, что события независимы друг от друга и имеют некоторый порог интенсивности.
Это и число посетителей в торговом центре, и количество голов, забитых футбольной командой, и скорость роста колонии бактерий.
Существуют и другие распределения, в том числе довольно экзотические: Вигнера, Вейбулла, Коши. Они встречаются намного реже или преимущественно в каких-то специальных областях вроде квантовой физики. Тем не менее дата-сайентисту нужно знать графики, параметры и названия основных распределений, благо их не так много.
3. Семплирование
Предположим, вам требуется решить важную задачу: выяснить среднюю ширину морды домашних котов нашей страны. Прямой способ, то есть измерение всех домашних питомцев, невозможен по ряду объективных причин. Придётся ограничиться выборкой — взять какое-то число животных, измерить морды именно им и сделать выводы по итогам только этих исследований.
Но тут сразу же возникают вопросы:
Семплирование — это группа статистических методов и приёмов, отвечающих на эти вопросы. С помощью семплирования мы формируем нашу выборку так, чтобы она наилучшим образом отражала свойства генеральной совокупности — то есть свойства всех котов страны.
Иными словами, вы не можете измерить N первых попавшихся котов и обобщить результат для остальных. Выборка должна хорошо «сидеть» во всей популяции кошек, чтобы можно было делать обоснованные выводы. Такую выборку называют релевантной.
Кстати, статистика и котики — близнецы-братья. После выхода одноимённой книги Владимира Савельева мы говорим «статистика», а подразумеваем «котики», и наоборот. И смело рекомендуем эту книгу всем, кто дочитал до этого места.
В Data Science методы семплирования применяются при разработке, подготовке и оценке датасетов, чтобы они одновременно и были упорядоченными, и соответствовали реальности.
4. Смещение
Прочитайте нашу статью о создании простой модели машинного обучения. Она предсказывает город, в который вероятнее всего поедет турист, на основании его возраста, пола, места жительства, дохода и транспортных предпочтений. Такая рекомендательная система на минималках.
Смещение происходит, когда модель недооценивает или переоценивает какой-либо параметр. Представим, что модель из статьи выше отправляет всех краснодарцев в Париж — независимо от их дохода, предпочтений и других параметров. В этом случае мы скажем, что модель переоценивает значение параметра «Город проживания».
Чаще всего причиной смещения являются:
Когда мы неверно собираем данные, говорят о систематической ошибке отбора. Например, в прошлом веке многие считали, что во Вселенной больше голубых галактик, — впечатление возникало потому, что плёнка была более чувствительна к голубой части спектра.
Другая ошибка — ошибка меткого стрелка — происходит, когда мы вольно или невольно отбираем в выборку только схожие между собой данные, то есть фактически рисуем мишень вокруг места, куда попадём.
Причин, вызывающих смещение, так много, что Марк Твен заметил: «Существует три вида лжи: ложь, наглая ложь и статистика». Например:
Эти и другие ошибки смещения трудно выявить статистическими методами, поэтому нужно стараться избежать их до того, как вы начнёте сбор данных.
Если пить «Боржоми» уже поздно (датасет уже сформирован), обязательно спросите себя: «Не смещены ли мои данные?» — а они наверняка смещены, «Куда и почему они смещены?» и «Можно ли с этим жить?»
5. Дисперсия
Дисперсия — это величина, показывающая, как именно и насколько сильно разбросаны значения — например, предсказания модели машинного обучения или доход за рассматриваемый период. За точку, относительно которой эти значения разбросаны, берут истинное значение, целевую переменную или математическое ожидание, которое вычисляется теоретически и заранее.
Часто в качестве матожидания выступает обычное среднее арифметическое. Например, математическое ожидание количества очков при броске игрального кубика равно среднему арифметическому очков на всех гранях:
(1 + 2 + 3 + 4 + 5 + 6) / 6 = 21/6 = 3,5
Представьте себе тир, стрелка и мишень. Снайпер стреляет в стандартный круг, где попадание в центр даёт 10 баллов, в зависимости от удаления от центра количество баллов снижается, а крайние области дают всего 1 балл. Каждый выстрел стрелка — это случайное целое значение от 1 до 10.
Изрешечённая пулями мишень — отличная иллюстрация распределения. Дисперсия здесь — величина, обратная кучности попаданий: хорошая кучность означает низкую дисперсию, и наоборот.
6. Дилемма (компромисс) смещения и дисперсии
Смещение и дисперсия вместе составляют итоговую ошибку предсказания модели машинного обучения. В идеальном мире и смещение маленькое, и дисперсия низкая. На практике это связано в дилемму: уменьшение одной из величин неизбежно приводит к росту другой.
Если не вдаваться в детали, обучение модели — это построение функции, график которой лучше всего ложится на точки из тренировочного набора данных.
Модель может нарисовать нам довольно сложную и заковыристую функцию, график, который хорошо охватывает все точки в тренировочных данных. Но если наложить этот график на новые точки (то есть дать функции новые данные), она сработает хуже — так и получается смещение.
С другой стороны, обучение на разных тренировочных наборах или даже разных датасетах с большой вероятностью даст разброс в предсказаниях, то есть высокую дисперсию.
Более сложные модели дают низкое смещение, но чувствительны к шуму и колебаниям в новых данных, поэтому их предсказания разбросаны. Если при обучении наш снайпер будет учитывать незначимые факторы (вроде цвета мишени или направления магнитного поля Земли), то в другом тире, с другой винтовкой или в другую погоду точность его стрельбы упадёт.
Простые модели, напротив, упускают важные параметры и «бьют кучно, но мимо». Как другой снайпер, не приученный обращать внимание на ветер и расстояние до мишени.
В процессе настройки модели машинного обучения дата-сайентист всегда ищет компромисс между смещением и дисперсией, чтобы уменьшить общую ошибку предсказания.
Кстати, эта дилемма встречается не только в статистике и машинном обучении, но и в обучении людей. В исследовании 2009 года утверждается, что люди используют эвристику «высокое смещение + низкая дисперсия»: мы заблуждаемся, зато очень уверенно.
Учтите это, если захотите сделать свой ИИ более похожим на человека.
7. Корреляция
Когда изменения одной величины сопутствуют изменениям другой, говорят о корреляции. Главное, что необходимо о ней знать: корреляция не означает причинно-следственную связь.
Линейная корреляция — это когда изменения одной величины пропорциональны изменениям другой. Она может быть:
Статистическую связь между переменными исследуют с помощью корреляционного анализа. Его основная задача — оценить тесноту связи (это термин) между переменными, чтобы понять, какие переменные учитывать в модели, а какие нет.
И ещё раз, потому что действительно важно: корреляция ни в коем случае не означает причинно-следственную связь. Если два показателя скоррелированы, то далеко не факт, что они хоть как-то связаны.
Кстати, проект Spurious Correlations («Ложные корреляции») публикует графики корреляций между совершенно неожиданными статистическими показателями — например, количеством людей, утонувших в домашних бассейнах, и числом фильмов с участием Николаса Кейджа.
Имеет смысл время от времени заходить по этой ссылке с целью профилактики СПГС — синдрома поиска глубинной связи.
Заключение
Data Science — не просто комбинирование модных моделей в Jupyter-ноутбуке. Профессионалы в этой области глубоко понимают природу данных и то, как они могут помочь в принятии конкретных бизнес-решений.
Всё это изучалось в статистике задолго до того, как первый дата-сайентист набрал свой первый import pandas as pd. Статистика — фундамент всей современной науки о данных, включая машинное обучение, глубокие нейросети и даже искусственный интеллект.
В нашем курсе «Профессия Data Scientist» статистике уделено самое пристальное внимание. Вы не ударите в грязь лицом ни на тусовке статистиков, ни на настоящем DS-собеседовании. Приходите!
О чем молчит статистика
Фиксируется только то, что может быть измерено в цифрах
От чего зависит качество статистических данных? И почему они нередко подвержены искажениям?
Официальной статистикой является то, что легитимизировал Росстат
Из каких данных складывается федеральная статистическая отчетность?
Кто является адресатом статистики? Органы власти? Предпринимательские или иные сообщества? Общество в целом?
Возможности независимой статистики пока серьезно ограничены
Чем отличается госстатистика от независимой статистики? И какую статистику следует считать независимой? Существует ли она вообще?
Ольга Моляренко: Независимой для отдельных ведомств можно считать ту статистику, которая собирается и формируется по их сфере деятельности другим ведомством, не заинтересованным в положительной оценке искомого. Соответственно, независимой от государства статистикой можно считать производимую негосударственными организациями. Несмотря на развитие информационных технологий, потенциальные возможности независимой статистики пока серьезно ограничены. И не по политическим, а по финансово-экономическим причинам: выстраивание полноценной собственной системы сбора данных (или, например, проведение собственной переписи населения) весьма ресурсозатратно, мало кто, кроме собственно государства, может себе это позволить.
Иногда статистика фабрикуется под страхом наказания
В каких сферах жизни чаще всего встречается манипуляция статистикой?
Ольга Моляренко: Про криминальную статистику есть отдельное прекрасное исследование Марии Шклярук и Дмитрия Скугаревского с коллегами. Фабула проблемы там заключается в том, что само ведомство формирует и подает показатели, по которым оно потом оценивается и финансируется. Скажем, если на территории муниципалитета собирает данные отделение Росстата, иные федеральные и региональные органы, что-то подает он сам, и большинство показателей на том или ином уровне должны стыковаться, то альтернативных источников о криминальной ситуации нет, поэтому хоть как-то проверить качество ведомственных данных невозможно даже гипотетически. При этом, несмотря на декларируемую реформу и отказ от «палочно-галочной» системы, показатели, включая необходимость роста раскрываемости, фактически никто не отменял. Но в целом ведомственной статистикой можно назвать те количественные данные, которые орган власти формирует для своей деятельности или в ее рамках для собственной работы, а не для последующей передачи Росстату.
Не хватает мощностей для «освещения» теневой экономики
Существуют ли способы получения статистических данных в сфере теневой экономики?
Поскольку теневые доходы находятся вне поля зрения государства, можно, наверное, предположить, что в реальности наши граждане живут чуть лучше, чем явствует из официальной статистики?
Ольга Моляренко: Абсолютно. Любые данные можно использовать, если мы точно понимаем, когда, как, при каких условиях, с какими целями и кем они собирались. То есть данные могут не соответствовать реальности, но если мы четко понимаем, как они собирались, то можем судить о степени их достоверности.
Должна ли статистика быть проверяемой? Необходим ли ей аудит?
Ольга Моляренко: Реформа статистики в Китае в начале XX века стартовала как раз с аудита, в рамках которого были обнаружены существенные махинации с данными. Что касается России, потрясающе интересным для меня исследованием стала работа Дмитрия Рогозина с коллегами, которые провели методический аудит массовых опросов населения, в рамках которого выяснилась, что около 40 процентов бумажных анкет просто фабрикуется переписчиками. Я думаю, что аудит необходим, но не столько для вскрытия намеренных манипуляций данными, сколько для выявления проблем, которые из страха замалчивают исполнители.
На ваш взгляд, необходима ли независимость Росстата от политических или административных органов, равно как и от частного сектора?