что такое номинальный признак

Классификация признаков в статистике

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

Основная классификация
по характеру их выраженияпо способу измеренияпо отношению к характеризуемому объектупо характеру вариациипо отношению ко времени
1. Описательные1. Первичные или учитываемые1. Прямые (непосредственные)1. Альтернативные1. Моментные
2. Количественные2. Вторичные или расчетные2. Косвенные2. Дискретные2. Интервальные
3. Непрерывные

Признаки различаются способами их измерения и другими особенностями, влияющими на приемы статистического изучения. Это дает основание для классификации признаков (табл. 1.2).

Количественные признаки выражены числами. Они играют преобладающую роль в статистике. Таковы возраст человека, площадь пашни, заработная плата рабочих, население города, доход кооператива и т. д.

Первичные признаки характеризуют единицу совокупности в целом. Это абсолютные величины. Они могут быть измерены, сосчитаны, взвешены и существуют сами по себе, независимо от их статистического изучения. Например, площадь пашни, мощность двигателей на предприятии, численность населения города, число автомобилей, произведенных в стране.

Вторичные, или расчетные, признаки не измеряются непосредственно, а рассчитываются. Они являются продуктами человеческого сознания, результатом познания изучаемого объекта. Например, себестоимость единицы продукции, производительность труда, рентабельность, урожайность и т. п. Вторичные признаки представляют собой соотношения первичных признаков: деление объема выпущенной продукции на численность работников дает показатель производительности труда; деление суммы затрат на произведенную продукцию на число единиц данной продукции дает себестоимость и т. д.

Таковы возраст человека, поголовье коров на ферме, объем продукции завода, численность его рабочих.

Практически деление признаков на прямые и косвенные совпадает с их делением на первичные и вторичные. Признаки различаются в статистике и по характеру их вариации, т.е. по различиям их значений у разных единиц совокупности. Выделяются альтернативные признаки, которые могут принимать только два значения. Таковыми являются признаки обладания или необладания чем-то. Например, все садовые участки по признаку наличия посадок вишни можно разделить на имеющие посадки вишни и не имеющие их. Альтернативным признаком являются пол человека, место проживания (город, село), двигатель трактора (гусеничный или колесный).

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

К дискретным относятся количественные признаки, которые могут принимать только отдельные значения, без промежуточных значений между ними. Дискретные признаки, как правило, целочисленные. Это число членов семьи, количество этажей здания, комнат в квартире.

Моментные признаки характеризуют изучаемый объект в какой-то момент времени, установленный планом статистического исследования. Они существуют на любой момент времени и характеризуют наличие чего-либо: численность населения, стоимость фондов, количество скота, размеры жилой площади.

К интервальным относятся признаки, характеризующие результаты процессов. Поэтому их значения могут возникать только за интервал времени: год, месяц, сутки, но не на момент времени. Таковы число родившихся, умерших, объем промышленной продукции, надой молока, сумма полученной прибыли. Различие между моментными и интервальными признаками существенно при изучении динамики (см. гл. 9).

Источник

Классификация

Материал из MachineLearning.

Классификация — один из разделов машинного обучения, посвященный решению следующей задачи. Имеется множество объектов (ситуаций), разделённых некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется обучающей выборкой. Классовая принадлежность остальных объектов не известна. Требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества.

Классифицировать объект — значит, указать номер (или наименование класса), к которому относится данный объект.

Классификация объекта — номер или наименование класса, выдаваемый алгоритмом классификации в результате его применения к данному конкретному объекту.

В математической статистике задачи классификации называются также задачами дискриминантного анализа.

В машинном обучении задача классификации относится к разделу обучения с учителем. Существует также обучение без учителя, когда разделение объектов обучающей выборки на классы не задаётся, и требуется классифицировать объекты только на основе их сходства друг с другом. В этом случае принято говорить о задачах кластеризации или таксономии, и классы называть, соответственно, кластерами или таксонами.

Содержание

Типология задач классификации

Типы входных данных

Классификацию сигналов и изображений называют также распознаванием образов.

Типы классов

Классификация: формальная постановка

Вероятностная постановка задачи

Признаковое пространство

В зависимости от множества признаки делятся на следующие типы:

Часто встречаются прикладные задачи с разнотипными признаками, для их решения подходят далеко не все методы.

Примеры прикладных задач

Задачи медицинской диагностики

В роли объектов выступают пациенты. Признаки характеризуют результаты обследований, симптомы заболевания и применявшиеся методы лечения. Примеры бинарных признаков: пол, наличие головной боли, слабости. Порядковый признак — тяжесть состояния (удовлетворительное, средней тяжести, тяжёлое, крайне тяжёлое). Количественные признаки — возраст, пульс, артериальное давление, содержание гемоглобина в крови, доза препарата. Признаковое описание пациента является, по сути дела, формализованной историей болезни. Накопив достаточное количество прецедентов в электронном виде, можно решать различные задачи:

Ценность такого рода систем в том, что они способны мгновенно анализировать и обобщать огромное количество прецедентов — возможность, недоступная специалисту-врачу.

Предсказание месторождений полезных ископаемых

Признаками являются данные геологической разведки. Наличие или отсутствие тех или иных пород на территории района кодируется бинарными признаками. Физико-химические свойства этих пород могут описываться как количественными, так и качественными признаками. Обучающая выборка составляется из прецедентов двух классов: районов известных месторождений и похожих районов, в которых интересующее ископаемое обнаружено не было. При поиске редких полезных ископаемых количество объектов может оказаться намного меньше, чем количество признаков. В этой ситуации плохо работают классические статистические методы. Задача решается путём поиска закономерностей в имеющемся массиве данных. В процессе решения выделяются короткие наборы признаков, обладающие наибольшей информативностью — способностью наилучшим образом разделять классы. По аналогии с медицинской задачей, можно сказать, что отыскиваются «синдромы» месторождений. Это важный побочный результат исследования, представляющий значительный интерес для геофизиков и геологов.

Оценивание кредитоспособности заёмщиков

Эта задача решается банками при выдаче кредитов. Потребность в автоматизации процедуры выдачи кредитов впервые возникла в период бума кредитных карт 60-70-х годов в США и других развитых странах. Объектами в данном случае являются физические или юридические лица, претендующие на получение кредита. В случае физических лиц признаковое описание состоит из анкеты, которую заполняет сам заёмщик, и, возможно, дополнительной информации, которую банк собирает о нём из собственных источников. Примеры бинарных признаков: пол, наличие телефона. Номинальные признаки — место проживания, профессия, работодатель. Порядковые признаки — образование, занимаемая должность. Количественные признаки — сумма кредита, возраст, стаж работы, доход семьи, размер задолженностей в других банках. Обучающая выборка составляется из заёмщиков с известной кредитной историей. В простейшем случае принятие решений сводится к классификации заёмщиков на два класса: «хороших» и «плохих». Кредиты выдаются только заёмщикам первого класса. В более сложном случае оценивается суммарное число баллов (score) заёмщика, набранных по совокупности информативных признаков. Чем выше оценка, тем более надёжным считается заёмщик. Отсюда и название — кредитный скоринг. На стадии обучения производится синтез и отбор информативных признаков и определяется, сколько баллов назначать за каждый признак, чтобы риск принимаемых решений был минимален. Следующая задача — решить, на каких условиях выдавать кредит: определить процентную ставку, срок погашения, и прочие параметры кредитного договора. Эта задача также может быть решения методами обучения по прецедентам.

Источник

Что такое номинальный признак

Анализ содержания исторических источников нередко приводит к необходимости обработки качественной информации. Такая ситуация является типичной при изучении различных анкет, материалов переписей, личных карточек рабочих и т. д., а также при анализе нарративных источников. Формализация данных, содержащихся в источниках такого типа, характеризуется тем, что свойства (признаки) изучаемых объектов или явлений могут быть описаны лишь на качественном уровне, т. е. измерение этих признаков с помощью количественных шкал не представляется возможным.

Общая классификация типов признаков вводилась в гл. 2. Рассмотрим подробнее типы качественных признаков, которые разделяются на качественные признаки рангового (порядкового) и номинального (классификационного) типа (см. рис. 18).

Измерение по номинальной (простейшей из шкал) эквивалентно отнесению объекта к одному из классов по данному признаку. Частным случаем номинальной является шкала измерения альтернативных (дихотомических) признаков, т. е. шкала, включающая два класса (градации), соответствующих, например, наличию и отсутствию у объекта того или иного качества.

Порядковые шкалы-это более высокий уровень измерения качественных признаков. Градации рангового признака, измеренного в такой шкале, упорядочены по степени проявления соответствующего свойства. Ранговый признак задает не простую группировку объектов, как номинальный, а такую, при которой группы являются упорядоченными.

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признакчто такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признакРассмотрим несколько примеров качественных признаков различных типов. Номинальные признаки: наименование продукции, тип хозяйства, профессия, национальность, пол (последний признак является альтернативным). Ранговые признаки: сословие, образование, квалификация.

Основное внимание в данной главе уделяется важной проблеме измерения связи качественных признаков. Наиболее разработанными являются методы images/kachestv/лиза взаимосвязи качественных признаков с одинаковыми уровнями измерения.

§ 1. Анализ связи номинальных признаков

Традиционные меры связи. Традиционный подход к построению мер связи нормальных признаков основан на проверке предположения о статистической независимости рассматриваемых признаков.

Здесь буквами A и что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признакобозначены наименования двух классов по первому признаку, а В и что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак-по второму. Числа в клетках табл. 1 определяют численности объектов, обладающих сочетанием соответствующих свойств. Так, с равно числу объектов, обладающих свойством A и не обладающих свойством В.

Пример 1. По выборочным данным, относящимся к концу XIX в., изучим зависимость между размером имения и типом хозяйства.

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признакКак следует из табл. 2, число, например, крупных хозяйств отработочного типа равно 40; общее число крупных хозяйств (a+b) равно 50, а общее число хозяйств отработочного типа (a+c)-65.

Условие статистической независимости признаков в данном случае эквивалентно требованию, чтобы, например, доля крупных хозяйств среди имений отработочного типа была равна доле крупных хозяйств во всей изучаемой совокупности, т. е. чтобы

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

то рассматриваемые признаки являются взаимосвязанными. Данные табл. 2 показывают, что ad=40*45, bc=10*25, т. е. ad-bc>0, что указывает на наличие связи типа хозяйства с размером имения.

Для оценки степени связи альтернативных признаков используют обычно следующие два коэффициента:

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

Таким образом, числовые значения коэффициентов Q и Ф для одних и тех же данных могут существенно отличаться друг от друга, поскольку эти коэффициенты измеряют различные аспекты взаимосвязи в 4-клеточной таблице. Ф предназначен для измерения степени двусторонней взаимосвязи между рассматриваемыми альтернативными признаками, в то время как Q отражает лишь односторонненаправленную связь. Значения этих коэффициентов совпадают лишь при наличии полной двусторонней взаимосвязи: что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак. Так, определение величины коэффициентов Q и Ф для данных табл. 2 приводит к следующим результатам:

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

Оба коэффициента Q и Ф в данном примере принимают положительные значения, т. е. связь между рассматриваемыми признаками прямая (наличие свойства A связано, как правило, с наличием свойства B).

Довольно высокое значение коэффициента связи Q (0,76) определяется тем, что абсолютное большинство крупных хозяйств (40 из 50, т. е. 80%) относится к отработочному типу. Величина коэффициента сопряженности Ф (0,44) значительно уступает величине Q. Это связано с тем, что связь данных признаков носит преимущественно односторонний характер (среди крупных хозяйств отработочные составляют 80%, в то время как среди хозяйств отработочного типа около 40% (25 из 65) составляют мелкие хозяйства).

Перейдем теперь к вопросу о построении стандартных мер связи номинальных признаков общего вида.

Пусть имеются два номинальных признака, число градаций (классов) которых равно l и m. Данные об их взаимосвязи могут быть представлены в виде следующей таблицы сопряженности (табл. 3).

Здесь ni обозначает число объектов, относящихся к i-му классу по первому признаку и к j-му-по второму признаку. Так, например, если n3.5=7, то число объектов, относящихся к 3-му классу по первому признаку и к 5-му классу по второму, равно 7. что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

Через ni. в табл. 3 обозначено общее число объектов f-го класса по первому признаку (т. е. сумма чисел в i-й строке), а через n.j-число объектов j-го класса по второму признаку (сумма чисел в /-м столбце). N-общее число объектов в изучаемой совокупности;

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

Для оценки существенности связи двух номинальных признаков на основе принципа статистической независимости вначале ответим на вопрос-какими были бы частоты в клетках табл. 3, если бы рассматриваемые признаки были независимыми?

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

Как следует из формулы (8.4), значение коэффициента X 2 тем меньше, чем меньше различия между числами nij и что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак; X 2 =0, когда nij= что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признакдля всех клеток табл. 3.

Формула (8.4) легко преобразуется к следующему виду:

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

в котором она обычно и используется на практике. что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

Уровень значимости (&#945) означает вероятность риска ошибиться, отвергая гипотезу о статистической независимости (см.гл.9,§ 4).

Удобство использования критерия X 2 на практике определяется наличием таблиц, содержащих критические значения этого критерия для различных уровней значимости и размерностей задачи (такая таблица содержится и в данном учебном пособии-табл. 3 приложения). В этой таблице слева указано число степеней свободы k (размерность задачи), а сверху-уровень значимости а. В нашей задаче images/kachestv/лиза таблицы сопряженности номинальных признаков число степеней свободы определяется по формуле

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

где l и m, как и ранее, обозначают число градаций рассматриваемых признаков. Уровень значимости а обычно выбирают равным 0,01; 0,05 или 0,10.

Критическое значение Х 2 кр определяется по табл. 3 приложения на пересечении строки, соответствующей данной величине k, и столбца, соответствующего выбранному уровню значимости а.

Пример 2. Поясним методику применения критерия X 2 на следующем иллюстративном примере.

Определим значение коэффициента X 2 для данных табл. 4 по формуле (8.5):

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

Число степеней свободы в данном случае равно k=(3-1)(2-1)=2. Выберем величину уровня значимости равной &#945=0,01. Как следует из табл. 3 приложения, критическое значение X 2 в этом случае равно 9,21. Это означает, что значение, равное или большее этой величины, может встретиться только один раз из ста (так как a=1/100) при условии, что гипотеза о статистической независимости верна. Поскольку в нашем примере значение X 2 =57.56>9.21, то связь между типом хозяйства и сословием владельца следует считать существенной. Нет и одного шанса из ста, что этот вывод получен вследствие случайных факторов.

Если бы значение X 2 в данном примере получилось меньшим чем 9,21, то это означало бы, что images/kachestv/лизируемые данные (табл. 4) согласуются с гипотезой о статистической независимости признаков и не дают оснований отвергнуть эту гипотезу (при данном уровне значимости &#945).

Итак, с помощью критерия X 2 можно оценить величину риска в принятии предположения о существовании связи. Однако установив факт наличия связи между признаками, исследователь должен измерить ее силу, чтобы иметь возможность сравнивать степень взаимосвязи между различными признаками, сопоставлять результаты, полученные в различных исследованиях.

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

где через min(l-1, m-1) обозначено минимальное из чисел (l-1, m-1).

Коэффициенты Т 2 и К, 2 принимают значение в интервале [0, 1]. Минимальное-нулевое-значение они имеют тогда и только тогда, когда признаки статистически независимы. Значение 1 коэффициент T 2 принимает при полной связи между признаками только в том случае, если число градаций обоих признаков одинаково (l=m); во всех других случаях даже при полной связи коэффициент Чупрова меньше единицы. Наибольшее значение, равное единице, коэффициент Крамера принимает при полной связи признаков независимо от того, равны ли между собой число строк (l) и число столбцов (m) таблицы сопряженности.

Заметим, что коэффициенты Т и К эквивалентны, когда l=m; в остальных случаях T

Числовое значение рассмотренных коэффициентов связи номинальных признаков остается неизменным при перестановке местами строк или столбцов таблицы сопряженности. Эти коэффициенты всегда выражаются неотрицательными числами (заключение о знаке связи здесь лишено смысла); поэтому выяснение характера зависимости, ее специфических черт должно определяться по таблице сопряженности.

Действительно, при измерении связи количественных признаков (см. гл. 6, § 2) знак коэффициента корреляции характеризует направление связи: если с увеличением значений признака X в среднем увеличиваются и значения признака Y, то знак rxy положителен; если же тенденции к изменению значений этих признаков противоположны, то rxy

При нарушений этого условия следует либо уменьшить степень дробности группировки признаков (число градаций), либо обратиться к другому критерию.

Теоретико-информационные меры связи. Развитие математико-статистических методов в последние десятилетия привело к появлению нового подхода к проблеме оценки связи качественных признаков. В основе этого подхода лежит представление о том, что мера связи признаков должна не столько оценивать степень их статистической независимости, сколько характеризовать возможность прогноза значений одного из признаков по значениям другого.

Самый точный прогноз достигается в ситуации, когда для каждого из значений одного признака можно однозначно указать соответствующее значение второго. Мера связи в этой ситуации, соответствующей «полной связи» между признаками, должна принимать максимальное значение, равное 1. Критерием отсутствия связи в рамках данного подхода обычно также считается статистическая независимость признаков; в этом случае мера связи должна принимать минимальное, нулевое, значение.

Таким образом, современная трактовка понятия «полная связь» между признаками Х и Y означает, что знание значения признака Х устраняет всякую неопределенность в знании значения признака Y. Для уменьшения неопределенности необходимо получить некоторое количество информации. Измерение статистической связи признаков сводится здесь к оценке относительно уменьшения неопределенности Y при получении знания об X.

Пример 3. Поясним сказанное на примере данных табл. 4, содержащей иллюстративные сведения о сопряженности признаков «сословие» (X) и «тип хозяйства» (Y). Знание значения признака Х в данном примере существенно снижает неопределенность в знании значений признака Y. Так, если Х принимает значение x3 («дворяне»), то Y почти наверняка (с вероятностью 0,93=50/60) принимает значение y1 («отработочный тип»). Если Х=x2 («крестьяне»), то неопределенность в знании Y также существенно снижается: с вероятностью 0,80=40/50 Y=y2 («капиталистический тип») и т. д. Отметим, что неопределенность в знании значений признака Y, взятого отдельно, высока-вероятности значений y1 и y2 равны 0,46=65/140 и 0,54=75/140 соответственно.

Количественный images/kachestv/лиз неопределенности и информации осуществляется на основе результатов теории информации, начало которой было положено в конце 1940-х годов. Основным, фундаментальным понятием теории информации является энтропия-мера неопределенности. Применительно к нашей задаче images/kachestv/лиза качественных признаков энтропия может быть определена следующим образом.

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признакчто такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

где logpi,-логарифм при основании 2 от величины pi.

При images/kachestv/лизе эмпирических данных роль вероятностей p1 играют их выборочные оценки (частости, доли) ni/N, где N-общее число объектов в выборке; ni-число объектов i-го класса xi.

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признакПоскольку максимальное значение энтропии (log m) зависит от числа классов т, то на практике часто используют нормированную энтропию H*=H/logm, которая принимает значения в интервале [0,1]. Зависимость величины Н* от распределения вероятностей иллюстрируется графически на рис. 19 (m=4; число над каждым столбиком обозначает величину соответствующей вероятности рi,).

Н*(Х)=-[(30/140)*log(30/140)+(50/140)*log(50/140)+(60/140)*log(60/140)]/log 3 = 0,89;

Таким образом, мера неопределенности обоих признаков оказывается (по данным табл. 4) весьма высокой.

Отметим, что чувствительность величины энтропии к отклонениям от равномерного распределения частот послужила причиной активного использования энтропийного images/kachestv/лиза в исторических исследованиях для оценки степени социально-экономического неравенства, имущественной дифференциации.

Перейдем теперь к определению понятия «количество информации», особенно важного для построения мер связи качественных признаков. Пусть знание значений признака Х уменьшает неопределенность в знании значений признака У. Оставшуюся меру неопределенности обозначают Hx(Y) и называют условной энтропией. Количество информации I(XY) определяется как уменьшение неопределенности признака Х за счет информации, полученной о связи Х и У:

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

В теории информации показано, что количество информации I(XY) может быть вычислено по формуле

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

При images/kachestv/лизе эмпирических таблиц сопряженности (вида табл. 3) роль вероятностей pi.., р.j и pij играют соответствующие доли ni./N, n.j/N и nij/N.

Формула (8.11) для количества информации симметрична относительно Х и Y, т. е. I(XY)=I(YX), поэтому I(XY) называют также взаимной информацией Х и У.

Взаимная информация обращается в нуль тогда и только тогда, когда признаки Х и Y статистически независимы. Максимальное значение взаимной информации, равное H(X) или H(Y), соответствует функциональной зависимости (полной связи) признаков Х и У, когда каждому значению хi признака Х соответствует единственное значение yi признака Y.

Пример 4. Обратимся вновь к данным табл. 4. Как уже было определено выше, при уровне значимости a=0,01 и числе степеней свободы k=2 критическое значение X 2 кр=9,21. Следовательно, в данном случае Iкр=X 2 /2N=9,21/(2*140)=0,033. Вычисление по формуле (8.11) взаимной информации для признаков Х и Y по данным табл. 4 приводит к величине Iф(ХY)=0,321. Имеем IФ(XY)>Iкр, следовательно, гипотеза о независимости Х и Y на данном уровне значимости &#945=0,01 неверна (нет и одного шанса из ста, что признаки Х и Y независимы).

Установив факт существенности связи признаков, далее следует измерить ее силу. Наибольшее распространение получила мера связи, для построения которой необходимо пронормировать взаимную информацию I(XY) на H(XY):

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

где H(XY)-энтропия совместного распределения признаков X и Y, вычисляемая по формуле

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

Мера зависимости R(XY) (называемая также симметричным информационным коэффициентом связи) обладает следующими свойствами:

1) что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак; 2) R(XY)=0 тогда и только тогда, когда X и Y независимы; 3) R(XY)=1 тогда и только тогда, когда Х и Y функционально зависимы.

Пример 5. Вычисление коэффициента R(XY) по данным табл. 4 приводит к значению R(XY)=0,321/1,977=0,16, что значительно ниже значений коэффициентов T и K, подсчитанных выше для тех же данных. R(XY) дает «осторожную» оценку силы связи.

Отметим, что наряду с симметричной мерой зависимости R(XY) получили распространение и асимметричные (направленные) меры зависимости, например:

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

Однако использование этих коэффициентов для разделения признаков на «зависимые» и «определяющие» не имеет достаточного обоснования.

Завершая рассмотрение теоретико-информационных мер связи, укажем, что их построение может осуществляться не только на основе энтропии. Важным примером такой меры служит коэффициент Валлиса, реализующий принцип «пропорциональной предикции», согласно которому мерой связи должно служить относительное уменьшение вероятности ошибки предсказания признака Y при знании признака Х в сравнений с вероятностью ошибки прогноза Y без знания X. Коэффициент Валлиса вычисляется по формуле

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

Свойства коэффициента Валлиса аналогичны свойствам коэффициента R(XY), за тем лишь исключением, что Wy/x=1, когда возможен однозначный прогноз Y по Х (но не наоборот). Интерпретация коэффициента Валлиса весьма проста: если, например, Wy/x=0,50, то знание Х уменьшает число ошибок прогноза вдвое.

Для данных табл. 4 этот коэффициент равен Wy/x=0,41. Отметим, что в выборочных исследованиях предпочтительнее пользоваться не коэффициентом Валлиса, а информационными мерами связи, значимость которых может быть установлена в соответствии с изложенной выше методикой. Информационные меры связи получили применение в исторических исследованиях, в частности при обработке массовых источников по социально-экономической истории советского общества.

§ 2. Анализ связи ранговых признаков

Меры взаимосвязи между парой признаков, каждый из которых ранжирует изучаемую совокупность объектов, называются в статистике коэффициентами ранговой корреляции. Эти коэффициенты строятся на основе следующих трех свойств:

а) если ранжированные ряды по обоим признакам полностью совпадают (т. е. каждый объект занимает одно и то же место в обоих рядах), то коэффициент ранговой корреляции должен быть равен +1, что означает полную положительную корреляцию;

в) в остальных ситуациях значения коэффициента заключены в интервале [-1, 1]; возрастание модуля коэффициента от 0 до +1 характеризует увеличение соответствия между двумя ранжированными рядами.

Коэффициент ранговой корреляции Спирмена вычисляется по формуле

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

где di-разность между парами рангов для i-ro объекта; n-число сопоставляемых пар рангов (объектов).

Пример 6. Поясним технику вычисления коэффициента р на следующем иллюстративном примере.

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

т. е. связь между данными признаками прямая и довольно высокая.

Коэффициент ранговой корреляции Кендалла вычисляется по формуле

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

где S определяется таким образом, как показано в примере 7.

Пример 7. Обратимся вновь к данным табл. 5. Таблица упорядочена так, что в столбце «Ранг I» ранги расположились в порядке возрастания их значений (это существенно для вычисления S). Первые четыре столбца табл. 5 при вычислении &#964 такие же, как и при вычислении &#961, а последние два столбца здесь заменяются следующими:

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

Коэффициент Кендалла &#964 дает более осторожную оценку корреляции, чем коэффициент Спирмена &#961 (числовое значение &#964 всегда меньше, чем &#961). Хотя вычисление коэффициента &#961 менее трудоемко, чем вычисление коэффициента &#964, последний легче пересчитать, если к ряду добавляется новый член.

Важное достоинство коэффициента &#964 состоит в том, что с его помощью можно определить коэффициент частной ранговой корреляции, позволяющий оценить степень «чистой» взаимосвязи двух ранговых признаков, устранив влияние третьего:

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

При ранжировании объектов нередко возникает ситуация, когда два (или большее число) объектов получают одинаковые ранги (такие объекты называют связанными). Расположение студентов в соответствии с их экзаменационными оценками является известным примером такого рода связей. В этом случае значение ранга связанных объектов берется равным среднему значению тех рангов, которые имели бы эти объекты, если они были бы различны.

Пример 8. Пусть по небольшой выборке, включающей 7 хозяйств, изучается взаимосвязь между размером имения и сословием владельца, приведенными в табл. 6.

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

Значимость коэффициентов ранговой корреляции. При определении силы ранговой корреляции на основе выборочных данных необходимо рассмотреть следующий вопрос: с какой степенью надежности можно полагаться на заключение о том, что в генеральной совокупности существует корреляция, если получен некоторый выборочный коэффициент ранговой корреляции. Другими словами, следует проверить значимость наблюдавшихся корреляций рангов исходя из гипотезы о статистической независимости двух рассматриваемых ранжировок.

При сравнительно большом объеме п выборки проверка значимости коэффициентов ранговой корреляции может осуществляться с помощью таблицы нормального распределения ( табл. 1 приложения ). Для проверки значимости коэффициента Спирмена &#961 (при n>20) вычисляют значение

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

а для проверки значимости коэффициента Кендалла &#964 (при n>10) вычисляют значение

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

Далее задаются уровнем значимости &#945, определяют по табл. 1 приложения критическое значение tкр и сравнивают с ним вычисленное значение (ts) или (tk).

Пример 9. Проверим значимость коэффициента т для данных табл 6 (вычисления проделаем лишь для иллюстрации, так как объем выборки здесь меньше 10, n=7). По формуле (8.20):

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

По табл. 1 приложения находим, что tкр=1,96, если &#945=005 Поскольку tk>tкр, то &#964-значим.

При малых выборках проверка значимости коэффициентов ранговой корреляции проводится с помощью специальных таблиц, построенных на основе более сложных критериев.

Множественный коэффициент ранговой корреляции W. Этот коэффициент (называемый также коэффициентом конкордации) предназначен для измерения связи произвольного числа ранговых признаков. Поясним способ вычисления W на следующем примере.

Пример 10. Пусть имеются n=7 хозяйств, характеризующихся набором из m=3 ранговых признаков (табл. 7). В пятом столбце табл. 7 приводятся суммы рангов, полученных каждым объектом.

Если ранжировки объектов по разным признакам совпадают (или близки), то суммарные ранги объектов будут сильно различаться. Если же все m ранжировок слабо согласованы, то суммарные ранги объектов будут почти одинаковыми и близкими к их средней сумме, равной что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

Значения W заключены в интервале [0, 1]. Равенство W нулю означает полную несогласованность m ранжировок; если же W=1, то все m ранжировок совпадают.

Определим значение W по данным табл. 7. Здесь что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признакS’=28,

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

т. е. данные три ранжировки согласованы весьма слабо.

Значимость полученной величины W может быть проверена по критерию X 2 :

что такое номинальный признак. Смотреть фото что такое номинальный признак. Смотреть картинку что такое номинальный признак. Картинка про что такое номинальный признак. Фото что такое номинальный признак

с числом степеней свободы k=n-1. В данном примере X 2 ф=2,00; k=6. Для уровня значимости a=0,01 из табл. 3 приложения находим критическое значение X 2 кр=16,81. Поскольку фактическое значение Х 2 ф меньше критического, гипотеза об отсутствии связи между рассматриваемыми ранговыми признаками не отклоняется, т. е. коэффициент W в данном случае не является значимым.

Прикладные аспекты ранговой корреляции. Как уже отмечалось, коэффициенты ранговой корреляции могут использоваться не только для images/kachestv/лиза взаимосвязи двух ранговых признаков, но и при определении силы связи между ранговым и количественным признаками. В этом случае значения количественного признака упорядочиваются и им приписываются соответствующие ранги.

Существует ряд ситуации, когда вычисление коэффициентов ранговой корреляции целесообразно и при определении силы связи двух количественных признаков. Так, при существенном отклонении распределения одного из них (или обоих) от нормального распределения определение уровня значимости выборочного коэффициента корреляции r становится некорректным, в то время как ранговые коэффициенты ρ и τ не сопряжены с такими ограничениями при определении уровня значимости.

Другая ситуация такого рода возникает, когда связь двух количественных признаков имеет нелинейный (но монотонный) характер. Если количество объектов в выборке невелико или если для исследователя существен знак связи, то использование корреляционного отношения η может оказаться здесь неадекватным. Вычисление же коэффициента ранговой корреляции позволяет обойти указанные трудности.

Завершая рассмотрение проблем images/kachestv/лиза взаимосвязи, отметим следующие существенные положения.

1) Величины мер связи признаков различной природы не сравнимы между собой. Например, если величина коэффициента ранговой корреляции τxy оказалась выше величины коэффициента ассоциации Qzv, то это не означает, что связь ранговых признаков Х и Y «сильнее», чем связь альтернативных признаков Z и V.

С этими проблемами исследователь не сталкивается в том случае, когда все анализируемые признаки характеризуются одинаковым уровнем измерения.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *