корпус исторических материалов что это такое простыми словами

Корпус исторических материалов что это такое простыми словами

(c) » Информационные технологии и письменное наследие «, 2008-2020

Часть задач решается с помощью международных стандартов и рекомендаций, другая часть выполняется на основе стандартов, средств и возможностей, зависящих от выбранной для реализации корпуса технологической платформы, а также предшествующего опыта, традиций и предпочтений коллектива.

Понятно, что разработка, создание и технологическая, лингвистическая и методическая поддержка – это большая работа по подготовке машиночитаемых копий средневековых письменных памятников и их разметке, по созданию инструментов для обработки, анализа и демонстрации данных, по поиску специальных методов анализа данных такого корпуса.

Впечатляющие успехи в области корпусной лингвистики на основе современного текстового материала, а также понятные многообещающие перспективы использования исторических корпусов для решения фундаментальных и прикладных историко-лингвистических задач настолько очевидны, что, несмотря на все сложности, массив машиночитаемых копий древнейших и средневековых рукописей и текстов в разных странах год от года все более увеличивается.

В ноябре 2011 года на портале открыт корпус М.В.Ломоносова (http://lomonosov.pro), который содержит более 1150 текстов Полного собрания сочинений, включающих более 1 млн. 127 тыс. словоупотреблений.

– модуль запросов (простой и расширенный поиск), обеспечивающий возможность получения сравнительных формо- и словоуказателей и конкордансов нескольких рукописей, а также просмотр самих текстов ( http://manuscripts.ru/mns/srch.simple ) (рис. 2);

– модуль параллельных корпусов и электронных критических изданий, позволяющий демонстрировать в Интернете текстологические и лингвистические соответствия списков одного текста; на базе этого модуля создается электронное критическое издание текста майской служебной минеи в Интернете на основе славянских списков XI-XIII вв. и греческого текста (http://manuscripts.ru/mns/cred.cred) (рис. 3), параллельные корпуса славянских Евангелий (http://manuscripts.ru/mns/portal.main?p1=30) и русских летописей (http://manuscripts.ru/mns/portal.main?p1=23);

– модуль статистики, дающий возможность осуществлять количественный анализ графических и лингвистических единиц базы данных «Манускрипт» и выявлять их распределение в пределах рукописей (http://manuscripts.ru/mns/cred.stat) (рис. 4);

Аннотированный и размеченный исторический корпус системы «Манускрипт», содержащий более 3,5 млн. текстовых форм, позволяет ставить и решать разнообразные историко-лингвистические задачи, а разработанные коллективом полнотекстовая база данных, технологии хранения, обработки и визуализации данных, несомненно, являются необходимым шагом на пути создания многофункциональных исторических корпусов славянских рукописей и старопечатных книг.

корпус исторических материалов что это такое простыми словами. Смотреть фото корпус исторических материалов что это такое простыми словами. Смотреть картинку корпус исторических материалов что это такое простыми словами. Картинка про корпус исторических материалов что это такое простыми словами. Фото корпус исторических материалов что это такое простыми словами

Рис. 1. Интерфейс редактора Olded

корпус исторических материалов что это такое простыми словами. Смотреть фото корпус исторических материалов что это такое простыми словами. Смотреть картинку корпус исторических материалов что это такое простыми словами. Картинка про корпус исторических материалов что это такое простыми словами. Фото корпус исторических материалов что это такое простыми словами

Рис. 2. Визуализация обратного формоуказателя двух рукописей

корпус исторических материалов что это такое простыми словами. Смотреть фото корпус исторических материалов что это такое простыми словами. Смотреть картинку корпус исторических материалов что это такое простыми словами. Картинка про корпус исторических материалов что это такое простыми словами. Фото корпус исторических материалов что это такое простыми словами

Рис. 3. Параллельный корпус майской служебной минеи

корпус исторических материалов что это такое простыми словами. Смотреть фото корпус исторических материалов что это такое простыми словами. Смотреть картинку корпус исторических материалов что это такое простыми словами. Картинка про корпус исторических материалов что это такое простыми словами. Фото корпус исторических материалов что это такое простыми словами

Рис. 4. Распределение и десятеричного в Остромировом (1056-1057 гг.) и Архангельском (1092 г.) Евангелиях (шаг подсчета – 20 стихов).

«Исторический корпус Манускрипт: особенности источников, разметки, запросов и демонстрации данных»

1) Исторический и современный корпуса: соответствия, аналогии, различия.

Корпус как цель и инструмент историко-лингвистических исследований. Проблема объема, полноты и сбалансированности. Соотношение транскрипции и оригинала. Объекты аннотирования: рукопись, текст, фрагмент, лингвистическая единица. Особенности разметки единиц корпуса. Требования к запросным формам и формам вывода данных.

2) Общая характеристика исторического корпуса Манускрипт: модель данных, принципы и способы подготовки транскрипции и разметки.

Модель базы данных информационно-аналитической системы «Манускрипт»: единицы, свойства, значения. Модули администрирования. Инструментарий создания электронных копий документов: ввод, корректура и разметка рукописи, текста, фрагментов и словоформ. Автоматический морфологический анализатор: модель и единицы базы данных, способы снятия вариативности, результаты лемматизации.

Практикум 1 : Корпус как инструмент поиска данных и демонстрации данных: простая и расширенные запросные формы.

Доступ к корпусу. Однотекстовые и многотекстовые запросные формы: параметры запроса и формы вывода данных. Простая и расширенная формы запроса. Виды маски искомых лингвистических единиц: точный и неточный поиск, поиск на основе современных соответствий и регулярных выражений. Демонстрация текста, конкордансов и перечней словоформ и лемм.

Параллельные корпуса на основе средневековых рукописей: подготовка запроса и демонстрация результатов.

Модуль статистики: особенности подкорпуса, параметры запроса, форма вывода данных. Выравнивание списков. Единицы выборки. Режимы демонстрации выборок. Абсолютные и относительные данные. Демонстрация текстовых примеров.

Баранов, В. А. От оцифрованных коллекций средневековых рукописей к электронным многофункциональным интернет-библиотекам // Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам : материалы междунар. науч. конф. (Ижевск, 13–17 июля 2006 г.) / отв. ред. В. А. Баранов. – Ижевск : Изд-во ИжГТУ, 2006. – С. 3-9. https://drive.google.com/file/d/0BwBejXXryRcRMzFkODY1MTUtNTBkOS00MWE4LTkzNWQtZWQ4MGUzNWJiZjAy/view?usp=sharing

Источник

Особенности корпуса исторических источников XVIII – начала XX вв.

План

1. Основные черты нового периода истории России: изменения в экономической, политической, социальной и духовной жизни общества.

2. Общая характеристика исторических источников XVIII – начала XX в.: количественный рост, упрощение содержания, публикация источников.

3. Появление новых разновидностей исторических источников, их характеристика. Понятие о массовых источниках, учетной документации, статистике.

4. Периодическая печать и публицистика нового времени. Особенности их источниковедческого анализа и синтеза.

Методические рекомендации

На рубеже XVII-XVIII в. в России происходят кардинальные изменения: формируются капиталистические отношения, начинается форсированное строительство казенных заводов по основным стратегически важным для государства производствам, перестраивается вся административная система на основе принципов унификации, централизации, дифференциации функций аппарата управления. Реформы Петра I стали примером догоняющего развития или модернизации, при которой организация государственного управления передовых стран становится образцом для подражания, моделью желательного переустройства. Петровская модернизация означала резкий разрыв традиций и воспринималась современниками, как начало новой эры.

Важнейшей особенностью исторических источников нового времени стал их количественный рост. Студенты должны разобраться в том, какие причины привели к увеличению корпуса источников. Здесь следует отметить их увеличение в государственной сфере, связанное с изменением характера законотворчества. Петр I был твердо убежден, что главным регулятором жизни государства являются законы, с их помощью можно изменить любые отношения в обществе, любой порядок вещей. Бюрократизация государственного аппарата требовала усиления контроля за выполнением закона и приводила к возрастанию роли делопроизводственных материалов. Кроме того, исторические источники возникали не только в государственной сфере, но и в личной. Это стало результатом индивидуализации человека, увеличения мобильности населения, роста грамотности. Источники нового времени возникали в государственной, общественной, личной сферах. Наблюдается стандартизация, упрощение содержания официальных и неофициальных материалов. Данные тенденции в большей степени характерны для законодательства и делопроизводства.

Важнейшей особенностью источников нового времени стала обязательная публикация большинства из них: периодической печати, мемуаристики, публицистических произведений, законодательных актов и т.п. Расчет на публикацию накладывал определенный отпечаток на содержание источников, так как авторы, создавая произведение, учитывали его дальнейшее существования.

В XVIII в. появляются новые виды исторических источников. Одним из них стали массовые источники. Понятие «массовые источники» вошло в научный оборот только в конце 1970-х гг. Чаще всего главным признаком массовых источников считают их множественность. Но это далеко не так. При ответе на данный вопрос студентам следует обратиться к определению, которое дает массовым источникам И. Д. Ковальченко: «Массовыми являются источники, характеризующие такие объекты действительности, которые образуют определенные общественные системы с соответствующими структурами. Они отражают сущность и взаимодействие массовых объектов, составляющих эти системы, а, следовательно, строение, свойства и состояние самих систем». Историки считают, что главными признаками массовых источников являются: однородность, ординарность обстоятельств происхождения, однотипность формы, тяготеющая к стандартизации, наличие четко определенного формуляра.

Примером массовых источников являются материалы учетного характера. Сюда относятся документы фискального, административного, хозяйственного учета, составлявшиеся для контроля реализации управленческих решений. Студенты могут рассмотреть особенности этого вида исторических источников на примере материалов подушных переписей, проводившихся в России с 1718 г. и получивших название ревизий или на примере формулярных списков чиновничества. Материалы ревизского учета включают в себя: ревизские сказки, перечневые ведомости, окладные книги и генеральные табели. Следует рассмотреть формуляры этих материалов.

Появление периодической печати также следует отнести к началу XVIII в. Основными функциями периодической печати являлись организация общественного мнения, осуществление идеологического воздействия государства. Становление периодической печати в России происходило гораздо позднее, чем в Западной Европе и более медленными темпами. Так, в первой четверти XVIII в. в России выходила лишь одна газета, в то время как в странах Западной Европы несколько десятков. Русская периодика принадлежала казне и до конца XVIII в. была сосредоточена в Москве и Санкт-Петербурге. Студенты должны дать краткую характеристику видам периодических изданий; определить, что такое газета, журнал; как осуществляется их классификация.

— публицистика массовых народных движений;

— проекты государственных преобразований и конституций.

Особенностью публицистических произведений второй половины XVIII в. является тенденция сращивания публицистики с периодической печатью. В XIX в. широкое распространение получает практика подготовки публицистических произведений на заказ для обязательной публикации на страницах периодической печати. В начале XX в. эта тенденция усиливается: появляются партийная печать и публицистика партийных лидер ов. Студенты должны четко представлять себе, что публицистические произведения с момента своего возникновения предназначались для распространения. Таким образом, анализ изменений в корпусе источников нового времени показывает, что устанавливается очень тесная взаимосвязь между отдельными видами источников, усиливается их взаимовлияние.

Рекомендуемая литература

1. Антонова, С.И. Материалы законодательства периода империализма как исторический источник. – М., 1976.

2. Архангельская, И.Д., Воронкова, С.В., Воронцова, С.А., Орлова, Е.В. Очерки периодической печати России начала XX века. – М., 1992.

3. Боярский, А.Я. Население и методы его изучения / Сборник научных трудов. – М., 1975.

4. Воронкова, С.В. Массовые источники по истории промышленности России конца XIX – начала XX вв. – М., 1995.

5. Воронкова, С.В. Проблемы источниковедения истории России периода капитализма: Итоги и задачи изучения. – М., 1985.

6. Голиков, А.Г. Российские монополии в зеркале прессы: Газеты как исторический источник по истории монополизации промышленности. –
М., 1991.

7. Дмитриев, С.С. Источниковедение русской исторической журналистики // Источниковедение отечественной истории: 1975. – М., 1976.

8. Есин, Б.И. Русская газета и газетное дело в России. – М., 1981.

9. Источниковедение: Теория. История. Метод. Источники российской истории: Учебное пособие. – М., 1998.

10. Кабузан, В.М. Народонаселение России в XVIII – первой половины XIX вв. (по материалам ревизий). – М., 1963.

11. Кабузан, В.М. О достоверности учёта населения России ( 1858 – 1917 ) // Источниковедение отечественной истории. 1981. – М., 1982.

12. Литвак, К.Б. Очерки источниковедения массовой документации XIX – начала XX в. – М., 1979.

13. Лукашевич, А.А. Модернизация формуляра документа государственного делопроизводства законодательством первой четверти XVIII века // Исследования по источниковедению истории России дооктябрьского периода. – М., 1993.

14. Массовые источники по социально-экономической истории России периода капитализма. – М.,1979.

15. Милов, Л.В. Исследование об «Экономических примечаниях» к Генеральному межеванию. – М., 1965.

16. Рыбаков, Ю.А. Промышленная статистика России XIX в.: Источниковедческое исследование. – М., 1976.

17. Станько, А.И. Русская периодическая печать XVIII века. – Ростов-н/Д., 1979.

18. Станько, А.И. Русские газеты первой половины XIX в. – Ростов-н/Д., 1969.

19. Шепелев, Л.С. Проблемы источниковедения изучения делопроизводственных документов государственных учреждений XIX – начала XX в. // Источниковедение отечественной истории: 1975. – М., 1976.

20. Шмидт, С.О., Князьков, С.Е. Документы делопроизводства правительственных учреждений России XVI – XVII вв. – М.,1985.

21. Эймонтова, Р.Г. Правительственная политика в отношении печати в
60 – 70-х гг. XIX в. // История СССР. – 1991. – № 1.

Занятие 5

корпус исторических материалов что это такое простыми словами. Смотреть фото корпус исторических материалов что это такое простыми словами. Смотреть картинку корпус исторических материалов что это такое простыми словами. Картинка про корпус исторических материалов что это такое простыми словами. Фото корпус исторических материалов что это такое простыми словами

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим.

корпус исторических материалов что это такое простыми словами. Смотреть фото корпус исторических материалов что это такое простыми словами. Смотреть картинку корпус исторических материалов что это такое простыми словами. Картинка про корпус исторических материалов что это такое простыми словами. Фото корпус исторических материалов что это такое простыми словами

корпус исторических материалов что это такое простыми словами. Смотреть фото корпус исторических материалов что это такое простыми словами. Смотреть картинку корпус исторических материалов что это такое простыми словами. Картинка про корпус исторических материалов что это такое простыми словами. Фото корпус исторических материалов что это такое простыми словами

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций.

корпус исторических материалов что это такое простыми словами. Смотреть фото корпус исторических материалов что это такое простыми словами. Смотреть картинку корпус исторических материалов что это такое простыми словами. Картинка про корпус исторических материалов что это такое простыми словами. Фото корпус исторических материалов что это такое простыми словами

Источник

Корпусы и корпусная лингвистика. Основные понятия

Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий. Под названием лингвистический, или языковой, корпус текстов понимается большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.

Введение: корпусы и корпусная лингвистика

Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий. Под названием лингвистический, или языковой, корпус текстов понимается большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. В понятие «корпус текстов» входит также система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют корпусным менеджером (или корпус-менеджером) (англ. corpus manager). Это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме.

Целесообразность создания и смысл использования корпусов определяется следующими предпосылками:

Можно сказать, что все современные лингвистические исследования и работы по составлению словарей и грамматик так или иначе ориентированы на использование представительных корпусов текстов. Развитие современных интеллектуальных программных систем, предназначенных для обработки текстов на естественном языке, также требует большой экспериментальной лингвистической базы. Спрос на корпусные данные совпал с появлением соответствующих технических возможностей.

В первой половине 90-х гг. корпусная лингвистика окончательно сформировалась как отдельный раздел науки о языке. При этом она тесно взаимодействует с компьютерной лингвистикой, используя ее достижения и в свою очередь обогащая ее.

Поиск в корпусе данных позволяет по любому слову построить конкорданс – список всех употреблений данного слова в контексте со ссылками на источник. Корпусы могут использоваться для получения разнообразных справок и статистических данных о языковых и речевых единицах. В частности, на основе корпусов можно получить данные о частоте словоформ, лексем, грамматических категорий, проследить изменение частот и контекстов в различные периоды времени, получить данные о совместной встречаемости лексических единиц и т.д. Представительный массив языковых данных за определенный период позволяет изучать динамику процессов изменения лексического состава языка, проводить анализ лексико-грамматических характеристик в разных жанрах и у разных авторов, и т.д. Корпусы призваны служить также источником и инструментом многоаспектных лексикографических работ по подготовке разнообразных исторических и современных словарей. Данные корпусов могут быть использованы для построения и уточнения грамматик и в целях обучения языку.

Можно сказать, что корпусная лингвистика имеет своим предметом теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований в интересах широкого круга пользователей.

Репрезентативность

Задача создателей корпуса – собрать как можно большее количество текстов, относящихся к тому подмножеству языка, для изучения которого корпус создается. Но главное не только и не столько в количестве языкового материала, сколько в его пропорциональности. Можно сказать, что корпус – это уменьшенная модель языка или подъязыка. Важнейшее понятие корпусной лингвистики – репрезентативность. Под репрезентативностью понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов и т.п. Имеются разные подходы к определению репрезентативности, можно сказать, что применительно к общеязыковому (национальному) корпусу это понятие невозможно рассчитать и описать строго математически, однако к этому можно и нужно стремиться, как на этапе проектирования корпуса, так и на этапе его эксплуатации.

Размер корпуса

Термин «корпус» обычно обозначает собрание текстов конечного фиксированного размера. С течением времени объем и состав корпуса может меняться, однако эти изменения должны или не менять его репрезентативность, или менять обоснованно. Объем первых корпусов составлял 1 млн словоупотреблений (Брауновский корпус, Уппсальский корпус русского языка). В настоящее время считается, что объем общеязыкового корпуса должен быть не меньше 100 млн словоупотреблений.

Разметка

Для решения различных лингвистических задач мало лишь наличия массива текстов. Требуется также, чтобы тексты содержали в себе явным образом разного рода дополнительную лингвистическую и экстралингвистическую информацию. Так в корпусной лингвистике возникла идея размечен­ного корпуса. Разметка (tagging, annotation) заключается в приписывании текстам и их компонентам специальных меток (tag, tags): внешних, экстралингвистических (сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика; сведения об авторе могут включать не только его имя, но также возраст, пол, годы жизни и многое другое. Это кодирование информации имеет название метаразметка), структурных (глава, абзац, предложение, словоформа) и собственно лингвистических, описывающих лексические, грамматические и прочие характеристики элементов текста. Набор этих метаданных во многом определяет возможности, предоставляемые корпусами исследователям. При выборе этих данных необходимо руководствоваться целями исследования и потребностями лингвистов, а также возможностями по внесению в текст тех или иных дополнительных признаков. Среди лингвистических типов разметки выделяются:

Существуют и другие типы разметки.

Технология создания корпусов

Технологический процесс создания корпуса можно представить в виде следующих шагов или этапов.

1. Определение перечня источников.

2. Оцифровка текстов (преобразование в компьютерную форму). Следует сказать, что насколько раньше задача ввода текстов в компьютер была тяжела и трудоемка, настолько сегодня эта проблема решается довольно легко, по крайней мере, что касается современных текстов и в современной орфографии. Эта легкость базируется на успехах в оптическом вводе (сканирование) и распознавании текстовой информации и на глобальной компьютеризации современной жизни, в том числе и в областях, связанных с обработкой текстовой информации. Тексты в электронном виде для создания корпусов могут быть получены самыми разными способами — ручной ввод, сканирование, авторские копии, дары и обмен, Интернет, оригинал-макеты, предоставляемые составителям корпусов издательствами и проч.

3. Предобработка текста. На этом этапе все тексты, полученные из разных источников, проходят филологическую выверку и корректировку. Также осуществляется подготовка библиографического и экстралингвистического описания текста.

4. Конвертирование и графематический анализ. Некоторые тексты проходят также через один или несколько этапов предварительной машинной обработки, в ходе которых осуществляются различного рода перекодировка (если требуется), удаление или преобразование нетексто­вых элементов (рисунки, таблицы), удаление из текста переносов, «жёстких концов строк», обеспечение единообразного написания тире и проч. Как правило, эти операции выполняются в автоматическом режиме. Обычно на этом же этапе осуществляется сегментирование текста на его структурные составляющие.

5. Разметка текста. Разметка текста заключается в приписывании текстам и их компонентам дополнительной информации (метаданных). Метаописание текстов корпуса включает как содержательные элементы данных (библиографические данные, признаки, характеризующие жанровые и стилевые особенности текста, сведения об авторе), так и формальные (имя файла, параметры кодирования, версия языка разметки, исполнители этапов работ). Эти данные обычно вводятся вручную. Структурная разметка документа (выделение абзацев, предложений, слов) и собственно лингвистическая разметка обычно осуществляются автоматически.

6. На следующем этапе осуществляется корректировка результатов автоматической разметки: исправление ошибок и снятие неоднозначности (вручную или полуавтоматически).

7. Заключительный этап – конвертирование размеченных текстов в структуру специализированной лингвистической информационно-поисковой системы (corpus manager), обеспечивающей быстрый многоаспектный поиск и статистическую обработку.

8. И, наконец, обеспечение доступа к корпусу. Корпус может быть доступен в пределах дисплейного класса, может распространяться на CD-ROM и может быть доступен в режиме глобальной сети. Различным категориям пользователей могут предоставляться разные права и разные возможности.

Конечно, в каждом конкретном случае состав и количество проце­дур могут отличаться от выше перечисленных, и реальная технология может оказаться гораздо сложнее.

Автоматическая разметка

Фактически, корпус в его современном понимании – это всегда компьютерная база данных, и в процессе его создания естественно использование специальных программ. Среди этих программ особое место занимают программы автоматической разметки. Разметка корпусов представляет собой трудоемкую операцию, особенно учиты­вая размеры современных корпусов. Если для некоторых видов разметки, в частности анафорической, просодической, создание автоматических систем пока представляется довольно сложным и основная часть работы проводится вручную, то для морфологического и синтаксического анализа существуют различные программные средства, которые принято называть соответственно тэггеры (taggers) и парсеры (parsers). В результате работы программ автоматического морфологиче­ского анализа каждой лексической единице приписываются граммати­че­ские характеристики, включая часть речи, лемму (нормальную форму) и набор граммем (например, род, число, падеж, одушевлен­ность/неодушевленность, переходность и т.п.). В результате работы программ автоматического синтаксического анализа фиксируются син­таксические связи между словами и словосочетаниями, а синтаксиче­ским единицам приписываются соответствующие характеристики (тип предложения, синтаксическая функция словосочетания и т.п.).

Исправление ошибок и снятие неоднозначности

Однако автоматический анализ естественного языка небезошибо­чен и многозначен – он, как правило, дает несколько вариантов анализа для одной лексической единицы (слова, словосочетания, предложения). В этом случае говорят о грамматической омонимии. Снятие неодно­значности (морфологической, синтаксической) в целом является одной из важнейших и сложнейших задач компьютерной лингвистики. При создании корпусов для снятия неоднозначности используются автома­тические и ручные способы. Корпусы нового поколения включают сотни миллионов слов, поэтому выдвигаются принципы разработки систем, которые бы минимизировали вмешательство человека. Автома­тическое разрешение морфологической или синтаксической омонимии, как правило, основывается на использовании информации более высокого уровня (синтаксического, семантического) с применением статистических методов.

Форматы данных и стандартизация

Корпусы, как правило, предназначены для многократного использования многими пользователями, соответственно, и их разметка, и их программное обеспечение должны быть определенным образом унифицированы. Что касается разметки, то как лингвистическая, так и экстралингвистическая разметка должны базироваться на некоторых достаточно широко распространенных и принятых принципах описания текстов и языковых единиц. Параметры разметки и их значения должны быть достаточно «естественными», т.е. должны соответствовать общепринятым научным классификациям. Что касается программного обеспечения, то оно должно поддерживать обработку типовых запросов и решение типовых задач. Большое значение имеет унификация форматов, как их наполнения, так и структуры. Единые форматы представления данных позволяют во многих случаях использовать единое программное обеспечение и обмениваться корпусными данными. Стандартизация в отношении корпусов, совместимость типов данных важны и с точки зрения сравнимости разных корпусов. Вопросы оценки корпусов, их пригодности к различным заданиям также требуют своих «стандартов оценки».

В настоящее время на основе международного опыта выработались де-факто стандарты представления метаданных, базирующиеся на описаниях текстов в рамках проекта Text Encoding Initiative (TEI) и на рекомендациях EAGLES (Expert Advisory Group on Language Engineering Standards). В качестве формального языка разметки широко применяются языки SGML и XML. В настоящее время стандарты EAGLES непосредственно включаются в технологическую среду языка XML, см., в частности, разработку стандарта Corpus Encoding Standard for XML (XCES).

Корпусные менеджеры

Работа пользователей с корпусом осуществляется с помощью специализированных программных средств – корпусных менеджеров, предоставляющих разнообразные возможности по получению из корпуса необходимой информации:

Результаты поиска обычно выдаются в виде конкорданса (поэтому корпусные менеджеры еще называют конкордансерами), где искомая единица представлена в ее контекстном окружении и в виде статистических данных. Последние могут фиксировать частотные характеристики отдельных языковых единиц, или граммем, или могут характеризовать совместную встречаемость нескольких лексических единиц. Многие системы позволяют настраивать формат выдачи (менять длину левого и правого контекста, задавать объем выдачи и порядок сортировки данных, отображать или не отображать лингвистические и экстралингвистические характеристики, и т.д.).

Пользователи и способы использования корпусов

Пользователей корпусов, как правило, интересует не содержание конкретных текстов, а их метатекстовая информация и примеры употребления тех или иных языковых элементов и конструкций. Это, в первую очередь, лингвисты. Первоначальные лингвистические исследования, проводившиеся с помощью корпусов, сводились к подсчету частот встречаемости различных языковых элементов. Статистические методики используются в решении сложных лингвистических задач, таких как машинный перевод, распознавание и синтез речи, средства проверки орфографии и грамматики и т.д. Так, устойчивые словосочетания представляют собой с семантической точки зрения неделимую смысловую единицу, что очень важно учитывать в лексикографии, системах автоматической обработки текста. На материале корпуса статистическими методами можно определить, какие слова встречаются вместе регулярно и, таким образом, могут быть отнесены к устойчивым словосочетаниям. Корпусы являются богатым источником данных для исследований по лексикографии и грамматике. С исследованиями по лексикографии тесно связаны исследования в области семантики. Наблюдая окружения той или иной лингвистической единицы в корпусе, можно установить определенные семантические признаки, характеризующие данную единицу.

Лингвисты-теоретики используют корпусы в качестве экспериментальной базы для проверки гипотез и доказательства своих теорий. Прикладные лингвисты (преподаватели, переводчики и т.п.) используют компьютерные корпусы при обучении языкам и для решения своих профессиональных задач. Особый класс пользователей представляют компьютерные лингвисты: они пытаются выявить и использовать статистические и лингвистические закономерности, присутствующие в текстах, для создания компьютерных моделей языка. Другие специалисты по языку (литературоведы, редакторы) также в ряде случаев могут получить ответы на интересующие их вопросы, обратившись к корпусу. Специалисты по общественным наукам (историки, социологи) также могут изучать свои объекты через язык, используя такие параметры текстов, как период, автор или жанр. Литературоведы используют корпусы для стилеметрических исследований. Наконец, корпусы используются для разработки и настройки различных автоматизированных систем (машинный перевод, распознавание речи, информационный поиск).

Типы корпусов

Несмотря на разнообразие корпусов, можно выделить два основных способа деления корпусов на классы: 1) это противопоставление корпусов, относящихся ко всему языку (часто к языку определенного периода), корпусам, относящимся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т.п.); 2) разделение корпусов по типу лингвистической разметки. Несмотря на наличие множества типов разметки, большинство реально существующих корпусов относится к корпусам морфологического либо синтаксического типа (последние в англоязычной литературе называют treebanks, что можно перевести как «банки синтаксических структур»). При этом следует подчеркнуть, что корпус с синтаксической разметкой явно или неявно включает в себя и морфологические характеристики лексических единиц.

Вообще же существует большое число разных типов корпусов. Их разнообразие определяется многообразием исследовательских и прикладных задач, для решения которых они создаются, и различными основаниями для классификации. В зависимости от поставленных целей и классифицирующих признаков, можно выделить различные типы корпусов (см. таблицу).

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *