что такое корпусная лингвистика
Введение в корпусную лингвистику: Учебное пособие для студентов филологических и лингвистических специальностей университетов
Учебное пособие для студентов филологических и лингвистических специальностей университетов Пособие содержит основные сведения о корпусной лингвистике – одном из самых популярных разделов современного языкознания, целью которого является создание и использование языковых корпусов в лингвистических исследованиях. В учебнике на доступном уровне рассматриваются основы данной предметной области, перечисляются основные корпуса разных языков, показываются возможности использования методов корпусной лингвистики, а также описан вклад корпусной лингвистики в лингвистическую теорию. Учебник предназначен для студентов филологических и лингвистических факультетов высших учебных заведений. Может быть использовано аспирантами и преподавателями смежных дисциплин. Автор благодарит The Pygos Group. A HIT Entertainment company за разрешение использовать изображение Пингу и интернет-проект «ПостНаука» за разрешение использовать видеолекцию В. А. Плунгяна.
Оглавление
Приведённый ознакомительный фрагмент книги Введение в корпусную лингвистику: Учебное пособие для студентов филологических и лингвистических специальностей университетов предоставлен нашим книжным партнёром — компанией ЛитРес.
Глава 1. Что такое корпус?
Латинское слово corpus значит «тело, туловище, единое целое». Несколько лет назад я участвовал в конференции по корпусной лингвистике, которая проходила в помещении бывшего анатомического театра. Первый же докладчик, вспомнив картину Рембрандта «Урок анатомии доктора Тульпа», отметил символичность места: корпусной лингвист тоже работает с корпусом, препарируя его с помощью специальных инструментов. Добавлю, что традиция открытого для широкой публики доступа к корпусу исчезла из медицинской науки, но, как мы увидим, возродилась в лингвистике в виде общедоступного корпуса, позволяющего проверять и перепроверять утверждения лингвистов о языке.
Что же такое корпус в лингвистическом смысле? Ниже я привожу два определения, первое — из старого, но хорошего учебника, второе — из Википедии.
(1) Корпус в современной лингвистике в отличие от любого набора текстов может быть более точно определен как ограниченный по объему набор электронных текстов, собранных с целью максимально точно представлять исследуемый вариант языка (McEnery & Wilson 1996: 24).
(2) Лингвистическим корпусом называют собрание текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов) (Википедия, статья «Корпусная лингвистика», 2013).
Эти определения отличаются в частностях, которые связаны с развитием корпусной лингвистики за последние десятилетия — от коллекции текстов к аннотированному комплексу. В то же время обе формулировки позволяют определить минимальные требования к корпусу.
1. Тексты, входящие в корпус, должны быть собраны по определенным принципам, чтобы представлять определенный пласт языка или весь язык в определенный период времени. Это параметр называется репрезентативность (англ. representativeness).
Репрезентативность — свойство корпуса, заключающееся в статистически достоверном представлении языка или его части и достигаемое за счет необходимого объема и жанрового разнообразия текстов.
Если сохранять латинскую этимологию, то языковой корпус — это тоже «тело», единое целое языка или подъязыка. В идеале таковыми являются все тексты, и такая ситуация вполне возможна, если мы изучаем язык конкретного автора и создаем, например, корпус произведений М. В. Ломоносова ( www.lomonosov.pro ), в который включены все произведения из всех одиннадцати томов полного собрания его сочинений. Этот корпус текстов уже не удастся существенно расширить, так что мы можем считать его хорошим примером полного корпуса. Но что делать, если речь идет о языке XVIII века в целом? Или о языке современного русского чата?
К счастью, лингвисты выяснили, что если тексты хорошо подобраны, то они могут представлять весь язык или его определенную часть. Для этого достаточно взять большой объем текстов, который будет представлять весь язык. Конечно, ключевой вопрос здесь — что значит «достаточно большой».
Приведу пример. Если я, зайдя в аудиторию в восемь утра, начну спрашивать «Как дела?», — ответы, вероятнее всего, будут однотипными (и не очень позитивными). Если задавать тот же вопрос разным людям в разное время суток, то позитивные ответы все-таки появятся. Мы в какой-то момент заметим, что новых вариантов больше не слышно, а частотность каждого варианта ответа не меняется. С этого момента — условно говоря, после двух тысяч ответивших — мы можем прекратить опрос. Конечно, всегда есть вероятность получить оригинальный ответ от две тысячи первого человека, но обычно ученым для дальнейших исследований достаточно составить представление об общем распределении единиц.
Примерно так же поступают и корпусные лингвисты, которые собирают не все тексты всех носителей языка, а так называемую представительную, или репрезентативную, выборку (англ. representative sampling) — такой объем материала, увеличение которого уже почти никак не повлияет на распределение единиц. Невозможно раз и навсегда определить, какой объем достаточен. Во многих случаях, особенно для лексикографической работы, корпуса объемом в 100 миллионов слов недостаточно. C другой стороны, для решения множества задач (например, морфологических) достаточно текста объемом всего в 5 тысяч слов (три главы этого учебника), и дальнейшее увеличение объем не изменит лингвистический результат.
2. Второй важной характеристикой корпуса является его сбалансированность (англ. balance); этот параметр определяет, насколько равномерно представлены тексты разных типов.
Согласно данным Частотного словаря русского языка, изданного в 1977 году, в сотню самых частых слов входят существительное «товарищ» и прилагательное «советский». Объем корпуса, на основе которого был создан словарь, достаточно большой даже по современным меркам — 1 млн слов. Но появление этих слов «на передовых рубежах» лексического состава языка того периода объясняется тем, что использовался несбалансированный корпус: он включал в себя только письменные тексты советского периода. Если бы корпус состоял только из разговорных текстов, то в список самых частотных, вероятно, вошли бы совсем другие слова.
Надо сказать, что сбалансированность является ахиллесовой пятой многих существующих корпусов. Очевидно, что в реальной языковой практике объем произнесенного существенно превышает объем написанного (Подумайте сами, сколько слов вы сегодня написали, а сколько произнесли.). Но для создания корпуса оказывается удобнее и проще взять существующие письменные тексты, а не собирать устные записи. Эта проблема несбалансированности хоть и медленно, но решается.
Итак, репрезентативность и сбалансированность — свойства корпуса, позволяющие адекватно представлять всё разнообразие текстов в равных или неравных, но мотивированных реальным употреблением пропорциях. Не будем при этом идеализировать ситуацию: каким бы большим ни был корпус, он всего лишь отражение языковой стихии: в реальной живой речи всегда найдутся единицы, не вошедшие в корпус.
3. В зависимости от имеющихся задач корпус может состоять из нескольких тысяч или нескольких миллионов текстоформ, но в любом случае объем корпуса должен быть известен (англ. finite-sized). Информация и об общем объеме корпуса, и о количестве извлеченных из текста примеров должна быть доступна пользователю, чтобы он мог использовать «сырые» цифры или применять более сложные формулы лингвистической статистики. В главе 16 мы еще поговорим об этом, сейчас же — один пример.
Местоимение «аз» в корпусе XVIII века встретилось 355 раз, в корпусе XIX века — 603 раза, а в корпусе XX века — 887 раз. Значит ли это, что «аз» постепенно становится все более употребительным (см. график слева)? Совсем нет. Знание объема корпусов позволяет перевести сырые данные в относительные цифры и выяснить, что доля «аз» в корпусе XX века составляет всего 0,0007 процента (то есть слово очень редкое), а в корпусе XVIII века — 0,009 процента (в 10 раз чаще). Все встает на свои места (см. график справа).
4. В настоящее время корпуса существуют в электронной форме. Еще несколько лет назад значительная часть времени у многих студентов и исследователей уходила на то, чтобы собрать материал: найти и просмотреть бумажные издания, выписать примеры на карточки, все вручную пересчитать… Часто тот или иной диплом защищался с формулировкой «собран значительный языковой материал». Сейчас эта формулировка сохранилась, например, в полевой лингвистике или в тех областях, в которых еще не созданы корпуса. Электронная форма хранения корпуса обеспечивает быстрый поиск и извлечение материала, превращая исследовательскую работу в быструю проверку множества рабочих гипотез без утомительного этапа механического поиска примеров.
Важно понимать, что возможность поиска в современном корпусе ограничена поиском по буквам и другим знакам и сводится к точному составлению запросов в виде набора символов той или иной степени сложности. Даже когда мы ставим галочки и выбираем параметры из меню, мы по сути указываем, какие уже включенные в корпус символы или их комбинации нас интересуют (о некоторых исключениях я расскажу ниже).
Например, поиск мужских или женских ролей в мультимедийном корпусе МУРКO ( www.ruscorpora.ru/search-murco.html ) возможен только потому, что корпус уже содержит заранее введенную информацию о том или ином актере. Поиск реплик актера по его изображению или тембру голоса невозможен и вряд ли необходим.
5. Из требования электронного формата следует возможность развития корпуса как в «ширину» (увеличение объема), так и в «глубину» (дополнительная информация о единицах корпуса). Последнее определяет требование к корпусу, которое сегодня все чаще становится обязательным. Я говорю о наличии специальной разметки, или аннотации. Именно она позволяет искать не только по текстоформам, но и по другим параметрам. Говоря по-простому, разметка представляет собой лингвистический разбор всех языковых единиц на выбранном языковом уровне, или, если говорить более формально:
разметка (аннотация, англ. annotation) — это введенная автоматически или вручную лингвистическая или метатекстовая информация обо всех выбранных единицах корпуса: тексте, предложении, текстоформе, морфеме, звуке и т. д.
Этой важнейшей составляющей современного корпуса будет посвящено несколько глав учебника.
1. Atkins S., Clear J., Ostler N. Corpus design criteria // Literary and linguistic computing. 1992. Vol. 7. № 1. P. 1–16.
2. Biber D. Representativeness in corpus design // Literary and linguistic computing. 1993. Vol. 8. № 4. P 243–257.
3. Integrum: точные методы и гуманитарные науки. М., 2006.
4. McEnery T., Wilson A. Corpus linguistics. Edinburgh: Edinburgh University Press, 1996.
5. O’Keeffe A., McCarthy M. (ed.). The Routledge handbook of corpus linguistics. Routledge, 2010. (Раздел 2: “Building and designing a corpus: what are the key considerations?”).
7. Инструментарий русистики: корпусные подходы. Хельсинки, 2008.
8. Национальный корпус русского языка. 2003–2005: результаты и перспективы. М., 2003.
9. Национальный корпус русского языка. 2006–2008: новые результаты и перспективы. СПб., 2009.
10. Плунгян В. А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики // Русский язык в научном освещении. 2008. № 16 (2). С. 7–20.
12. Шимкова М. Репрезентативность корпуса как лингвистическая проблема // Сборник: Труды Международной конференции MegaLing-2005: Прикладная лингвистика в поиске новых путей. СПб.: Осипов. 2005. С. 130–139. Доступно по адресу: korpus.juls.savba.sk
а) Какое определение дает В. А. Плунгян термину «корпус»?
б) Чем лингвист похож на ребенка?
в) Какую часть лингвистической работы сократили языковые корпуса?
г) Что такое Машинный фонд русского языка?
д) Подсчитайте, сколько раз В. А. Плунгян использует формы «корпуснóй / кóрпусный» и «корпусá / кóрпусы».
2. На сайте конференции «Диалог» ( http://www.dialog-21.ru/ ) найдите программу последней конференции. Сколько раз в названиях докладов встречается слово «корпус» и его производные?
3*. Проведите описанный в главе эксперимент, задав окружающим вопрос «Как дела?». Какого количества опрошенных оказалось достаточно, чтобы ответы стали повторяться?
Корпусная лингвистика как раздел языкознания
Корпусная лингвистика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.
Корпусная лингвистика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.
В лингвистике, корпус (во множественном числе допустимы две формы: кóрпусы и корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке.
Корпус может содержать тексты одного языка (одноязычные корпусы) или нескольких языков (многоязычные корпусы). Многоязычные корпусы, которые были созданы специально для сопоставительного сравнения, называют параллельными корпусами.
Чтобы сделать корпусы более полезными для лингвистических исследований, они подвергаются разметке (аннотации). Примером этого может быть морфологическая разметка, которая производится с помощью специальных программ автоматического морфологического анализа.
К некоторым корпусам применяются дальнейшие структурные уровни анализа. В частности, некоторые небольшие корпусы могут быть полностью синтаксически размечены. Такие корпусы обычно называют глубоко аннотированными или синтаксическими, а сама синтаксическая структура при этом является деревом зависимостей. Сложность обеспечения целого корпуса разметкой подразумевает, что такие корпусы чаще всего меньше и содержат примерно от одного до трёх миллионов слов. Возможны и другие уровни лингвистического структурного анализа, включая аннотацию морфологии, семантики и прагматики.
Корпус — основное понятие и база данных корпусной лингвистики. Анализ и обработка разных типов корпусов являются предметом большинства работ в области компьютерной лингвистики, распознавания речи и машинного перевода, в которых корпусы часто применяются при создании скрытых марковских моделей для маркирования частей речи и других задач. Корпусы и частотные словари могут быть полезны в обучении иностранным языкам.
Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).
Целесообразность создания текстовых корпусов объясняется:
— представлением лингвистических данных в реальном контексте;
— достаточно большой представительностью данных (при большом объёме корпуса);
— возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач, таких, как например, реализация графематического и лексико-грамматического анализа текста и др.
Корпусная лингвистика сделала возможным:
1. Уточнить результаты и выводы, проведённых ранее исследований речи.
2. Произвести новые, более широкие и системные по охвату эмпирического речевого материала лингвистические исследования..
В центре внимания корпусной лингвистики оказалась языковая личность, т.е., её речевая деятельность, массовая коммуникация, проблема её описания.
Главная цель КЛ:
лингвистическое описание языковой системы (подход от конкретного изучения коммуникации людей),
особый способ отражения речевого материала в корпусе текстов, который может использоваться в свою очередь другими лингвистическими дисциплинами.
Корпусная лингвистика имеет две черты, дающие основание претендовать на положение самостоятельной дисциплины:
1. Характер используемого словесного материала.
2. Специфика инструментария.
Таким образом, корпус текстов, с одной стороны, это исходный речевой материал для корпусной лингвистики и для других лингвистических дисциплин; с другой стороны, результат деятельности корпусной лингвистики.
«Отступления» корпусной лингвистики:
1. КЛ не отрицает ценности и необходимости речевых данных не представленных в корпусной форме;
КЛ утверждает то, что из корпуса текстов невозможно извлечь все возможные лингвистические выводы, т.е., что корпус текстов не является самодостаточным.
Классификация корпуса текстов
По степени организации и структурированности
1. Электронный архив – это тексты на электронном носителе, но их форма представленая на машинном носителе не стандартизирована и не унифицирована.
2. Электронная библиотека – тексты здесь представлены однородным и стандартизированным образом.
3. Корпус текстов – форма стандартизирована и унифицирована, тексты предназначены для отражения части лингвистической реальности.
4. Субкорпус – это некоторая автономная часть корпуса.
По хронологическому признаку:
1. Синхронический;
2. Мониторный (отслеживает текущее состояние языка);
3. Диахронический.
По индексации:
1. Простой;
2. Аннотированный.
По языку:
1. Одноязычный;
2. Двуязычный;
3. Многоязычный.
По способу применения и использования корпуса:
1. Исследовательский;
2. Иллюстративный;
3. Параллельный.
По способу существования корпуса:
1. Динамический;
2. Статический.
Типы корпусной разметки
В настоящее время не существует общепризнанных стандартов представления лингвистической и других видов информации в текстах. Специальный международный проект Text Encoding Initiative (TEI) предназначен для того, чтобы разработать стандартизированные средства разметки. Для этого применяется уже общепризнанный международный язык разметки документов SGML или его подмножество XML. Типы разметки, которые может содержать корпус, можно условно подразделить на лингвистические и внешне лингвистические. К последним относятся:
Наличие подобной информации позволяет значительно детализировать поиск в текстовых базах данных и, кроме того, предоставляет средства идентификации соответствующего документа.
Среди лингвистических типов разметки выделяются:
Морфологическая. В иностранных источниках употребляется термин part-of-speech tagging, дословно – частеречная разметка, в действительности она включает не только признак части речи, но и признаки грамматических категорий, свойственных данной части речи. Это основной тип разметки в текстах, он рассматривается как основа для дальнейших этапов анализа – синтаксического и семантического. Схема морфологической разметки предполагает наличие, во-первых, набора тэгов, во-вторых, описания того, что каждый из них означает и, в-третьих, правил присвоения тэгов единицам текста. Размер наборов тэгов, применяемых в разных корпусах варьируется. Несомненно, чем больше набор тэгов, тем более детальный анализ текста осуществим с его помощью. Однако по мере увеличения объема корпусов наметилась тенденция к сокращению числа морфологических помет. Упрощенная система кодировки способствует избежанию лишних ошибок, непоследовательности, уходу от морфологической неоднозначности и, в конечном итоге, быстроте разметки больших массивов текста, содержащих миллионы слов;
Синтаксическая. Является результатом синтаксического анализа или парсинга (от англ. parsing). Чаще всего в его основе лежит грамматика структур непосредственно составляющих. Графически синтагматические отношения между членами предложения изображаются, как известно, в виде дерева, а в тексте они представлены пaрами из открывающейся и закрывающейся квадратных скобок, которые обрамляют различные синтаксические конструкции – именные, глагольные и предложные словосочетания, придаточные предложения. Рядом как с открывающейся, так и с закрывающейся скобкой ставятся метки (коды), описывающие заключенную в них конструкцию. Одни пары скобок вложены в другие, элементом высшего уровня является предложение, обозначаемое символом S. Тексты, получившие синтаксическую разметку, известны как treebanks. На синтаксическом уровне, как и на морфологическом, проявляется тенденция к меньшей детализации схем грамматической разметки в целях увеличения скорости и последовательности анализа текста. Метод, который возник в результате этой тенденции, получил название skeleton parsing;
Семантическая. Хотя для семантической, как и для других видов разметки, нет стандартной формы, чаще всего для ее представления используют код, состоящий из букв и цифр или только цифр, в котором первая буква или цифра обозначает общую семантическую категорию, в которую входит данное слово, а последующие символы – более узкие подкатегории, специализирующие его значение. В схемах семантической разметки предусмотрены те случаи, когда в качестве единицы смысла выступает не отдельное слово, а словосочетание. Все члены такого словосочетания получают один и тот же код, при этом для каждого из них дополнительно указываются его порядковый номер, а также общее число слов в идиоматическом выражении;
Анафорическая. Из всех видов референции наибольшую сложность для автоматической обработки текста представляет местоименная. Так, большинство систем машинного перевода обрабатывает текст по отдельным предложениям, отчего страдает связность выходного текста. Таким образом, эффективность таких систем гораздо повысилась бы, если бы правильно определялась референция местоимений-заместителей. В частности, этому и призвана способствовать анафорическая разметка. Как правило, антецедент, в роли которого обычно выступает именное словосочетание, берется в пронумерованные скобки, а рядом с местоимением-заместителем ставится особый знак, отсылающий к антецеденту с соответствующим номером;
Просодическая. В корпусах затранскрибированной звучащей речи применяются метки, описывающие ударение и интонацию. Просодической часто сопутствует так называемая дискурсная разметка, которая служит для обозначения пауз хезитации, повторов, оговорок и т. д.
Аннотирование корпусов осуществляется программными средствами. Во-первых, это экономичнее с точки зрения временных и трудозатрат, чем если бы разметка проводилась вручную. Во-вторых, что более важно, это связано с поиском решений в области автоматической обработки текста. Тогда как для некоторых видов разметки, в частности анафорической, просодической, создание автоматических систем пока представляется очень сложным, и основная часть работы проводится вручную, то для морфологического и синтаксического анализа существуют различные программные средства, которые принято называть соответственно тэггеры (taggers) и парсеры (parsers). Большинство таких систем все же требует ручного постредактирования, так как в случаях морфологической омонимии и синтаксической неоднозначности программа предлагает несколько вариантов решения, из которых нужный выбирает исследователь. Между тем корпусы нового поколения включают десятки миллионов слов, поэтому выдвигается принцип разработки систем, которые бы исключали вмешательство человека, самостоятельно выполняя тот объем работы, который они могут выполнить. И даже ставится задача полностью автоматизировать процесс разметки потенциально не имеющего границ текста.
История
Первым большим компьютерным корпусом считается Брауновский корпус (БК, англ. Brown Corpus, BC), который был создан в 1960-е годы в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан частотный словарь русского языка Засориной, построенный на основе корпуса текстов объёмом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.
Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как англ. polite (вежливый) или англ. sunshine (солнечный свет) встречается в БК всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request ни разу.
По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объёмами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпуса большего размера. В Великобритании такими проектами были Банк Английского (Bank of English) в Бирмингемском Университете и Британский Национальный Корпус (British National Corpus, BNC). В СССР таким проектом был Машинный фонд русского языка, создававшийся по инициативе А. П. Ершова.
Современное состояние
Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского, болгарского и других языков.
Национальный корпус русского языка, создаваемый при РАН, содержит на сегодняшний день более 500 млн словоупотреблений[2].
Наряду с представительными корпусами, которые охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические коллекции текстов, например, газеты (часто Wall Street Journal и New York Times), новостные ленты (Рейтер), коллекции художественной литературы (Библиотека Мошкова или Проект Гутенберг).
Проблемы
Проблема представительности
Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексикограмматические феномены, типичные для всего объёма текстов в соответствующем языке (или подъязыке). Для представительности важен как размер, так и структура корпуса. Представительный размер зависит от задачи, поскольку он определяется тем, как много примеров может быть найдено для исследуемых феноменов. В связи с тем, что со статистической точки зрения язык содержит большое число относительно редких слов (Закон Ципфа), для исследования первых пяти тысяч наиболее частотных слов (например, убыток, извиняться) требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов (незатейливый, сердцебиение, роиться) уже требуется корпус свыше ста миллионов словоупотреблений.
Проблема разметки
К первичной разметке текстов относятся этапы, обязательные для каждого корпуса:
— токенизация (разбиение на орфографические слова)
— лемматизация (приведение словоформ к словарной форме)
— морфологический анализ
Проблема представления результатов
В больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. Для решения этой проблемы разрабатываются системы, позволяющие группировать результаты поиска и автоматически разбивать их на подмножества (кластеризация результатов поиска), либо выдающие наиболее устойчивые словосочетания (коллокации) со статистической оценкой их значимости.
Веб как корпус
Использование поисковых машин
В качестве корпуса может использоваться множество текстов, доступных в интернете (то есть миллиарды словоупотреблений для основных мировых языков). Для лингвистов самым распространенным способом работы с Интернетом остаётся составление запросов к поисковой машине и интерпретация результатов либо по числу найденных страниц, либо по первым возвращенным ссылкам. В английском языке такая методология получила название англ. Googleology, для русского более подходящим названием может стать Яндексология. Необходимо отметить, что такой подход годится для решения ограниченного класса задач, так как средства разметки текстов, используемые в вебе, не описывают ряд лингвистических особенностей текста (указание ударений, грамматических классов, границ словосочетаний и т. д.). Кроме того дело осложняется малой распространённостью семантической вёрстки.
На практике ограниченность такого подхода приводит к тому, что проверить, например, сочетаемость двух слов проще всего через запрос вида «слово1 слово2». По полученным результатам можно судить, насколько распространено такое сочетание и в каких текстах оно чаще встречается. См. также статистика запросов.
Использование веб-страниц
Второй способ заключается в автоматическом извлечении большого количества страниц из Интернета и их дальнейшем использовании в качестве обычного корпуса, что дает возможность провести его разметку и использовать лингвистические параметры в запросах. Этот способ позволяет быстро создать представительный корпус для любого языка в достаточной степени представленного в Интернете, но его жанровое и тематическое разнообразие будет отражать интересы пользователей Интернета.
Всё большую популярность в научной среде получает использование Википедии — как корпуса текстов.
Проект Татоэба
В 2006 году появился сайт Татоэба (Tatoeba), позволяющий на свободной основе добавлять новые и изменять существующие предложения на различных языках, связанные между собой по смыслу. В его основу лёг лишь англо-японский корпус, а уже сейчас число языков превышает 80, а число предложений — 600000. Любой желающий может добавлять новые предложения и их переводы, а при необходимости — бесплатно скачать целиком или частично все языковые корпуса.
Открытый корпус русского языка
Интерфейс системы разметки Открытого корпуса русского языка.
Интерес представляет проект открытого корпуса русского языка, который не только использует опубликованные под свободными лицензиями тексты, но и позволяет любому желающему принять участие в лингвистической разметке корпуса. Такая форма краудсорсинга стала возможной благодаря разбиению задачи разметки на небольшие задания, с большинством из которых может справиться человек без специальной лингвистической подготовки. Корпус постоянно пополняется.
06.09.2016, 12499 просмотров.