Корпусная лингвистика или
"А был ли Мальчик?"

Тот, кто  искал информацию о корпусной лингвистике, уже познакомился с результатами, которые выкидывают  поисковики. По крайней мере в конце ноября 2003 г. на русском нете  в Яндексе  было зафиксировано  385 страниц и 54 сайта, на которых упоминаются два слова - "корпусная" и "лингвистика", при этом запросов за месяц: корпусная — 5993, лингвистика — 4344.

Как видно из приведённых данных, существует огромное число юзеров, которые хотят понять, что же это за штука такая - корпусная лингвистика.  Кое-какую информацию по данному вопросу вы найдёте на сайте Диалога http://www.dialog-21.ru/directions_materials.asp?dir_id=, подготовленным Сергеем Александровичем Шаровым. На сайте указаны сноски на корпусы текстов других языков. Кроме этого, к ресурсам, затрагивающим и как-то объясняющим суть "корпусной лингвистики", можно отнести ряд работ В.Рыкова в соавторстве. Можно заглянуть и в работу В. Сичинава "К задаче создания корпусов русского языка". Более практичный подход вы найдёте на сайте "Морфологического стандарта Национального корпуса русского языка". (Не ставлю ссылки на страницы, я качал эту информацию в виде текстов, найти сможете через поисковики).

Если вы, уважаемый читатель, уже поскитались по сайтам нета в поисках информации о так называемой корпусной лингвистике, то здесь вы найдёте некоторые критические замечания по поводу этой, с моей точки зрения, бесполезной и бестолковой затеи, как и было обещано в CREDO.

Итак, начнём всё-таки с того, что пытается продекларировать данный апендикс лингвистики. Процитируем статью В. Сичинава: "Работа с корпусами, то есть с массивами текстов, представленными в компьютерном виде, давно уже стала одним из основных, если не основным методом лингвистических исследований, при помощи которого могут решаться самые разные задачи. Между тем отечественная лингвистика, как известно, отстаёт в этом отношении от современного состояния зарубежных исследований; созданный еще в 1960-е годы (и то вне России) Уппсальский корпус русских текстов остаётся, насколько нам известно, единственным завершённым и активно используемым проектом  такого рода. Не говоря уже об устарелости его материалов и ограниченности объёма (1 млн. словоупотреблений), нужно указать прежде всего на то, что он не является  лингвистически аннотированным (то есть в нём не указаны морфологические,  синтаксические, семантические свойства тех или иных сегментов текста, что затрудняет поиск по нему), в то время как современная лингвистика оперирует в основном аннотированными корпусами (treebanks). Начиная с 1980-1990-е годы работа над созданием компьютерных баз данных по русскому языку ведется в рамках Машинного фонда русского языка при Институте русского языка РАН под руководством В. М. Андрющенко (работа отражена в многочисленных публикациях...)"

Более конкретно следующее определение национального корпуса — "это собрание текстов в электронной форме, представляющих данный язык (на определенном этапе его существования), отображающий данный язык во всем многообразии жанров, стилей, территориальных и социальных вариантов и т. п. Национальный корпус создается лингвистами (специалистами по так называемой корпусной лингвистике, быстро развивающейся современной области языкознания) для научных исследований. Большинство крупных языков мира уже имеет свои национальные корпуса, составленные с разной степенью полноты и обработанности. Общепризнанным образцом является, в частности, Британский национальный корпус (BNC), на который ориентированы и многие другие корпуса; среди славянских корпусов выделяется Чешский национальный корпус, созданный в Карловом университете Праги.

Как видим, и в первой и во второй цитате авторы ссылаются на зарубежную лингвистику. Ну как же, они делают, а мы что хуже. Давайте займёмся созданием "корпусов". Танковые на металлолом пустили, бум создавать лингвистические.

Но в Британии (на острове) насчитывается около 57 млн. населения (на 1988 год), в Чехии - около 11 млн. Территория островов 244 кв. км., а Чехия - с гулькин нос после отделения Словакии.(население около 11-12 млн. человек - Москва с учётом приезжих). Если же брать территорию распространения русского национального языка, то, как я уже где-то на старом сайте упоминал, подсчитать это довольно-таки трудно.

В 70-ые годы прошлого столетия как-то по радио прозвучала в разделе "курьёзов" информация о том, что британские лингвисты обнаружили фермера, словарный запас которого составлял около 300 слов. Британская Эллочка-людоедка.

< для продолжения.>

Состав и структура Национального корпуса русского языка

Состав и структура корпуса
Состав и структура Национального корпуса русского языка
Сведения о структуре и принципах отбора текстов для корпуса будут
размещены на сайте в ближайшее врем
Перечень текстов, входящих в корпус:

Азольский (2)
Аксенов (5),
Алексин (1),
Горенштейн (1),
Гранин (2),
Гроссман (2),
Довлатов (9),
Домбровский (4),
И. Грекова (11),
Искандер (25)
Казакевич (1),
Окуджава (1),
Петрушевская (1),
Солженицын (3),
Т. Толстая (4),
Трифонов (2),
Шаламов (1)

Готовится к публикации:

М.Булгаков (1),
И.Грекова (2),
Домбровский (1),
Катаев (1)
Трифонов (1),
Улицкая (1)

На главную страницу

Copyright © 2003 Лотошко Ю.Р. (Lotoshko Yu.R.) 
Пишите Lotoshko Yu.R.
ICQ: 303397642
Дата создания - 30.12.2003 г.
Последние изменения - 10.01.2004 02:13
Hosted by uCoz