Компьютерное определение значимости элементов ЕЯ в высказывании

От смысла текста к значению слова
(Опыт смыслового и морфолого-синтаксического анализа текста в компьютерной программе "Lingvo")

Черновик доклада.  Начат 28.09.2003 г. и не закончен из-за своей невостребованности 

Тот, кому приходилось читать доклады, прекрасно осознаёт, что устный доклад существенно отличается от написанного, поскольку устное общение предполагает вопросы и ответы. В письменном вопросы задавать уже поздно. "Что написано пером, того не вырубишь топором". Но при современных технологиях можно писать и изменять.

Ю.Р.Лотошко

Ключевые слова: семантика, информационная значимость, морфология, текст, компьютерный анализ.

The possible way of automatic Data Base enlargement that helps to determine the informational value of a text are presented in the report. The problem is solved through the morphologically syntactical analysis of a text based on a non-traditional approach to the language system.

Для решения проблемы, вынесенной в заглавие доклада, задача разбивается на два основных этапа.

Первый: У нас есть некоторое множество текстов или газетный текст, из которого необходимо вычленить статьи, определить их тематическую соотнесённость и информационную значимость. При анализе текста часть материала имеет низкий индекс информационный значимости. Такой материал отправляется в "мусорную корзину".

Второй: Провести компьютерный анализ текстов из "мусорной корзины" с целью 

  1. поиска новых слов, которые необходимо включить в существующую ПБД (первоначальную базу данных), 
  2. определить значение вновь включаемых слов.

Первый этап - смысловой анализ текста и оценка информационной значимости текста, был решен довольно-таки быстро (за несколько месяцев) и осуществлялся компьютерной программой "Kondor", разработанной и успешно использовавшейся в 1997-1998 гг. при анализе газетных публикаций на чешском языке [1]. Единственным и главным недостатком при работе с программой было то, что приходилось "вручную" просматривать тексты, которые с точки зрения программы не соответствовали параметрам, заданным в ПБД, и выявлять новые элементы, которые необходимо было включать в ПБД. По мере роста ПБД (с 20 до 60 Кб и более) точность информационной оценки текстов возрастала, однако среди статей, отбрасываемых в "мусор" всё-таки попадались такие, которые при "вычитке" заслуживали определённого внимания. Это объяснялось тем, что субъективное представление о семантических полях и, соответственно, словах, входящих в интересующие темы, не являлось идеально точным. Именно поэтому и встал вопрос об автоматическом определении значимости слов и выявлении именно тех слов, которые необходимо включить в ПБД. Решение этой проблемы представляет второй этап в развитии программы "Kondor".

Теоретически, с точки зрения традиционной лингвистики, данный вопрос решается довольно просто - путём контекстуального анализа, однако для информационных технологий решение этой задачи поставило целый ряд новых проблем. Назовём лишь две из них, наиболее важные, в первую очередь, для флективных языков, к коим относится и русский язык, а именно:

  1. морфологическая соотнесённость слова (оставляем за рамками вопрос о том, что такое слово в тексте) и
  2. синтаксическая роль слова в предложении.

Анализируя разработки в данных областях, опубликованные на сайте "Диалог", в частности работы Диалога-2003, мы пришли к выводу, что работы в этих направлениях ориентированы как правило 

  1. только на стандартную, кодифицированную форму языка и
  2. лексическая база морфологического анализа ограничена только данными определённого лексикографического пособия (для русского языка таким пособием, своеобразной библией является "Грамматический словарь" А.Зализняка [2].).

Мы, в свою очередь, при решении морфолого-синтаксического анализа текста, исходили из следующих установок:

  1. программа должна чётко определять на каком языке, в какой кодировке, в каком формате представлен анализируемый текст (например, на болгарском,  белорусском или русском), если текст на русском языке, то убедится и при необходимости перекодировать текст в кодировку ПБД [3];
  2. анализировать русский текст таким, какой он есть (с ошибками, опечатками, неологизмами и т.п ).

Для решения поставленных требований была создана новая теория морфолого-синтаксической системы русского языка, которая учитывает не только традиционно выделяемые морфологические разряды слов, но и включает в себя явления, которые ранее рассматривались либо на уровне синтаксиса (вводные слова), либо отдельными дисциплинами (например, ономастика) [4]. Опираясь на эту концепцию, началась разработка отдельных алгоритмов (самостоятельных программ) и базы данных, позволяющих осуществлять компьютерный морфолого-синтаксический анализ текста. Особенностью разрабатываемого компьютерного комплекса "Lingvo" является то, что при его создании главным ориентиром являлись теоретические сведения, связанные с языком и текстом. При отсутствии тех или иных теоретических обоснований проводились дополнительные исследования, подтверждающие или отрицающие ранее выдвинутые теоретические постулаты (картезианский метод). Именно поэтому при создании алгоритма морфологического анализа текста и базы данных не использовались технологии, присущие прикладным видам лингвистики, пытающихся решить те же проблемы своими методами. Остановимся только на некоторых особенностях разрабатываемой системы.

Первой и основной особенностью разрабатываемой системы является то, что при морфологическом анализе используются данные текстового файла, преобразованные в файл прямого доступа. Следует также отметить, что строковые данные в текстовом файле в досовских версиях (Pascal) были ограничены 255 символами, в версиях под Windows такое ограничение снято.

Второй особенностью БД для морфологического анализа является её многоуровневость, что обусловлено основным алгоритмом морфологического анализа текста.

Третья особенность - в БД используются сегменты слов, слова и словосочетания.

Последней особенностью БД является то, что основой для неё послужили разные лексикографические источники, т.е. БД намного шире, чем данные "Грамматического словаря" А.Зализняка при этом общий объём БД меньше текстового файла ГС (200-300 Кб).

Не останавливаясь более подробно на морфолого-синтаксическом анализе текста, поскольку это промежуточное звено в достижении поставленной цели, перейдём непосредственно к основной теме доклада: от смысла текста к значению слова.

Итак, будем считать, что мы уже имеем набор текстов в "мусорной корзине", мы умеем делать морфолого-синтаксический анализ текста. Что дальше?

На первом этапе последующего анализа встают следующие вопросы: как в этом мусоре найти слова, необходимые для пополнения ПБД? Что должно являться объектом поиска? Каковы формальные признаки этих слов? 

Формальные признаки для искомых слов следующие:

  1. слово должно быть существительным (нарицательным или онимом (нас, естественно главным образом интересуют антропонимы);
  2. слово не должно быть уже включённым в ПБД (элемент новизны);
  3. слово не должно быть включённым в семантические фильтры программы;
  4. слово должно соотносится с определённой темой (не являться "пустышкой", то есть должно быть "ключевым" в какой-либо теме).

По своей сути все перечисленные выше признаки лёгко определяются в современных  компьютерных технологиях. Возможно, что некоторое затруднение может вызвать последний признак, но и он легко преодолевается, если использовать статистические методы. Искомое слово в "мусорном" тексте должно обладать низкой частотностью и не должно встречаться в текстах аналогичной тематики исключение для антропонимов).

Итак, мы нашли слово, которое должны включить в ПБД. Оно обладает всеми вышеперечисленными признаками. В зависимости от того, является ли слово именем собственным (онимом) или нарицательным, осуществляется процесс определения значимости этого слова в соответствии с общей концепцией ПБД программы "Kondor"

Если найденное слово является нарицательным, то первичная значимость слова определяется значимостью текста, в котором оно встретилось, затем происходит уточнение значимости слова в соответствии с принципами организации ПБД программы "Kondor".

Если найденное слово является онимом, тогда необходимо учитывать тип онима (антропоним, топоним, название партий, предприятий, компаний, какого либо продукта и т.п.). В данном случае значимость онима определяется типом онима и принципами организации ПБД программы "Kondor". Особое место занимают антропонимы, поскольку это связано с "эффектом Галилео".


Сноски

1 Основные принципы работы программы были описаны в статье "Компонентный анализ информационной значимости текста (на материале газетных публикаций - чешский язык)", тезисы которого расположены по адресу: http://www.biophys.msu.ru/scripts/trans.pl/koi/cyrillic/awse/confer/MCE99/172.html

2 См. анализ некоторых публикаций Диалога 2003 на http://www.compling.boom.ru/raznoje.html

3 Лотошко Ю.Р. Система распознания естественного языка в информационных технологиях http://www.compling.boom.ru/kompmplin/recognize.html

4 Представление о данной теории можно найти на сайте http://www.compling.boom.ru в разделе морфология.

Реклама на сайте

Заранее приношу извинение за содержание рекламы, которую предоставляет поставщик рекламы,
но не до жиру быть бы живу

Каждый Ваш клик (не менее трёх) на рекламных ссылках позволит мне заработать от 0.5 до 5 центов.
Может зубы вставлю.

Грёбаная страна, раз опускаешься до такого. Ну каковы правители, таковы и порядки. Пиздят об одном, в реальности - другое. Далеки они от народа (дальше, чем декабристы). 

Единственное БЛАГО, что за такие сайты пока ещё не сажают (прогресс коммуникации), но читают.

Кликни - не будь жлобОм или жлОбом,
безработному дОценту (не путать с прОоцентом) кушать хочется, правда, сначала зубы вставить надо, шамкать нечем.


Ремонт квартир и офисов, отделка, перепланировка, реконструкция, строительство. Быстро, качественно, недорого. Премии посредникам



 VA-bank - для игроков в азартные игры



Портативная техника от A до Z. Доставка в любой город России и Белоруссии

DIGITA.ru: LCD-экраны, телевизоры, магнитолы, музыкальные центры, проекционные телевизоры... Hi-End аппаратура. VIP-обслуживание

eServer.ru :: Хостинг-провайдер №1

Agava.ru

Va-bank - для игроков в азартные игры

PORTA.RU
MP3 плейеры
MD плейеры
CD плейеры
Радио
Диктофоны

Фотоаппараты
Видеокамеры

Сотовые трубки
Радиотелефоны

Ноутбуки
Карманные ПК
Переводчики

Если у Вас есть, что рекламировать, то Вам поможет в этом


А это, если хотите стать рефералами и зарабатывать деньги в сети


поставщик рекламы на Ваш сайт

Партнерская программа RMF: 0,05$ за клик, 0,01$ за popup, 500$ с заказа, 10% от заработка рефералов. Регистрация »»

Британская фирма cashculture

Нажми здесь, sendmoreinfo
Нажми здесь

Нажми здесь, Nocs
Нажми здесь

LeadExchanger
Нажми здесь

Centmails
Нажми здесь

KLAMM -ЖМИ!
Нажми здесь

Нажми здесь, spedia
Нажми здесь

E-mailPaysU
Нажми, зарегистрируйся и ты получишь 10$

Если Вы хотите что-то рекламировать и получать за это, то вам поможет в этом

Маргинал Лотошко ищет работу

О себе и сайте Список моих публикаций

Искусственный интеллект

Компьютерная лингвистика. Компьютерная морфология

Разное

Слоговая система языка Компьютерная семантика (на оглавление этого раздела) Методичка по чешскому языку Диалектология, Тематический диалектный словарь Мои ссылки в Интернете
Отзывы и замечания Список zip-файлов, выложенных на сайте "Картинки" из недр Интернета и мои фотографии Сменные "нежданчики" Для "постоянных" посетителей
Некоторые кулинарные рецепты для рыб-гурманов Корпусная лингвистика
("А был ли мальчик?")
Диалог 2004 Постоянные "нежданчики" Литературный уголок
Горячие новости "Закон Мёрфи" и под. О бедном Володе замолвите слово Credo Для тех, кто ищет работу

Copyright © 2003 Лотошко Ю.Р. (Lotoshko Yu.R.)
Пишите Lotoshko Yu.R.
ICQ: 303397642 Последние изменения - 09.05.2004 04:40

Проверить аттестат

Hosted by uCoz