Значимость текстаCertum quia impossibile est Ниже даются образцы результатов анализа информационной значимости газетного текста на чешском языке в досовском формате (без гачеков и чарок) . Единственное, что я удалил из этих образцов, - это индексы информационной значимости анализируемых тем. В примерах оставлено указание на общую информационную значимость статьи. Анализ выполнялся в основном на 286 пекашке, поэтому анализ одной статьи занимал до 10 минут, но это было намного точнее, чем вычитывание текста глазками. Пентюшка один (133) раскидывал недельную рассылку 5-7 газет по темам раз в 20-30 быстрее, если бы это делалось "вручную", и самое главное, он железный, он не уставал и ничего не пропускал. В своём анализе был более объективен, чем человек. Анализ выполнен - Thursday, 2/19/1998 Vrchni velitel spojeneckych sil NATO v Evrope Wesley Clark jednal v Praze o vstupu CR do NATO NATO ma podle vrchniho velitele spojeneckych sil aliance v Evrope Wesleyeho Clarka zajem o to, aby ceska armada pusobila v dalsich predpokladanych mnohonarodnostnich silach v Bosne a Hercegovine. Clark pri jednani s nacelnikem generalniho stabu ceske armady Jirim Nekvasilem a ministrem obrany Michalem Lobkowiczem dale uvedl, ze ceska armada muze byt pro NATO posilou. Planovani nasich vydaju na obranu oznacil za realisticke. Clark vyjadril take spokojenost s narustajici podporou vstupu do NATO u ceske verejnosti. Pokud by Rada Evropy nebo jina odpovidajici instituce vyzvala mezinarodni spolecenstvi ke spolecnemu postupu proti Iraku, Ceska republika by se teto akce zucastnila. Novinarum to rekl prezidentuv mluvci Ladislav Spacek po schuzce prezidenta Vaclava Havla s vrchnim velitelem sil NATO v Evrope Wesleym Clarkem. General Clark vsak novinarum rekl, ze s prezidentem Havlem o moznosti ucasti Ceske republiky v teto akci nehovoril. Uvedl, ze se rozhovor tykal predevsim podrobnosti procesu rozsirovani NATO. Pri setkani s predsedou Senatu Petrem Pithartem Clark varoval pred zdrzovanim ratifikace vstupu do NATO v ceskem parlamentu. Odlozeni ratifikace az do volebniho obdobi pristi Poslanecke snemovny pozaduje zejmena opozicni socialni demokracie. Po predcasnych volbach, v nichz CSSD ocekava sve vitezstvi, by totiz mohla prosadit konani referenda. Анализ выполнен - Thursday, 2/19/1998 Dnes z historie cesko-slovenskych vztahu Pred peti lety /8.2.1993/ byla oddelena mena Ceske republiky a Slovenska. Zaroven skoncila platnost dohody o menove revizi mez obema zememi. V prvni fazi oddeleni pouzily centralni banky pro odliseni men system osvedceny z dob rozpadu Rakouska-Uherska - kolkovani bankovek. Jak loni v lete napsal tydenik Reflex, kolky nechal vytisknout tehdejs guverner SBCS Josef Tosovsky uz v lete 1992 v Kolumbii. Tento zpusob rozliseni znamenal vsak rovnez vyjimecnou prilezitost pro padelatele. Uredni organy tehdy zajistili pres 14.000 bankovek s falesnymi kolky. Анализ выполнен - Thursday, 2/19/1998 Textove telefony pro neslysici jsou v CR stale novinkou Sluchove postizeni pouzivaji v Ceske republice zatim jen asi ctyri desitky textovych telefonu. Pristroj, ktery byl zkonstruovan ve Spojenych statech v roce 1963, se na cesky trh dostal teprve loni a mezi sluchove postizenymi je o ne velky zajem. Podle Ivana Polacka z brnenske pobocky Ceske unie neslysicich mohli obcane trpici poruchami sluchu u nas dosud vyuzivat ke komunikaci predevsim faxu. I kdyz se osvedcily, neumoznovaly "zivou" komunikaci, protoze se neslysici mohli domlouvat vlastne pouze formou dopisu. Описание самых основных принципов работы программы "Kondor" (TFS - Toy For Spy). были изложены в докладе, который я делал на конференции в Пущине (Тезисы на этом сайте см. раздел Публикации). Давая второе название (TFS) своей программе, я не ожидал, что оно попадет в десятку и по своей сути перехлестнётся с англо-американской программой ECHELON. Об этом я узнал уже в 2000 г., когда в зарубежных СМИ поднялась шумиха по поводу глобальной слежки за всем и вся. К августу 2000 г. и в российском и в европейском интернете через поисковые системы можно было найти некоторую информацию об этой разведовательной системе. Следует отметить, что вся эта система хорошо обкакалась в связи с событиями 11 сентября 2001 г. в Нью-Йорке (но об этом ниже). Здесь же я хочу сказать одно - любые серьёзные разработки, связанные с компьютерным анализом содержания (смысла) информации на ЕЯ, вряд ли доступны широкой научной общественности. Я не говорю здесь о коммерческой выгоде, это касается, в первую очередь, национальной безопасности государства. Именно поэтому в начале 2002 года АНБ (агентство национальной безопасности USA) приглашало на работу специалистов в области компьютерной лингвистики, знающих славянские, восточные языки (см.- HotJob). Естественно, что любые разработки в недрах таких структур не будут являться достоянием широкого обсуждения (по роду их деятельности). Те же публикации, которые появляются для широкого пользования, не имеют большой ценности (относительной). Все эти публикации для аналитиков - что не надо делать, чтобы не повторять ошибки и не тратить напрасно время и деньги. Но вернемся к "Кондору", чтобы перейти к некоторым законам инфосферы. Если вы нашли статью, а не тезисы, то самые общие представления о том, как осуществлялась оценка значимости текста, вы уже имеет. Повторяться не буду. Остановлюсь на том, о чём не упоминалось в докладе. В последних версиях "Кондора" я ввёл нижнюю границу значимости. Что под этим подразумевается? Во время анализа просчитывалась значимость содержания всей статьи как по тематической соотнесенности (topics), так и значимости в целом (то, что указано в примерах выше). При этом, если общий индекс (значимость) анализируемой статьи был ниже определенной константы, заданной при компиляции программы (первые версии), то такая статья отправлялась в "мусорную корзину". В последних версиях нижний порог значимости можно было задавать при запуске программы, т.е если вы выставляли индекс значимости 10, то все статьи, общее значение которых было 10 и более процентов выделялись как самостоятельные, статьи, с более низкой значимостью отправлялись в "мусорную корзину". Следует так же отметить, что общая значение той или иной статьи могло оцениваться в 110, 130 и более процентов. Такие статьи являлись сверхзначимыми и имели специальную маркировку (восклицательный знак в начале имени файла, затем следовала буква топика и индекс значимости). Вся остальная информация, имеющая общее значение ниже заданного параметра, записывалась в один общий файл (musor.txt). Самым важным в доводке программы было
Если самая первая БД была объёмом около 20 Кб, то в последней (3-ей модификации) объём был доведен до 65-68 Кб, при этом точность анализа возрастала до 95-97 процентов. Лень - двигатель прогресса. Побывав в 1998 г. в летней школе в Дебрицине (Венгрия) и послушав некоторые лекции западных лингвистов-преподавателей, я понял, как сделать автоматическую систему, которая позволит определять значение новых элементов БД, необходимых для оценки значимости текста. Решить это можно только через морфологический анализ текста (не тэгинизацию). |
Реклама на сайтеЗаранее приношу извинение за содержание рекламы, которую предоставляет поставщик рекламы,
|
|
Если у Вас есть, что рекламировать, то
Вам поможет в этом
'); //-->
Партнерская программа RMF: 0,05$ за клик, 0,01$ за popup, 500$ с заказа, 10% от заработка рефералов. Регистрация »»
Нажми, зарегистрируйся и ты получишь 10$
Если Вы хотите что-то рекламировать и получать за это, то вам поможет в этом
Copyright © 2003 Лотошко Ю.Р. (Lotoshko Yu.R.)
Пишите Lotoshko Yu.R. ICQ: 303397642 |
Проверить аттестат |