hpin.gif (262 bytes)  

H I E R O G L Y P H
ПЕРВОЕ  ЗНАКОМСТВО

hpin.gif (262 bytes)

Чем Иероглиф отличается от других редакторов?

Основным достоинством редактора "Иероглиф" и других наших программ является наличие Hieroglyph Translation Engine (в дальнейшем просто "Иероглиф"). Иероглиф - это мощный блок функций осуществляющих осмысленную конверсию между разными стилями написания слов. Если взять к примеру русское слово "щучий" и попробовать написать его разными способами, то можно получить такие варианты: щучий, shuchii, tshuchiy, tschuchy, shuchiy, LIIy4uu, LIIychiy и т.д. Число вариантов написания некоторых слов может быть очень большим. Но несмотря на это, человек легко читает слова в любом написании. Обычный редактор конечно же не может увидеть в этом наборе букв слово. Иероглиф - может!!!

Как это делают другие?

Другие программы перекодировки из транслита в кириллицу используют длинные грамматики, составленные человеком и описывающие аномалии перевода. Например последовательность sh может переводиться как "ш", "щ" и "сх" в зависимости от положения в слове и окружающих букв. Эти особенности анализируются и записываются в виде правил и исключений. По мере появления новой информации грамматика пополняется новыми правилами. Очевидный недостаток такого подхода - это необходимость помнить предыдущие правила в грамматике, чтобы новые правила не конфликтовали со старыми и не возникало двусмысленных переводов. Другой недостаток - грамматика с каждым дополнением становится лучше и лучше но никогда не достигает идеала. При этом она сильно растет и это сказывается на скорости обработки текста. Представьте себе просмотр нескольких тысяч правил на каждом слове и вы поймете почему процесс может быть достаточно медленным. Конечно есть алгоритмы оптимизации поиска, позволяющие добиться приемлемой скорости, но сам подход к решению задач трудно назвать универсальным. Ведь разработка грамматики становится целым проектом для каждого нового языка.

Как это делаем мы?

Уникальность алгоритмов Иероглифа состоит в копировании интеллекта человека при распозновании образа. Иероглиф как и человек оперирует тремя понятиями - 

1. он знает, как выглядят и пишутся буквы, 
2. он знает какие сочетания букв имеют смысл в каком языке
3. он знает какие слова есть в каких языках. 

Если рассматривать эти три составляющие по отдельности, то первая представляет из себя около 200 коротких правил описывающих 33 буквы русского алфавита в разных способах написаниях, второе - это бинарный файл размером около 30 КБ полученный на основе автоматического анализа большого числа разных текстов (в данном случае была взята Библиотека Мошкова - около миллиона слов). Только вдумайтесь - больше чем 1 Гигабайта информации оказалось сжато в 30 килобайт. В интеллекте человека происходит что-то подобное. Если у вас спросить может ли буква "м" быть в слове между буквами "ш" и "щ" вы не станете перебирать в уме все слова языка. Вы сразу знаете ответ. Так же работает и Иероглиф. Он моментально определяет какие слова могут соответствовать написанию, а какие нет. Например слову schuchy  может соответствовать слова "щучий" и "шучу", а слово "сцхусху" явно не вариант. Человеку нужна микросекунда, чтобы знать это. У Иероглифа это занимает не больше. Но человек определяет реальность слов не только по возможности их произношения. Для проверки выбора человек привлекает свое знание языка. Для Иероглифа знание языка заменяет стандартный спелл-чекер, который подсказывает, есть ли такое слово в языке. Таким образом Иероглиф точно копирует весь процесс мышления человека при обработке образа и практически не требует дальнейшей настройки и улучшения грамматики.

Неужели все так просто?

Процесс перевода перестает быть простым, когда в тексте начинают встречаться слова на другом языке, разные символы, сокращения, имена файлов, формулы, римские цифры и прочие неучтенные спелл-чекером аномалии. Здесь вступают в работу другие алгоритмы, помогающие отфильтровать такие аномалии и оставлять их непереведенными. Для отлавливания английских слов тоже используется спелл-чекер. 

Пытливый читатель может спросить - а что делать, если слово есть и в русском и в английском языке? Например слово "net" означает в английском "сеть". Переводить его в русское слово "нет" или оставить как есть? Здесь на помощь приходит анализ контекста фразы. Выясняется какие слова стоят вокруг и делает правильный выбор. 

А в чем, собственно, универсальность?

Иероглиф является мощным инструментом не только для перевода из транслита в кириллицу, но и позволяет работать над исправлением текстов испорченных ошибками набора или распознавания текста. Метафора человеческого интеллекта опять приходит в голову. Человек, видя слово "iiустота", моментально определяет, что двойная буква i в начале на самом деле русская буква "п", а в слове "прадва" буквы "д" и "в" поменяны местами. Аналогичный принцип "мышления" Иероглифа и здесь оказывается очень кстати. 

Обучением Иероглифа обработке ошибок распознавания занимается Сергей  Москалев - один из крупнейших специалистов по распознаванию сосканированных текстов, работавший над такими  проектами,  как  распознование  (Энциклопедического) словаря Брокгауз, Интернет-проект "Брокгауз On-line", эксперт, знающий все известные программы распознования текста и знающий какие ошибки они совершают. 

А какая от этого польза мне?

Программа AfterScan включает в себя огромный опыт специалистов помноженный на гибкость и универсальность алгоритмов Иероглифа. Даже первая бета-версия программы позволила легко найти в словаре ошибки не замеченные многочисленными корректороми. Другой пример - на распознанном одной из коммерческих программ тексте длиной в 10 страниц, AfterScan делает больше 3200 исправлений. И это после того, как программа распознавания пропустила текст через свои алгоритмы верификации и сравнила все со своим словарем. Представьте, что вы исправляете эти ошибки руками. Пусть исправление одной ошибки занимает 5 секунд. Помножьте 3200 на 5 и получите почти 5 часов напряженной работы и нечеловеческой концентрации. А сколько ошибок будет просто пропущено?

Программа AfterScan находится в завершающей стадии разработки. Вскоре будет опубликована программа AfterScan Lite  осуществляющую лишь эвристические замены при исправлении ошибок без привлечения основного модуля Иероглифа. Но даже упрощенная версия показывает весьма драматические результаты и сэкономит вам часы, а то и дни исправления ошибок. Если вы установили себе программу "Иероглиф", то вам не нужно устанавливать AfterScan Lite отдельно. Вся функциональность уже включена в редактор "Иероглиф" и доступна из меню Tools | AfterScan Cleanup.

А можно пример?

Вот фрагмент сосканированного и распознанного текста, после обработки программами AfterScan Lite и AfterScan Professional. Слова с ошибками и старо-русские слова выделены цветом: 

Вот исходный текст:

Попудярная  Библейская  Эициклопедiя отв^чаетъ почти на большую
часть   вопросовъ   библейской  археологiи,  архитектуры,  астрономiи,
географiи,   бiографiи   библейскихъ  д^Ьятелей,  ботаники,  священной
библiографiи,   военной   науки,   зоологiи,   землед^лiяискусствъ,
минералогiи,    метеорологiи,   медицины,   математики,   нумизматики,
педагогики,  физики,  этнографiи  и  друг.  Богосдовскiе  термины,  за
исключенiемъ терминовъ строгобибдейскаго значенiя, опущены. Объясненiе
подробностей библейскихъ терминовъ касается какъ каноническихъ, такъ и
неканоническихъ  книгъ  Свящ.  Писанiясъ тбмъ однако что объясненiя
сихъ  посл^днихъ отдичаются своею значительною краткостiю сравнительно
съ первыми.


Вот текст после обработки AfterScan Lite:

Попудярная  Библейская  Эициклопедия  отвечает  почти на большую часть
вопросов  библейской  археологии,  архитектуры, астрономии, географии,
биографии   библейских  деятелей,  ботаники,  священной  библиографии,
военной    науки,   зоологии,   земледелия,   искусств,   минералогии,
метеорологии,  медицины,  математики, нумизматики, педагогики, физики,
этнографии  и  друг.  Богословские  термины,  за  исключением терминов
строгобиблейского    значения,    опущены.   Объяснение   подробностей
библейских  терминов  касается  как канонических, так и неканонических
книг  Свящ.  Писания,  с  тем  однако  что  объяснение  сих  последних
отдичаются своей значительною краткостию сравнительно с первыми.


и наконец, после обработки AfterScan Professional

Популярная  Библейская  Энциклопедия  отвечает  почти на большую часть
вопросов  библейской  археологии,  архитектуры, астрономии, географии,
биографии   библейских  деятелей,  ботаники,  священной  библиографии,
военной    науки,   зоологии,   земледелия,   искусств,   минералогии,
метеорологии,  медицины,  математики, нумизматики, педагогики, физики,
этнографии  и  друг.  Богословские  термины,  за  исключением терминов
строгобиблейского    значения,    опущены.   Объяснение   подробностей
библейских  терминов  касается  как канонических, так и неканонических
книг  Свящ.  Писания,  с  тем  однако  что  объяснение  сих  последних
отличаются своей значительной краткостью сравнительно с первыми.


И ВСЕ ЭТО АВТОМАТИЧЕСКИ!!!

В данном примере приведен фрагмент текста в старо-русской орфографии. На самом деле AfterScan может подчистить любой текст, даже многократно проверенный корректорами. AfterScan видит ошибки не заметные для глаз - использование латинских букв с одинаковыми начертанием в русских словах, лишние пробелы, несоответствия знаков препинания типографским нормам и т.д.

А можно поподробнее?

Более подробное познакомится с программой AfterScan Lite вы сможете установив ее себе на компьютер, когда она будет выпущена.. Если Вы работает с большими массивами текста, часто используете программы распознавания, то вам необходим серьезный инструмент для работы. Таким инструментом будет AfterScan Professional. По вопросам приобретения обращайтесь по адресу morozov@adelaida.net

Я не работаю с распознаванием текстов. Как еще я могу извлечь пользу из Иероглифа? 

Если вы любите IRC-чаты, то вам понравится другая наша программа  IRC-3PO, осуществляющая синхронный перевод в между кириллицей и транслитом.. Программа названа в честь робота C-3PO из фильма "Звездные Войны", который как известно был универсальным переводчиком. Читайте об уникальных свойствах этой программы на ее страничке 


Оглавление - Описание - Возможности - Работа - ЧаВО