Система извлечения знаний из текстов, "Аналитический курьер", "Система управления досье", "Х-FILES"

Эффективность работы с текстовыми ресурсами заслуживает самого пристального внимания руководства и ИТ-специалистов государственных структур и коммерческих компаний. 80-85% информации получаются в результате сравнения, анализа и синтеза разрозненных и разбросанных по разным источникам фактов (сообщения новостных лент, служебная переписка, платежные документы и т.д.). Аналитик, который по этим фактам должен составить целостную картину происходящего, нуждается в мощных инструментах, облегчающих извлечение знаний из текстов.

На протяжении ряда лет компания "Ай-Теко" развивает технологии аналитической обработки текстовой информации. "Ай-Теко" принадлежат патентные свидетельства на систему извлечения знаний "Аналитический курьер" и "Систему управления фактографической информацией X-Files". В компании также разработан программный комплекс "Электронный оператор", реализующий технологию нечеткой идентификации объектов на основе семантического анализа текстовых документов. В департаменте разработки информационно-аналитических систем развиваются базовые математические и лингвистические методы анализа текстовой информации, используемые в этих системах.
Системы "X-Files" и "Аналитический курьер" допускают работу в оффлайн-режиме, в котором результат представляется аналитику, не имеющему постоянного подключения к Web-серверу, в виде отчёта. Существуют различные формы представления информации в пакетном режиме, в том числе в формате XML.
С помощью различного инструментария семантического анализа текста система "Аналитический курьер" позволяет извлекать знания из хранилищ текстовой информации. Она производит мониторинг контента потока документов и строит их аналитическое представление.

Система "Аналитический курьер"
имеет многослойную архитектуру с "тонким" клиентом, предоставляет пользователям Web-интерфейс, реализована на Windows-платформе .NET. Такая архитектура предполагает, что система состоит из относительно независимых звеньев - сервера данных, сервера приложений, Web-сервера и самих приложений. Компания "Ай-Теко" имеет партнерский статус Microsoft Gold Certified Partner ("Золотой партнер" Microsoft в категории Advanced Infrastructure Solutions).
Система "Аналитический курьер" развивается в направлении улучшения качества анализа текстов, увеличения поддерживаемых иностранных языков, поддержки большего числа серверных и портальных платформ, улучшения интерфейса аналитика и администратора.
"Аналитический курьер" позволяет быстро погружаться в новые предметные области, которым посвящены тексты фонда, структурировать проблематику, готовить отчёты и информационно-аналитические материалы.
Уникальные функциональные возможности системы обеспечили ей внедрение в организациях, обрабатывающих большие объёмы документов.

Примеры экранных форм системы

Рис.1 Образец тематической кластерной карты сообщений

Рис.2 Образец семантической карты

"Система управления фактографической информацией X-Files" предназначена для выделения фактов из различных источников, заполнения ими досье и их последующей аналитической обработки. Она позволяет следить за потоками текстовой информации и извлекать из них необходимые факты.
"X-Files" предоставляет аналитическое обеспечение деятельности органов государственной власти, правоохранительных органов, крупных коммерческих компаний. Этот программный комплекс применяется и как аналитический инструмент разведки, и как подсистема поддержки корпоративной безопасности подразделений.
В качестве источника документов и сообщений система управления досье "X-Files" может эффективно использовать хранилища документов системы "Аналитический курьер".
"X-Files" автоматически выявляет факты, связанные с объектами, на которые системой автоматически ведётся досье. Зачастую факты свидетельствуют о взаимосвязях объектов, что позволяет находить скрытые причины событий или прогнозировать поведение объектов в будущем. Взаимосвязи объектов визуально представляются в виде карты связей или деревьев.

Рис.3 Пример карты связей

Понятие факт системы "X-Files" характеризуется рядом возможных свойств:

  • тип факта;
  • объект-владелец факта;
  • место действия факта;
  • объекты-участники факта;
  • время длительности факта;
  • значение факта (например, "продажа бизнеса").

С помощью программ-автоматов, допускающих параллельную работу, система "X-Files" осуществляет выявление фактов из документов и заполняет досье поставленных на мониторинг объектов.

В дальнейшем система предоставляет доступ к накопленной фактографической информации через Web-интерфейс для решения следующих аналитических задач:

  • автоматическое выявление прямых и косвенных (т.е. через третье лицо) связей объекта;
  • автоматическое выявление связей объектов по месту и времени (когда события произошли с разными объектами в одном месте или в близкое время);
  • типизация связей, представленных различной лексикой;
  • формирование групп объектов, связанных между собой общностью фактов (например, место, время, содержание факта);
  • построение карты связей объектов для различных типов связей, визуализация и фильтрация связей;
  • поиск оптимальных (обычно, кратчайших) связей между заданными объектами;
  • построение многомерных частотных распределений фактов.

Архитектура системы предусматривает взаимодействие с конечным пользователем через портал, использование Web-сервисов для взаимодействия с другими информационными системами, выгрузку данных в формате XML для имеющихся унаследованных приложений Заказчика.

Аналитические подразделения и службы безопасности банка
Анализ кредитоспособности клиента, ведение досье на объекты, осуществляющие определённые подозрительные платежи и т.д.
Страховые компании
Обнаружение мошенников, неоднократно причинивших ущерб, недобросовестных объектов-страхователей, их связей, а также закономерностей событий (по месту и времени), происходящих с клиентами страховой компании.
Аналитические подразделения производственных компаний
Анализ наиболее частых неполадок, помощь в принятии решений.
Подразделения экономической разведки предприятий (анализ рынка), подразделения
Предоставление руководителям ценной информации, необходимой для принятия стратегически важных управленческих решений.
Подразделения специальных служб, правоохранительных органов
Ведение досье на избранные объекты, поиск закономерностей в их деятельности и фактов, которые с ними связаны.
Аналитические подразделения и службы безопасности гос.органов
Поиск информации, анализ проблем, ведение досье на объекты, получение регламентных отчетов. Обеспечение лиц, принимающих управленческие решения, такой информацией, которая помогала бы выбрать наиболее оптимальный вариант решения стоящей перед организацией проблемы.

Программный комплекс "Электронный оператор".

В 2005 г. компания Ай-Теко обобщила статистику рисков ложной тревоги и пропуска цели, связанных с выделением нечетко идентифицированных в тексте объектов, разработала новые базовые аналитические компоненты для обработки текста и аккумулировала их в одном продукте комплексного анализа документа "Электронный оператор". Комплекс осуществляет автоматизированный контроль потока текстовых данных, который комплексно использует методы лингвистического, статистического и семантического анализа, в результате которого практически точно идентифицируются многословные названия объектов в тексте.

Программный комплекс «Электронный оператор» элиминирует следующие зашумляющие процесс идентификации объектов факторы:

  • Случайно расставленные разделители внутри и между слов будут правильно проанализированы для текста на русском или других заявленных языках при поиске нечеткого совпадения с шаблоном написания ключевого объекта. Для решения этой задачи, помимо применения регулярных выражений, используется морфологический и предсинтаксический виды лингвистического анализа текста на соответствующем языке документа. Этот метод показал свою высокую эффективность;
  • Текст, набранный на неверной раскладке клавиатуры, может исказить написание объекта в документе. Для анализа этой ситуации используется полный морфологический разбор текста документа на определенном языке с анализом неопознанных слов и их заменой на правильные;
  • Фонетическое написание наименования поискового объекта. В случае несовпадения написания наименования объекта со словарным используется также вариантное написание на основе похоже звучащих, но по-другому написанных наименований объектов. Метод генерации лингвистических вариантов специфичен для каждого из языков;
  • Название объекта указано в производной форме. В этом случае нет прямого совпадения со словарным объектом. Приведение к канонической словарной форме позволит его идентифицировать. В случае многословного шаблона – в общем случае нетривиальная задача. Для русского языка она решена. Для английского языка имена собственные в документе могут иметь либо национальное написание, либо международное (французскую транскрипцию). Это представляет серьезную исследовательскую задачу.

В программном комплексе документ, содержащий свободный текст на русском, русском (латиница), английском и других языках, анализируется специализированными модулями программного комплекса на предмет соответствия отдельных частей текста заданным поисковым объектам. Результатом работы комплекса является число - оценка вероятности наличия поискового объекта в документе. Количество обрабатываемых документов и заданных поисковых объектов не ограничивается. В этом случае, программный комплекс выстраивает матрицу оценок соответствия объектов текстам. Во время анализа может использоваться порог значимости оценок, выделяющий область существенных, по мнению эксперта, результатов.
«Электронный оператор» активно используется кредитными компаниями, контролирующими органами для особо надежной идентификации объектов.


Автор проекта: Киселев С.Л.
OOО «ITECO TASHKENT»
Контактный телефон: 238-99-11