Печать

О системе анализа текста

Открытая система автоматизированной обработки текста предназначена для решения задач автоматизированного анализа текста,
требующих извлечения информации:

  1. Задачи лингвистов: составление словарей писателей, определение авторства,  определение особенностей стиля писателя и т.д.
  2. Автоматическая классификация, аннотирование, реферирование, в том числе выделение ключевых слов предметной области.
  3. Поиск по информации, извлеченной из текстов.
  4. Определение плагиата, использования одного текста в другом и т.д.
  5. Определение статистических, лингвистических и интегральных характеристик  текстов и структур, извлекаемых из них.

Система предназначена, прежде всего, для специалистов, занимающихся анализом текста во всём его многообразии и может помочь решить такие проблемы как:

а) классификация текстов;
б) составление словарей по различным авторам и тематикам;
в) установление плагиата.

Система ориентирована на технологию применения множества моделей к множеству текстов и на совместное продвижение на этой основе при решении множества задач анализа текста специалистами из разных областей знаний. Система ориентирована на высокие показатели скорости обработки информации, время обработки определяется глубиной анализа и объемом обрабатываемого текста.

Система носит открытый характер по отношению к алгоритмам, которые применяютя при обработке, особенно это касается инструментов аналитической обработки, для которой создан язык сценариев, который позволяет в простом и удобном виде оформить алгоритм обработки текстов с учетом поставленной задачи.

Достоверность результатов система обеспечивает возможностью исправления и мониторинга получаемых результатов. Предоставляется возможность получать  любую промежуточную информацию и, соблюдая структуру входной информации,  вносить необходимые коррекции, как в ручном, так и автоматическом режимах.

Система сконструирована в виде замкнутых блоков с сохранением всех  результатов. При анализе не отбрасывается неоднозначность трактовки рассматриваемого текста, а включается в результаты обработки как третье состояние – неопределенность. 

Итак, система носит открытый характер как с точки зрения инструментов  обработки текста, так и возможности взаимодействия и обмена опытом при решении  задач анализа текстов. Такое взаимодействие усиливается использованием единойтерминологии, унификацией применяемых инструментов и средств, доступностью библиотек устоявшихся алгоритмов обработки текста. Всё это может повысить качество и доступность широкого общения и оценки получаемых результатов в противовес сложившейся практике.