О системе анализа текста
Открытая система автоматизированной обработки текста предназначена для решения задач автоматизированного анализа текста,
требующих извлечения информации:
- Задачи лингвистов: составление словарей писателей, определение авторства, определение особенностей стиля писателя и т.д.
- Автоматическая классификация, аннотирование, реферирование, в том числе выделение ключевых слов предметной области.
- Поиск по информации, извлеченной из текстов.
- Определение плагиата, использования одного текста в другом и т.д.
- Определение статистических, лингвистических и интегральных характеристик текстов и структур, извлекаемых из них.
Система предназначена, прежде всего, для специалистов, занимающихся анализом текста во всём его многообразии и может помочь решить такие проблемы как:
а) классификация текстов;
б) составление словарей по различным авторам и тематикам;
в) установление плагиата.
Система ориентирована на технологию применения множества моделей к множеству текстов и на совместное продвижение на этой основе при решении множества задач анализа текста специалистами из разных областей знаний. Система ориентирована на высокие показатели скорости обработки информации, время обработки определяется глубиной анализа и объемом обрабатываемого текста.
Система носит открытый характер по отношению к алгоритмам, которые применяютя при обработке, особенно это касается инструментов аналитической обработки, для которой создан язык сценариев, который позволяет в простом и удобном виде оформить алгоритм обработки текстов с учетом поставленной задачи.
Достоверность результатов система обеспечивает возможностью исправления и мониторинга получаемых результатов. Предоставляется возможность получать любую промежуточную информацию и, соблюдая структуру входной информации, вносить необходимые коррекции, как в ручном, так и автоматическом режимах.
Система сконструирована в виде замкнутых блоков с сохранением всех результатов. При анализе не отбрасывается неоднозначность трактовки рассматриваемого текста, а включается в результаты обработки как третье состояние – неопределенность.
Итак, система носит открытый характер как с точки зрения инструментов обработки текста, так и возможности взаимодействия и обмена опытом при решении задач анализа текстов. Такое взаимодействие усиливается использованием единойтерминологии, унификацией применяемых инструментов и средств, доступностью библиотек устоявшихся алгоритмов обработки текста. Всё это может повысить качество и доступность широкого общения и оценки получаемых результатов в противовес сложившейся практике.