Инструменты статистического анализа текста

TextAnalyst разработана на основе нейросетевой технологии в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности:

  • анализа содержания текста с автоматическим формированием семантической сети с гиперссылками - получения смыслового портрета текста в терминах основных понятий и их смысловых связей;
  • анализа содержания текста с автоматическим формированием тематического древа с гиперссылками - выявления семантической структуры текста в виде иерархии тем и подтем;
  • смыслового поиска с учетом скрытых смысловых связей слов запроса со словами текста;
  • автоматического реферирования текста - формирования его смыслового портрета в терминах наиболее информативных фраз;
  • кластеризации информации - анализа распределения материала текстов по тематическим классам;
  • автоматической индексации текста с преобразованием в гипертекст;
  • ранжирования всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования;
  • автоматического/автоматизированного формирования полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации.

Является быстрым согласованием программы (поиск текста) с отличным пользовательским интерфейсом. Он используется при анализе английских или других текстов - испанский, французский, японский, китайский и т.д. - для преподавания и изучения языка.

Анализ текста вычислительных средств - является исторически важным, это анализ текста и поисковая система одновременно, которая была разработана с 1986 по 1989 в университете Торонто в сотрудничестве с IBM и оставался в использовании в 1990-х годах. Она была разработана для работы в MS-DOS и выдает справки о текстовых базах данных на ряде европейских языков.

WordTabulator - это бесплатная программа, предназначенная для анализа и обработки текстов в среде Windows 95/98/NT. Это удобный и мощный инструмент, позволяющий строить индексы словоформ и синтагм для заданного множества текстов. Программа понимает тексты в основных русскоязычных кодировках и может обрабатывать документы в формате HTML, игнорируя их разметку. В дальнейшем планируется добавить ко входным форматам текстов форматы SGML и XML. 

TextArc является визуальным представлением всего текста на одной странице. Разделение слов по цветам в соответствии с частотой появления слов в тексте. 

Travel Turne Tranzito