Система анализа текстов

Печать

Инструменты статистического анализа текста

TextAnalyst разработана на основе нейросетевой технологии в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности:

  • анализа содержания текста с автоматическим формированием семантической сети с гиперссылками - получения смыслового портрета текста в терминах основных понятий и их смысловых связей;
  • анализа содержания текста с автоматическим формированием тематического древа с гиперссылками - выявления семантической структуры текста в виде иерархии тем и подтем;
  • смыслового поиска с учетом скрытых смысловых связей слов запроса со словами текста;
  • автоматического реферирования текста - формирования его смыслового портрета в терминах наиболее информативных фраз;
  • кластеризации информации - анализа распределения материала текстов по тематическим классам;
  • автоматической индексации текста с преобразованием в гипертекст;
  • ранжирования всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования;
  • автоматического/автоматизированного формирования полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации.

Является быстрым согласованием программы (поиск текста) с отличным пользовательским интерфейсом. Он используется при анализе английских или других текстов - испанский, французский, японский, китайский и т.д. - для преподавания и изучения языка.

Анализ текста вычислительных средств - является исторически важным, это анализ текста и поисковая система одновременно, которая была разработана с 1986 по 1989 в университете Торонто в сотрудничестве с IBM и оставался в использовании в 1990-х годах. Она была разработана для работы в MS-DOS и выдает справки о текстовых базах данных на ряде европейских языков.

WordTabulator - это бесплатная программа, предназначенная для анализа и обработки текстов в среде Windows 95/98/NT. Это удобный и мощный инструмент, позволяющий строить индексы словоформ и синтагм для заданного множества текстов. Программа понимает тексты в основных русскоязычных кодировках и может обрабатывать документы в формате HTML, игнорируя их разметку. В дальнейшем планируется добавить ко входным форматам текстов форматы SGML и XML. 

TextArc является визуальным представлением всего текста на одной странице. Разделение слов по цветам в соответствии с частотой появления слов в тексте. 

Печать

Инструменты лингвистического анализа текста

Это синтаксический анализатор английского языка, на основе оригинальной теории английского синтаксиса. Анализатор имеет словарь около 60000 словоформ. Он имеет охват широкого спектра синтаксических конструкций, в том числе многих редких и идиоматических единиц. Синтаксический анализатор является надежной системой, она способна пропускать части предложений.

Рабочая группа Aot.ru разрабатывает программное обеспечение в области автоматической обработки текста. В круг интересов в основном входит анализ русского языка.

Программа mystem производит морфологический анализ текста на русском языке. Для слов, отсутствующих в словаре, порождаются гипотезы.

Lingsoft универсальный продукт и услуга, связанная с устной и письменной речи для анализа, обработки текстов. Основное направление это переводы, проверка голосовых приложений, написание учебников, электронные книги, языковые средства и ресурсы, а также словари.

Целью анализа является определение близости любого из предлагаемых пользователем Интернета текста к одному из авторских эталонов, определенных заранее. В результате, не читая анализируемый текст, Вы можете оценить его сходство с произведениями Ваших любимых писателей. Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами.

Программа для синтаксически корректного формирования предложения. Руководствуясь файлами грамматики Bison в качестве входных данных. Программа может быть использована для компилятора или анализатора тестирования или дидактических целей.

Программы

Инструменты статистического анализа текста

Инструменты лингвистического анализа текста

 КОНЦЕПТ - современная система для программирования на русском языке и инструменты на ее основе:

Системы, построенные на базе модели семантик предпочтения, развивались в основном автором модели СП. К числу этих систем относятся Computable Semantic Derivation (CSD) [Уилкс, 1972], Preference Semantic System (PSS) [Уилкс, 1973]. Указанные системы решали в основном  задачу семантического анализа текстов на английском языке. Системы CSD и PSS разработаны в лаборатории искусственного интеллекта Станфордского университета и записаны на языке LISP 1.5 [Маккарти и др., 1962]. Системы не предполагают предварительного морфологического или синтаксического анализа. Семантический анализ строится строго по входному тексту, лишь расчлененному на основании разделителей (обычно это союзы, предлоги и знаки препинания) на фрагменты, являющиеся элементарными высказываниями.
Судя по отсутствию новых научных материалов, Уилкс не развивал далее систему CSD (=PSS).

  • MARGE

Эта система «работает в двух режимах: «перифраза» и «умозаключения». В первом режиме задача системы состоит в том, чтобы по предъявленному на вход предложению (на английском языке) построить его концептуальное представление, а затем на основе концептуально представления генерировать различные перифразы, используя различные слова и комбинации концептов. Во втором режиме («умозаключения») система строит различные умозаключения на основе входного предложения и выдает их на английском языке. Программа занимает около 70000 слов в оперативной памяти, она написана на языке MLISP [Смит, 1970].

  • ПОЭТ

Система ПОЭТ состоит из следующих компонент: языка общения, словаря, абстрактной и конкретной сети, базы данных и комплекса обрабатывающих программ. Словарь, семантическая сеть и база данных предназначены для описания слов, объектов внешнего мира и связывающих их отношений. Комплекс обрабатывающих программ состоит из: морфологического, синтаксического и семантического анализа; семантической интерпретации; формирования ответа; синтаксического и морфологического синтеза; средств доступа к словарю, семантической сети и базу данных.

  • TORUS, GUS (Genial Understander System(GUS)

Система TORUS является посредником между пользователем и системой управления базой данных. Общение осуществляется в виде отдельных предложений на английском языке. Представление знаний в TORUS основано на семантической сети, с присоединенными к ней процедурами. Система TORUS является экспериментальной системой. В 1975 году она работала на фрагменте английского языка, включающем ~200 слов.

Более 13 лет все исследования и проекты компании ПРОМТ фокусировались на решении глобальной задачи по созданию средств, обеспечивающих перевод с одного естественного языка на другой. Уникальные технологии построения систем перевода и оригинальные алгоритмы работы с текстами на естественных языках стали тем базисом, на котором были созданы все программные продукты компании и который обеспечил возможность разработки широкого спектра решений для автоматизированного перевода с одного языка на другой.

Система русско-английского машинного перевода ДИАЛИНГ спроектирована на базе полных систем французско-русского автоматического перевода (ФРАП) и анализа политических текстов (ПОЛИТЕКСТ).
Промышленные системы АОТ, в основном, сейчас используют два этапа анализа текста: морфологический и синтаксический. Однако теоретические разработки многих исследователей предполагают существование следующего за синтаксическим этапа – семантического. В отличие от предыдущих шагов семантический этап использует формальное представление смысла составляющих входной текст, слов и конструкций. Суть семантического анализа понимается разными исследователями по-разному.

Компактный, очень быстрый и бесплатный морфологический парсер русскоязычных текстов, реализованный на основе словаря Зализняка. Доступны для загрузки версии для Windows и Linux. Работает как консольное приложение и имеет различные режимы представления результатов.

Томита-парсер – это инструмент для извлечения структурированных данных (фактов) из текста на естественном языке. Извлечение фактов происходит при помощи контекстно-свободных грамматик и словарей ключевых слов. Парсер позволяет написать свою грамматику, добавить свои словари и запустить на текстах.

API Яндекс.Предиктора позволяет приложениям получать в виде подсказок наиболее вероятное продолжение слова или фразы. Предиктор также учитывает опечатки в исходном запросе. Это упрощает процесс ввода текста, особенно на мобильных устройствах.

Яндекс.Спеллер – сервис проверки правописания, который помогает находить и исправлять орфографические ошибки. Работа сервиса основана на использовании орфографического словаря. В настоящее время Спеллер проверяет тексты на русском, украинском и английском языках.

С помощью API вы можете получить доступ к онлайн-сервису машинного перевода Яндекса. API предлагает функции перевода текста для более чем 30 языков.

API Яндекс.Словаря позволяет приложениям получать подробные словарные статьи из машинных словарей Яндекса. Статьи содержат сгруппированные переводы, информацию о частях речи, примеры, а также транскрипцию для английских слов. Сервис сейчас доступен для основных европейских языков, при этом количество поддерживаемых языковых пар постоянно растет.

Синтаксический анализатор естественного текста на русском языке обрабатывает предложения с большим количеством слов (100 и более). При этом ошибочность разбора оценивается как 20% от общего числа связей, связываемость слов в предложении составляет около 70% от общего числа связей.

RCO обладает широким спектром оригинальных алгоритмов и технологий интеллектуальной обработки текстов на естественном языке. Продукты и технологии RCO позволяют решать такие прикладные задачи как составление содержательного портрета текста, извлечение именованных объектов, связей и фактов из массивов неструктурированных данных, анализ тональности текста, выявление заимствований, обнаружение дубликатов.

Travel Turne Tranzito