Программы
Инструменты статистического анализа текста
Инструменты лингвистического анализа текста
КОНЦЕПТ - современная система для программирования на русском языке и инструменты на ее основе:
-
- трансформер текстов;
- генератор текстов;
- графический редактор, понимающий команды на естественном языке;
- словесный калькулятор;
- представление знаний и логический вывод и др.
- Computable Semantic Derivation (CSD), Preference Semantic System (PSS)
Системы, построенные на базе модели семантик предпочтения, развивались в основном автором модели СП. К числу этих систем относятся Computable Semantic Derivation (CSD) [Уилкс, 1972], Preference Semantic System (PSS) [Уилкс, 1973]. Указанные системы решали в основном задачу семантического анализа текстов на английском языке. Системы CSD и PSS разработаны в лаборатории искусственного интеллекта Станфордского университета и записаны на языке LISP 1.5 [Маккарти и др., 1962]. Системы не предполагают предварительного морфологического или синтаксического анализа. Семантический анализ строится строго по входному тексту, лишь расчлененному на основании разделителей (обычно это союзы, предлоги и знаки препинания) на фрагменты, являющиеся элементарными высказываниями.
Судя по отсутствию новых научных материалов, Уилкс не развивал далее систему CSD (=PSS).
- MARGE
Эта система «работает в двух режимах: «перифраза» и «умозаключения». В первом режиме задача системы состоит в том, чтобы по предъявленному на вход предложению (на английском языке) построить его концептуальное представление, а затем на основе концептуально представления генерировать различные перифразы, используя различные слова и комбинации концептов. Во втором режиме («умозаключения») система строит различные умозаключения на основе входного предложения и выдает их на английском языке. Программа занимает около 70000 слов в оперативной памяти, она написана на языке MLISP [Смит, 1970].
- ПОЭТ
Система ПОЭТ состоит из следующих компонент: языка общения, словаря, абстрактной и конкретной сети, базы данных и комплекса обрабатывающих программ. Словарь, семантическая сеть и база данных предназначены для описания слов, объектов внешнего мира и связывающих их отношений. Комплекс обрабатывающих программ состоит из: морфологического, синтаксического и семантического анализа; семантической интерпретации; формирования ответа; синтаксического и морфологического синтеза; средств доступа к словарю, семантической сети и базу данных.
- TORUS, GUS (Genial Understander System(GUS)
Система TORUS является посредником между пользователем и системой управления базой данных. Общение осуществляется в виде отдельных предложений на английском языке. Представление знаний в TORUS основано на семантической сети, с присоединенными к ней процедурами. Система TORUS является экспериментальной системой. В 1975 году она работала на фрагменте английского языка, включающем ~200 слов.
Более 13 лет все исследования и проекты компании ПРОМТ фокусировались на решении глобальной задачи по созданию средств, обеспечивающих перевод с одного естественного языка на другой. Уникальные технологии построения систем перевода и оригинальные алгоритмы работы с текстами на естественных языках стали тем базисом, на котором были созданы все программные продукты компании и который обеспечил возможность разработки широкого спектра решений для автоматизированного перевода с одного языка на другой.
Система русско-английского машинного перевода ДИАЛИНГ спроектирована на базе полных систем французско-русского автоматического перевода (ФРАП) и анализа политических текстов (ПОЛИТЕКСТ).
Промышленные системы АОТ, в основном, сейчас используют два этапа анализа текста: морфологический и синтаксический. Однако теоретические разработки многих исследователей предполагают существование следующего за синтаксическим этапа – семантического. В отличие от предыдущих шагов семантический этап использует формальное представление смысла составляющих входной текст, слов и конструкций. Суть семантического анализа понимается разными исследователями по-разному.
Компактный, очень быстрый и бесплатный морфологический парсер русскоязычных текстов, реализованный на основе словаря Зализняка. Доступны для загрузки версии для Windows и Linux. Работает как консольное приложение и имеет различные режимы представления результатов.
Томита-парсер – это инструмент для извлечения структурированных данных (фактов) из текста на естественном языке. Извлечение фактов происходит при помощи контекстно-свободных грамматик и словарей ключевых слов. Парсер позволяет написать свою грамматику, добавить свои словари и запустить на текстах.
API Яндекс.Предиктора позволяет приложениям получать в виде подсказок наиболее вероятное продолжение слова или фразы. Предиктор также учитывает опечатки в исходном запросе. Это упрощает процесс ввода текста, особенно на мобильных устройствах.
Яндекс.Спеллер – сервис проверки правописания, который помогает находить и исправлять орфографические ошибки. Работа сервиса основана на использовании орфографического словаря. В настоящее время Спеллер проверяет тексты на русском, украинском и английском языках.
С помощью API вы можете получить доступ к онлайн-сервису машинного перевода Яндекса. API предлагает функции перевода текста для более чем 30 языков.
API Яндекс.Словаря позволяет приложениям получать подробные словарные статьи из машинных словарей Яндекса. Статьи содержат сгруппированные переводы, информацию о частях речи, примеры, а также транскрипцию для английских слов. Сервис сейчас доступен для основных европейских языков, при этом количество поддерживаемых языковых пар постоянно растет.
Синтаксический анализатор естественного текста на русском языке обрабатывает предложения с большим количеством слов (100 и более). При этом ошибочность разбора оценивается как 20% от общего числа связей, связываемость слов в предложении составляет около 70% от общего числа связей.
RCO обладает широким спектром оригинальных алгоритмов и технологий интеллектуальной обработки текстов на естественном языке. Продукты и технологии RCO позволяют решать такие прикладные задачи как составление содержательного портрета текста, извлечение именованных объектов, связей и фактов из массивов неструктурированных данных, анализ тональности текста, выявление заимствований, обнаружение дубликатов.