Примеры работы системы анализа


Сценарий построения словаря писателя

На рис. 31 представлен сценарий получения словаря А.И.Гончарова по текстам 8 его произведений.

Алгоритм представляет собой попарное объединение словников, построенных по отдельным произведениям А.И.Гончарова. В результате получается список всех слов, которые используются в текстах произведений А.И.Гончарова.

Именами структур в примере, содержащими «_ss», задаются словники без служебных частей речи.


Рис. 31. Сценарий получения словаря А.И.Гончарова

Определение используемости одного текста в другом

Предлагаемый алгоритм построен на нахождении отношений между текстами, т.е. оценки используемости слов одного текста в другом. Алгоритм состоит нескольких этапов:

  • получение списков ключевых слов текстов;
  • нахождение отношения второго текста к первому;
  • нахождение обратного отношения;
  • на основании полученных результатов отношений принятие решения о необходимости дальнейшего исследования;
  • в случае необходимости дальнейшего исследования находятся аналогичные отношения ключевых слов, которые более точно отображают общность темы текстов.

На первом этапе результат сравнения текстов может выдаваться в виде одной из вариантов: «тексты похожи», «в одном тексте много цитат из другого», «один текст входит в состав второго», «разные тексты» и «требуется дополнительное исследование». Коэффициенты в алгоритмах подбираются эмпирическим путем.

Может применяться и обратный алгоритм: в качестве основного критерия используются отношения ключевых слов, а для уточняющего исследования отношения полных словников.

Например, при сравнении текста романа М.Ю.Лермонтова «Герой нашего времени» и критической статьи В.Г.Белинского, дополнительное исследование не потребовалось (рис. 32). Результатом сценария стало сообщение о наличие многочисленных цитат из одного текста в другом.

Рис. 32. Сценарий сравнения текстов В.Г.Белинского и М.Ю.Лермонтова