На рис. 31 представлен сценарий получения словаря А.И.Гончарова по текстам 8 его произведений.
Алгоритм представляет собой попарное объединение словников, построенных по отдельным произведениям А.И.Гончарова. В результате получается список всех слов, которые используются в текстах произведений А.И.Гончарова.
Именами структур в примере, содержащими «_ss», задаются словники без служебных частей речи.
Рис. 31. Сценарий получения словаря А.И.Гончарова
Предлагаемый алгоритм построен на нахождении отношений между текстами, т.е. оценки используемости слов одного текста в другом. Алгоритм состоит нескольких этапов:
На первом этапе результат сравнения текстов может выдаваться в виде одной из вариантов: «тексты похожи», «в одном тексте много цитат из другого», «один текст входит в состав второго», «разные тексты» и «требуется дополнительное исследование». Коэффициенты в алгоритмах подбираются эмпирическим путем.
Может применяться и обратный алгоритм: в качестве основного критерия используются отношения ключевых слов, а для уточняющего исследования отношения полных словников.
Например, при сравнении текста романа М.Ю.Лермонтова «Герой нашего времени» и критической статьи В.Г.Белинского, дополнительное исследование не потребовалось (рис. 32). Результатом сценария стало сообщение о наличие многочисленных цитат из одного текста в другом.
Рис. 32. Сценарий сравнения текстов В.Г.Белинского и М.Ю.Лермонтова