134
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
В результате определяются лексемы, которые на самом деле от-
сутствуют в тексте, например, слово «пирожковый» (см. табл. 3). Это
является следствием омонимии. Для устранения указанного эффекта
использован частотный словарь русского языка С.А. Шарова [3]. Та-
ким образом, при появлении омонимов выбирается та лексема, которая
наиболее часто употребляется в русском языке. В рассматриваемом
случае лексема «пирожок» после использования словаря Шарова
встречается в тексте три раза, а лексема «пирожковый» отсутствует.
Как было отмечено выше, существенным недостатком метода яв-
ляется то, что словарная морфология работает корректно только то-
гда, когда словоформа находится в словаре. В противном случае лек-
сема не распознается. В связи с этим необходимо упомянуть методы,
Рис. 2. Алгоритм Snowball:
RV — область, выделяемая в слове после первой гласной или являющаяся оконча-
нием слова, если в нем отсутствуют гласные; Perfective gerund, Adjectival,
Participle, Reflexive, Verb, Noun, Superlative, Derivational — группы окончаний,
соответствующие определенным частям речи; Word — слово, основу которого
необходимо определить