ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012 135
не зависящие от словарей — аналитические методы анализа слово-
форм. Суть таких методов — применение алгоритма выделения
основы слова. В качестве примера был взят алгоритм Snowball
(
рис. 2) [4]. Результат работы алгоритма представлен в табл. 4.
Таблица 4
Результат работы алгоритма Snowball
Основа
Частота
употребления Основа
Частота
употребления
Говор
5
Пирожкам
1
Обед
4
Попроб
1
Обеда
1
Попробу
1
Обыкновен
4
Рыжик
2
Он
6
Рыжикам
1
Пирожк
2
Что
3
После анализа работы данного алгоритма предложено учесть
следующее.
Особенность работы регулярных выражений в базовом функцио-
нале C#: машина определяет совпадение с регулярным выражением
по минимальному условию. Поэтому необходимо разделить группы
окончаний не только по частям речи, но и по числу букв, составляю-
щих данное окончание. Проверку следует начинать с максимально
длинных окончаний. В противном случае, словоформы «генералам»
и «генералами» будут иметь разные основы.
Особенность русского языка заключается в том, что словообразо-
вание осуществляется с помощью не одной морфемы, а нескольких.
Тогда требуется несколько проходов по алгоритму одной и той же
словоформы.
Результаты работы модифицированного алгоритма Snowball
представлены в табл. 5.
Таблица 5
Результат работы модифицированного алгоритма Snowball
Основа
Частота
употребления Основа
Частота
употребления
Говор
5
Пирожк
3
Обед
5
Попроб
2
Обыкнов
4
Рыжик
3
Он
6
Что
3
Достоинство аналитического метода — независимость анализа от
словаря и его объема. Однако существует и недостаток — при работе
наблюдается процент ошибок при определении принадлежности сло-
воформ к одной и той же лексема (ошибки первого и второго рода).