132
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
Таблица 1
Частота употребления некоторых слов, встречающихся
в отрывке повести Н.В. Гоголя «Старосветские помещики»,
подсчитанная вручную
Слово
Частота
употребления
Слово
Частота
употребления
Говорить
5
Он
11
Обед
4
Пирожок
3
Обедать
1
Попробовать
2
Обыкновение
1
Рыжик
3
Обыкновенный
3
Что
6
Результат работы метода подсчета частоты употребления слово-
форм представлен в табл. 2 (метод плохо справляется с идентифика-
цией лексем).
Таблица 2
Результат работы
метода подсчета частоты употребления словоформ
Слово
Частота
употребления
Слово
Частота
употребления
Говорил
4
Он
3
Говорила
1
Пирожками
1
Обеда
2
Пирожков
2
Обедать
1
Попробуем
1
Обедом
1
Попробуйте
1
Обеду
1
Рыжиками
1
Обыкновению
1
Рыжиков
2
Обыкновенно
3
Что
3
Методы словарной морфологии основаны на применении слова-
рей для определения лексемы по словоформе, встречающейся в тек-
сте. Неоспоримое достоинство метода — безошибочность, если сло-
воформа содержится в словаре. Однако если словоформа отсутствует
по какой-либо причине, то алгоритм метода не может определить
лексему. В связи с этим для уменьшения ошибок идентификации
слов была сделана попытка работы с несколькими словарями, что по-
требовало создания баз данных этих словарей. На основе словаря
А.А. Зализняка создана база данных, пример таблицы которой пред-
ставлен на рис. 1 [1].