ISSN 2305-5626. Вестник МГТУ им. Н.Э. Баумана: электронное издание. 2013
3
где
i
n
— число вхождений слова в документ;
k k
n
— общее чис-
ло слов в документе.
Рис. 2
Учет так называемой обратной частоты документа (
англ
. IDF), с
которой слово встречается в документах коллекции, уменьшает вес
широкоупотребительных слов:
IDF log
,
(
)
i
i
D
d t
=
где |
D
| — число документов в корпусе;
(
)
i
i
d t
— число докумен-
тов, в которых встречается
i
t
(когда
0
i
n
). Выбор основания лога-
рифма в формуле не имеет значения, поскольку изменение основания
приводит к изменению веса каждого слова на постоянный множи-
тель, что не влияет на соотношение весов.
Таким образом, мера TF-IDF является произведением двух
сомножителей: TF и IDF. Большой вес в соответствии с алгоритмом
TF-IDF получают слова с высокой частотой использования в преде-
лах конкретного документа и с низкой частотой употреблений в дру-
гих документах [2].
В трудах Третьего российского семинара по оценке методов ин-
формационного поиска (РОМИП) отмечено, что алгоритм TF-IDF
показал лучший результат по качеству поиска, которое оценивается
по двум параметрам — полноте поиска и точности поиска. Полнота
определяется как отношение числа выбранных в результате поиска
1,2 4,5