140
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
УДК 004.62
С.А. С а к у л и н , А.Н. А л ф и м ц е в
РАЗВИТИЕ МЕТОДА ОПРЕДЕЛЕНИЯ ВЕСОВ
ДЛЯ ВЗВЕШЕННОГО ЗОННОГО РАНЖИРОВАНИЯ
В ИНФОРМАЦИОННОМ ПОИСКЕ
Информационный поиск на основе взвешенного зонного ранжирова-
ния подразумевает присвоение каждой зоне или полю в метаданных
документов весового коэффициента с использованием методов ма-
шинного обучения. Рассмотрен метод определения весов, в котором
для вычисления взвешенной зонной релевантности вместо средне-
взвешенного оператора применен нечеткий интеграл Шоке. Это поз-
воляет учесть при расчетах релевантности возможные взаимозави-
симости между зонными показателями, что в конечном итоге повы-
сит точность ранжирования.
E-mail:
Ключевые слова
:
информационный поиск, взвешенное зонное ранжиро-
вание, машинное обучение, оператор агрегирования, нечеткая мера, нечет-
кий интеграл Шоке.
Введение.
Информационный поиск представляет собой поиск
документов по запросу с помощью тех или иных методов [1]. При
работе с огромным числом документов результатом поиска станет
настолько большое число документов, релевантных запросу, что
пользователь будет не в состоянии их просмотреть. Поэтому одной
из важных задач информационного поиска является ранжирование
результатов по степени их соответствия запросу.
Если при таком ранжировании предполагается использование ме-
таданных документов, то необходимо учитывать экспертные знания о
структуре и особенностях этих метаданных. Здесь под метаданными
понимают поля (например, дата создания документа, вид документа,
стоимость книги и т. п.) и зоны (название, автор, издательство, анно-
тация, ключевые слова, текст и т. п.). Отличие между зонами и поля-
ми заключается в том, что поле может иметь ограниченный, заранее
определенный набор значений, а на зону такие ограничения не рас-
пространяются. Далее для краткости поля и зоны будем называть
зонами. В работе [1] описан метод определения весов с помощью
машинного обучения на основе обучающих примеров, в котором
каждой отдельной
h
-
й зоне присваивается весовой коэффициент
h
g
.
Произвольный текстовый запрос обозначим ,
q
а документ —
.
d
Каждой паре
( , )
q d
при взвешенном зонном ранжировании присваи-
вается значение релевантности на единичном отрезке путем вычис-
ления линейной комбинации зонных показателей. В эту комбинацию
каждая зона вносит значение из единичного отрезка. Рассмотрим
множество документов, каждый из которых имеет
Н
зон. Пусть