150
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
меньшим длины строки. По набору полученных подстрок строится
сигнатура документа. Документы считаются дубликатами в том слу-
чае, если их сигнатуры совпадают. Развитием алгоритма шинглов яв-
ляется метод ключевых слов [4]. По определенным параметрам из
текста выбираются ключевые слова, к которым потом применяется
алгоритм шинглов. Такой подход сокращает объемы анализируемых
данных, сохраняя при этом высокое качество построения сигнатуры.
Рис. 2. Типы значений, определяемые в процессе профилирования
В процессе профилирования фильтры
f
рассматриваются как от-
дельные бизнес-задачи, несущие в себе смысловую нагрузку. Тогда с
точки зрения качества информации производительность системы
можно определять по количеству решаемых бизнес-задач, т. е. по
количеству успешно обрабатываемых фильтров.
При анализе фильтра данные подразделяются на несколько клас-
сов профилирования. Под данными понимаются объекты
r
i
отноше-
ния
R
,
а под классами — множество
S
1
, …,
S
i
где
i
≥ 2 (рис. 3). Часть
полученных классов является проблемными, в них попадают объекты
r
,
не удовлетворяющие набору условий фильтра. Классы с объекта-
ми, соответствующими условиям фильтра, называются успешными
классами.
Рис. 3. Схема миграции объектов при профилировании