Стр. 2 - В.И. Кузовлев, А.О. Орлов - Вероятностный подход к оценке показателя достоверности элементов результатов профилирования

ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012 149

томатизированной системе обработки информации. На втором

уровне находятся показатели достоверности обработки информации

для всех элементов схемы потоков искажений. Степень детализации

проведения исследования варьируется в зависимости от решаемых

прикладных задач.

Средства профилирования информации оперируют метаданными,

но, в отличие от репозиториев, не только хранят метаданные, но об-

рабатывают и изменяют их. По сравнению со средствами управления

базами данных у средств профилирования имеется более широкий

спектр возможностей анализа данных. На рис. 1 приведена схема

преобразования данных в процессе профилирования.

Рис. 1. Схема преобразования данных в процессе профилирования

На вход процесса профилирования подаются данные и метадан-

ные [3]. Они могут быть корректными и некорректными. В результа-

те профилирования формируются корректные метаданные и классы

профилирования. Профилирование состоит из нескольких шагов, в

которых данные анализируются различными методами (анализ

столбцов, структурный анализ, анализ правил, анализ значений). По-

сле профилирования остается некоторое количество некорректных

данных, не классифицированных процессом (рис. 2).

На всех шагах профилирования происходит анализ документиро-

ванных (отраженных в метаданных) свойств объектов и выявление их

недокументированных свойств. Далее путем проверки свойств опре-

деляются некорректные данные. Для столбцов анализируются свой-

ства значений атрибута (домен, текстовые правила, шаблоны, интер-

претация спецсимволов и т. п.) и свойства хранилища (длина атрибу-

та, тип данных и т. п.).

В процессе анализа выявляются дублирующиеся данные. Для по-

иска дубликатов текстовых данных используются различные алго-

ритмы, наиболее распространенный из которых — алгоритм шин-

глов. Суть алгоритма заключается в следующем: текстовая строка

разбивается на подстроки одинаковой длины с определенным шагом,

Профилирование