Стр. 10 - Ю.Н. Матвеев - Технологии биометрической идентификации личности по голосу и другим модальностям

ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012

55

Кроме того, в JFA обязательно используется UBM-модель, цель

построения которой охарактеризовать «чужих» дикторов во всех

возможных контекстах. Обучающая база UBM формируется с учетом

максимально большого объема речевых данных, сбалансированных

по гендерному типу, каналам записи, акустическим условиям и т. д.

Как правило, в настоящее время применяется стандартная процедура

построения UBM-модели, основанная на оценке максимального

правдоподобия (Maximum Likelihood, ML) – ML-метод [13].

Задача ML-метода – нахождение по заданному числу

Т

обучаю-

щих векторов данных

X

= {

x

1

,

x

2

, …,

x

T

}

параметров модели

λ

,

макси-

мизирующих функцию правдоподобия модели:

1

(

| )

(

| ).

T

t

p X

p x

=

∑

λ

Поскольку функции параметров модели

λ

не линейны и напря-

мую максимизировать функцию правдоподобия невозможно, то ис-

пользуются приближенные значения оценок максимального правдо-

подобия, полученные с помощью EM-алгоритма (Expectation–

Maximization). Существуют различные варианты этого алгоритма, где

одновременно обучается набор из 512, 1024 или 2048 гауссовых ком-

понент, и заканчивая более сложной процедурой с последовательным

расщеплением компонент в процессе обучения.

С увеличением объемов речевых баз данных, наиболее важной

проблемой при построении UBM-модели является поиск точного со-

ответствия числа компонент UBM-модели количеству обучающего

материала. При обучении по оценке максимального правдоподобия

делается попытка определить параметры всех гауссоид. При неболь-

шом количестве обучающего материала происходит эффект переобу-

чения GMM-модели и снижение эффективности системы идентифика-

ции дикторов по независимой тестовой выборке, демонстрируется ее

плохая обобщающая способность. При большом количестве обучаю-

щего материала выбранное число компонент UBM-модели может быть

меньше оптимального их числа, разрешенного объемом обучающей

базы данных, при котором система идентификации могла бы показать

лучшую эффективность. Возникает вопрос определения оптимального

количества компонент UBM-модели для имеющегося обучающего ре-

чевого материала.

Стандартный ответ на вопрос – использование кроссвалидацион-

ного подхода, в котором сначала проводится обучение последователь-

ного ряда UBM-моделей с различным числом компонент, а затем –

тестирование по независимой выборке систем верификации с приме-

нением каждой из UBM-моделей [14]. Такой подход в вычислитель-

ном отношении очень сложен и длителен по времени.