ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
51
ческих признаков мел-кепстральных коэффициентов (Mel Frequency
Cepstral Coefficients, MFCC) система идентификации чувствительна,
в первую очередь, к ошибке ложного детектирования шума как речи.
Применение VAD-алгоритма предъявляет более жесткие требования
к частотной характеристике сигнала, исключая помехи большой ам-
плитуды, не являющиеся речью.
На последнем шаге этапа предварительной обработки оценивает-
ся качество речевого сигнала на выделенных участках и принимается
решение о возможности идентификации личности по данному рече-
вому материалу или об отказе от идентификации.
Автоматическая сегментация дикторов в фонограмме.
На
фонограммах, записанных в реальных условиях, типовыми являются
следующие случаи (рис. 3): наложение различных акустических по-
мех (от телевизора, радио и т. п.) на речь дикторов; наличие на фоно-
грамме речи нескольких дикторов; наложение речи нескольких дик-
торов друг на друга и образование так называемого голосового кок-
тейля.
Рис. 3. Схема
предварительной обработки речевого сигнала (сегмен-
тация дикторов):
1–4 –
номера дикторов, речь которых содержится в фонограмме
Для решения перечисленных случаев сегментации в ЦРТ созданы
технологии:
выделения в фонограмме речи диктора на фоне акустических
помех, где для подавления помехи и выделения речи используется