Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

On the Complementary Role of DNN Multi-Level Enhancement for Noisy Robust Speaker Recognition in an I-Vector Framework Mengenai Peranan Pelengkap Peningkatan Berbilang Tahap DNN untuk Pengecaman Pembesar Suara Teguh Bising dalam Rangka Kerja I-Vektor

Xingyu ZHANG, Xia ZOU, Meng SUN, Penglong WU, Yimin WANG, Jun HE

  • pandangan teks lengkap

    0

  • Petikan Ini

Ringkasan:

Untuk meningkatkan keteguhan hingar pengecaman pembesar suara automatik, banyak teknik mengenai peningkatan pertuturan/ciri telah diterokai dengan menggunakan rangkaian saraf dalam (DNN). Dalam kerja ini, peningkatan pelbagai peringkat DNN (DNN-ME), yang terdiri daripada peringkat peningkatan isyarat, peningkatan sepstrum dan peningkatan i-vektor, dicadangkan untuk pengecaman pembesar suara bebas teks. Memandangkan fakta bahawa kaedah peningkatan ini digunakan dalam pelbagai peringkat saluran paip pengecaman pembesar suara, adalah wajar untuk meneroka peranan pelengkap kaedah ini, yang memberi manfaat kepada pemahaman kebaikan dan keburukan peningkatan peringkat yang berbeza. Untuk menggunakan keupayaan DNN-ME sebanyak mungkin, dua jenis kaedah yang dipanggil Cascaded DNN-ME dan input bersama DNNs dikaji. Model campuran Gaussian berwajaran (WGMM) yang dicadangkan dalam kerja kami sebelum ini juga digunakan untuk meningkatkan lagi prestasi model. Eksperimen yang dijalankan ke atas pangkalan data Speakers in the Wild (SITW) telah menunjukkan bahawa DNN-ME menunjukkan keunggulan yang ketara berbanding sistem dengan hanya satu peningkatan untuk pengecaman pembesar suara teguh hingar. Berbanding dengan garis dasar i-vektor, kadar ralat yang sama (EER) dikurangkan daripada 5.75 kepada 4.01.

Jawatankuasa
IEICE TRANSACTIONS on Fundamentals Vol.E103-A No.1 pp.356-360
Tarikh penerbitan
2020/01/01
Diumumkan
ISSN dalam talian
1745-1337
DOI
10.1587/transfun.2019EAL2104
Jenis Manuskrip
LETTER
kategori
Pertuturan dan Pendengaran

Pengarang

Xingyu ZHANG
  Army Engineering University
Xia ZOU
  Army Engineering University
Meng SUN
  Army Engineering University
Penglong WU
  Army Engineering University
Yimin WANG
  Army Engineering University
Jun HE
  National University of Defense Technology

Kata kunci

Contents [show]