Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and Phoneme Duration for Multi-Speaker Speech Synthesis Pembenaman Pembesar Suara Berasaskan Irama Pertuturan Pengekstrakan daripada Fonem dan Tempoh Fonem untuk Sintesis Pertuturan Berbilang Pembesar Suara

Kenichi FUJITA, Atsushi ANDO, Yusuke IJIMA

  • pandangan teks lengkap

    0

  • Petikan Ini

Ringkasan:

Kertas kerja ini mencadangkan kaedah berasaskan ritma pertuturan untuk pemasukan penutur bagi memodelkan tempoh fonem menggunakan beberapa sebutan oleh penutur sasaran. Irama pertuturan adalah salah satu faktor penting di antara ciri penutur, bersama dengan ciri akustik seperti F0, untuk menghasilkan semula ujaran individu dalam sintesis pertuturan. Ciri baharu kaedah yang dicadangkan ialah benam berasaskan irama yang diekstrak daripada fonem dan tempohnya, yang diketahui berkaitan dengan irama pertuturan. Ia diekstrak dengan model pengenalan pembesar suara yang serupa dengan model berasaskan ciri spektrum konvensional. Kami menjalankan tiga percubaan, penjanaan pembenaman pembesar suara, sintesis pertuturan dengan pembenaman terjana dan analisis ruang pembenaman, untuk menilai prestasi. Kaedah yang dicadangkan menunjukkan prestasi pengenalan pembesar suara yang sederhana (15.2% EER), walaupun dengan hanya fonem dan maklumat tempohnya. Keputusan penilaian objektif dan subjektif menunjukkan bahawa kaedah yang dicadangkan boleh mensintesis pertuturan dengan irama pertuturan lebih dekat dengan penutur sasaran berbanding kaedah konvensional. Kami juga memvisualisasikan benam untuk menilai hubungan antara jarak benam dan persamaan persepsi. Visualisasi ruang benam dan analisis hubungan antara kedekatan menunjukkan bahawa taburan benam mencerminkan persamaan subjektif dan objektif.

Jawatankuasa
IEICE TRANSACTIONS on Information Vol.E107-D No.1 pp.93-104
Tarikh penerbitan
2024/01/01
Diumumkan
2023/10/06
ISSN dalam talian
1745-1361
DOI
10.1587/transinf.2023EDP7039
Jenis Manuskrip
PAPER
kategori
Pertuturan dan Pendengaran

Pengarang

Kenichi FUJITA
  NTT Corporation
Atsushi ANDO
  NTT Corporation
Yusuke IJIMA
  NTT Corporation

Kata kunci

Contents [show]