Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Simultaneous Adaptation of Acoustic and Language Models for Emotional Speech Recognition Using Tweet Data Penyesuaian Serentak Model Akustik dan Bahasa untuk Pengecaman Pertuturan Emosi Menggunakan Data Tweet

Tetsuo KOSAKA, Kazuya SAEKI, Yoshitaka AIZAWA, Masaharu KATO, Takashi NOSE

  • pandangan teks lengkap

    0

  • Petikan Ini

Ringkasan:

Pengecaman pertuturan emosi secara amnya dianggap lebih sukar daripada pengecaman pertuturan bukan emosi. Ciri-ciri akustik pertuturan emosi berbeza daripada pertuturan bukan emosi. Selain itu, ciri akustik berbeza dengan ketara bergantung pada jenis dan keamatan emosi. Mengenai ciri linguistik, ungkapan emosi dan bahasa sehari-hari juga diperhatikan dalam ujaran mereka. Untuk menyelesaikan masalah ini, kami berhasrat untuk meningkatkan prestasi pengecaman dengan menyesuaikan model akustik dan bahasa kepada pertuturan emosi. Kami menggunakan Ucapan Emosi (JTES) berasaskan Twitter Jepun sebagai korpus ucapan emosi. Korpus ini terdiri daripada tweet dan mempunyai label emosi yang diberikan kepada setiap ujaran. Adaptasi korpus boleh dilakukan menggunakan ujaran yang terkandung dalam korpus ini. Walau bagaimanapun, mengenai model bahasa, jumlah data penyesuaian tidak mencukupi. Untuk menyelesaikan masalah ini, kami mencadangkan penyesuaian model bahasa dengan menggunakan data tweet dalam talian yang dimuat turun dari internet. Ayat yang digunakan untuk penyesuaian telah diekstrak daripada data tweet berdasarkan peraturan tertentu. Kami mengekstrak data sebanyak 25.86 M perkataan dan menggunakannya untuk penyesuaian. Dalam eksperimen pengecaman, kadar ralat kata dasar ialah 36.11%, manakala dengan penyesuaian model akustik dan bahasa ialah 17.77%. Keputusan menunjukkan keberkesanan kaedah yang dicadangkan.

Jawatankuasa
IEICE TRANSACTIONS on Information Vol.E107-D No.3 pp.363-373
Tarikh penerbitan
2024/03/01
Diumumkan
2023/12/05
ISSN dalam talian
1745-1361
DOI
10.1587/transinf.2023HCP0010
Jenis Manuskrip
Special Section PAPER (Special Section on Human Communication V)
kategori

Pengarang

Tetsuo KOSAKA
  Yamagata University
Kazuya SAEKI
  Yamagata University
Yoshitaka AIZAWA
  Yamagata University
Masaharu KATO
  Yamagata University
Takashi NOSE
  Tohoku University

Kata kunci

Contents [show]