1-1pukul |
Jiaxin WU Bing LI Li ZHAO Xinzhou XU
Tugas Speech Emotion Detection (SED) bertujuan menilai kelas positif dan kelas negatif apabila penceramah meluahkan emosi. Persembahan SED sangat bergantung pada kepelbagaian dan penonjolan ciri emosi yang diekstrak daripada ucapan. Walau bagaimanapun, kebanyakan penyelidikan berkaitan sedia ada memfokuskan pada menyiasat kesan sumber ciri tunggal dan ciri buatan tangan. Oleh itu, kami mencadangkan pendekatan SED menggunakan cawangan berulang berasaskan maklumat peringkat rendah berbilang sumber. Maklumat peringkat rendah gabungan pelbagai sumber memperoleh pelbagai dan perwakilan diskriminasi daripada isyarat emosi pertuturan. Di samping itu, fungsi kehilangan fokus memberi manfaat untuk kelas ketidakseimbangan, yang mengakibatkan mengurangkan perkadaran sampel yang dikelaskan dengan baik dan meningkatkan pemberat untuk sampel sukar pada tugas SED. Eksperimen pada IEMOCAP corpus menunjukkan keberkesanan kaedah yang dicadangkan. Berbanding dengan garis dasar, MSIR mencapai peningkatan prestasi yang ketara dari segi Panggilan Purata Tanpa Wajaran dan skor F1.