1. Pengenalan
Sebagai medium penting untuk mendapatkan dan menyebarkan maklumat dalam komunikasi manusia, isyarat pertuturan bukan sahaja mengandungi maklumat linguistik, tetapi juga mengandungi maklumat paralinguistik yang kaya (cth, ciri emosi) [1]. Topik paralinguistik tipikal seperti Pengiktirafan Emosi Pertuturan (SER) telah dikaji dan digunakan secara meluas, yang menjadikan Interaksi Komputer Manusia (HCI) [2] lebih pintar dan cekap. Sebagai satu lagi topik utama dalam paralinguistik, Pengesanan Emosi Pertuturan (SED) mempelajari ciri paralinguistik tersirat daripada pertuturan secara semula jadi dan mengesan keadaan emosi dalam isyarat pertuturan dengan membezakan nilai parameter yang berbeza [3], [4], yang memberikan bantuan berharga dalam bidang pekerjaan berkaitan tekanan dan kaunseling psikologi.
Penyelidikan berhubung dengan tugas SED bergantung pada modul pengekstrakan ciri dan modul klasifikasi terutamanya. Kebanyakan kerja sedia ada memberi tumpuan kepada mendapatkan ketepatan pengesanan emosi melalui mengeksploitasi pengetahuan priori [5], [6], spektrogram Mel [7]-[9] dan set ciri paralinguistik [10], [11] untuk mengenal pasti kandungan paralinguistik. Penyelidikan pembelajaran mendalam baru-baru ini menyediakan SER dengan Rangkaian Neural Dalam (DNNs) [12]-[14] untuk menstruktur perwakilan emosi daripada ciri mentah. Kemudian, DNN digunakan sebagai pengekstrak ciri pada spektrogram Mel untuk mendapatkan perwakilan emosi yang mendalam [15]-[17], yang digunakan untuk meramalkan kelas emosi.
Namun begitu, di sebalik kerja-kerja ini dalam SER untuk model di atas, penyelidikan berhubung dengan tugas SED masih wujud dua isu untuk ditangani. Pertama, kebanyakan tugas pengesanan emosi berasaskan DNN sedia ada memberi tumpuan kepada penggunaan jenis ciri tetap [18]-[20] sebagai ciri asas yang membawa kepada kehilangan perwakilan peringkat tinggi dalam isyarat emosi pertuturan [21]. Kedua, kebanyakan kerja sedia ada mencapai prestasi pengesanan mereka melalui kehilangan tak tertimbang setiap sampel [22]-[24], tanpa mengambil kira kemerosotan prestasi pengesanan emosi disebabkan majoriti sampel kelas negatif di kalangan [25]-[27 ] dan kekurangan reka bentuk wajaran wajar antara sampel mudah dikelaskan dan sampel sukar.
Untuk menangani isu pertama, kami mencadangkan kemasukan berbilang sumber Maklumat Peringkat Rendah (LLI) untuk mendapatkan perwakilan peringkat tinggi dan ciri yang lebih menonjol dalam tugas SED. LLI merangkumi tiga komponen: Kami menggunakan Konvolusi Berulang (CR) untuk memproses ciri log-Mels, sementara kami menggunakan Deskriptor Aras Rendah (LLD) dan cawangan wav2vec untuk mendekati ciri descripor peringkat rendah dan wav2vec 2.0. Selepas itu, untuk menangani cabaran kedua, Tumpuan-Kehilangan Fungsi (FL) digunakan untuk menekankan pemberat bagi sampel yang sukar untuk mengurangkan pengaruh daripada sampel latihan yang mudah dikelaskan.
Dalam surat ini, kami mencadangkan Cawangan berulang berasaskan maklumat peringkat rendah Pelbagai Sumber (MSIR) pendekatan untuk SED. Cawangan CR menggunakan Rangkaian Neural Berulang Konvolusi (CRNN) untuk mendekati ciri 2D-log-Mels. Cawangan LLD menggaji Rangkaian Neural Berulang (RNN) untuk memproses ciri 3D-LLD. Cawangan wav2vec menggunakan RNN untuk menangani ciri wav2vec 2.0. Selanjutnya, kami menggunakan focal-loss kepada gabungan tiga cabang. Sumbangan utama kertas kerja ini boleh diringkaskan seperti berikut:
$\bullet$ Untuk tugas pengesanan emosi pertuturan, kami mencadangkan pendekatan MSIR menggunakan rangkaian saraf berulang pada maklumat peringkat rendah untuk setiap ujaran, sambil menggunakan kehilangan fokus untuk menangani sampel mudah diklasifikasikan dan sampel sukar.
$\bullet$ Dalam pendekatan gabungan yang dicadangkan, kami mereka bentuk LLI yang mengandungi ciri 2D-log-Mels, 3D-LLD dan wav2vec 2.0 sebagai input cawangan berulang dengan mekanisme perhatian, yang memperoleh ciri kedalaman yang lebih maju dan maklumat emosi yang lebih pelbagai untuk tugasan SED.
$\bullet$ Dalam pendekatan yang dicadangkan, kami menggunakan kehilangan fokus dengan mengawal parameter berat untuk mengimbangi sampel mudah diklasifikasikan dan sampel sukar.
Selebihnya kertas kerja disusun seperti berikut. Bahagian 2 menyemak kerja berkaitan, manakala Sekt. 3 memperkenalkan butiran skim yang dicadangkan dalam kertas ini. Kemudian, kami membentangkan eksperimen dan analisis keputusan yang sepadan dalam Sekt. 4.
2. Kerja Berkaitan
2.1 Pengesanan Emosi dalam Pertuturan
Seperti yang dinyatakan sebelum ini, ciri spektrum yang diekstrak daripada isyarat pertuturan mentah digunakan secara meluas untuk SER. Ciri prosodi dan spektrogram log-Mel daripada sampel audio [28], [29] digunakan sebagai input model DNN untuk mengenali emosi.
Memandangkan kejayaan kebanyakan tugas SER digunakan dalam senario ideal, kami mempertimbangkan tugas SED yang lebih terperinci dan disasarkan. Lalitha et al. [30] menganalisis prestasi pengesanan emosi pada DNN, yang menggunakan pelbagai ciri persepsi sebagai input untuk mendapatkan maklumat emosi yang penting. Selanjutnya, [31], [32] gunakan spektrogram Mel sebagai input a Unit Berulang Pintu (GRU) berasaskan RNN, yang digunakan untuk meringkaskan perwakilan emosi untuk mengesan emosi kemurungan daripada audio.
Pada ruang emosi, sebagai tambahan kepada kes valensi-gairah konvensional [33], Atmaja et al. [34] menggunakan model emosi tiga dimensi dengan valens, rangsangan, dan dominasi untuk mencirikan emosi kategori, di mana ciri akustik diekstrak oleh CNN dan LSTM, masing-masing. Selain itu, kajian dalam [35] menggunakan empat dimensi rangsangan-harapan-kuasa-valens untuk menggambarkan keadaan emosi, dan melaksanakan Mesin Unit Perkaitan (RUM) untuk meramalkan emosi.
Selanjutnya, Mirheidari et al. [36] mencadangkan pengesanan emosi melalui pengecaman darjah berbeza Emosi Terungkap, yang mengeksploitasi LLD yang diekstrak daripada segmen audio. Selain itu, Zou et al. [37] menggabungkan ciri akustik berbilang peringkat untuk meramalkan emosi, di mana spektrogram diekstrak oleh Rangkaian Neural Konvolusi (CNN), MFCC diekstrak oleh Rangkaian Memori Jangka Pendek Panjang dua arah (Bi-LSTM) dan wav2vec 2.0 diekstrak oleh rangkaian berasaskan pengubah, kemudian digabungkan dengan mekanisme perhatian bersama untuk mencapai prestasi kompetitif. Walaupun ciri buatan tangan sangat berkesan dalam membezakan emosi pertuturan, kebanyakannya adalah ciri peringkat rendah.
2.2 Pembelajaran Mendalam dalam Analisis Emosi Pertuturan
DNN kerap digunakan untuk mempelajari perwakilan domain frekuensi dan masa tersembunyi dalam isyarat pertuturan, juga berulang kali digunakan dalam sistem SER. Walau bagaimanapun, terdapat kekurangan penyiasatan mendalam untuk melaksanakan pendekatan pengagregatan pada langkah masa yang berbeza dalam tugasan SER [38]. Untuk mendapatkan ciri yang bergantung pada masa, Luo et al. gunakan RNN untuk mempelajari konteks lama daripada LLD peringkat bingkai berbilang [39], [40]. Sementara itu, mekanisme perhatian telah dimasukkan untuk memberi tumpuan kepada bahagian yang berkaitan dengan emosi [41]-[43]. Tambahan pula, Liu et al. [44], [45] mencadangkan Rangkaian Memori Jangka Pendek Panjang (LSTM) dengan penapis lilitan pada skala yang berbeza, yang direka untuk mengekstrak ciri yang berkaitan dengan emosi daripada domain yang berbeza dalam tugas pengelasan emosi.
Begitu juga, DNN juga telah digunakan dalam tugas SED, [46] menggunakan model CNN untuk SED, mencapai ketepatan purata yang tinggi pada tiga emosi utama. Kemudian, rangkaian RNN [47] digunakan untuk pengesanan emosi dalam dialog, yang memberikan maklumat kontekstual yang lebih baik untuk ujaran dan memperoleh hasil pengesanan emosi yang lebih baik. Selepas itu, Bi-LSTM [48] digunakan untuk mengekstrak ciri akustik dalam model klasifikasi pengesanan emosi neutral.
Selanjutnya, gabungan Rangkaian Neural Konvolusi dan Rangkaian Konvolusi Temporal (CNN-TCN) [49] diterima pakai sebagai modul pengekstrakan ciri, yang memperoleh ciri spektrum tempatan untuk pengesanan emosi. Pada masa ini, Perwakilan Pengekod Dua Arah daripada Transformers (BERT) [50] digunakan untuk meneroka maklumat kontekstual untuk meningkatkan prestasi dalam pengecaman emosi, yang menunjukkan keberkesanan dan keupayaan generalisasi penalaan halus. Sementara itu, penyesuaian peringkat rendah [51] digunakan untuk penalaan halus yang cekap parameter untuk mengurangkan parameter latihan model bahasa besar, yang mencapai prestasi yang baik dalam pengesanan empati dan tugas klasifikasi emosi. Sebaliknya, kami menggunakan rangkaian CNN-LSTM dengan mekanisme perhatian untuk SED, yang mengandungi rangkaian CNN untuk menangkap maklumat dalam dimensi temporal dan LSTM digunakan untuk menangkap korelasi temporal antara ciri. Di samping itu, mekanisme perhatian memberikan pemberat kepada ciri emosi dengan kekuatan yang berbeza untuk mendapatkan ciri yang lebih tersendiri.
3. Metodologi Cadangan
Dalam bahagian ini, kami memperkenalkan cadangan MSIR kami untuk SED seperti yang ditunjukkan dalam Rajah 1. Pertama, sepctrogram 2D-log-Mel (ciri statik dan delta tertib pertama) yang diekstrak daripada isyarat pertuturan mentah digunakan sebagai input cawangan CR . Kemudian, kami menjana ciri 3D-LLD dan wav2vec 2.0 daripada isyarat pertuturan mentah sebagai input kepada Bi-LSTM. Akhirnya, melalui menggabungkan tiga cabang, keadaan emosi dapat dikesan dalam pertuturan.
3.1 Cawangan Berulang Konvolusi
Untuk cawangan berulang konvolusi, lapisan konvolusi mahir dalam mengekstrak ciri invarian tempatan daripada jujukan input, dan lapisan berulang menangkap korelasi temporal antara bingkai untuk mendapatkan ciri global. Memandangkan isyarat pertuturan, kami membahagi isyarat kepada bingkai dengan tingkap Hamming dan Transformasi Fourier Pantas (FFT) dilakukan untuk setiap bingkai untuk mendapatkan maklumat domain frekuensi. Kemudian, maklumat domain frekuensi ditimbang menggunakan bank penapis Mel \(n\) untuk mendapatkan tenaga \(y_n\) bagi setiap jalur frekuensi Mel. Tenaga setiap jalur frekuensi Mel adalah logaritma untuk mendapatkan spektrogram log-Mel \(l_n\). Di samping itu, delta tertib pertama log-Mels statik dikira sebagai \(l_n^d\).
Input lapisan konvolusi ialah ciri 2D-log-Mels \(\bf M\) (\(L\times W\times K\)), di mana \(L\) ialah nombor bingkai, dan \(W =40\) ialah nombor saluran Mels manakala \(K =2\) mewakili ciri statik dan delta tertib pertama Mels. Peta ciri keluaran bagi lapisan konvolusi ialah \(\bf C\) (\(L\times W_c\times K\)), di mana \(W_c\) mewakili dimensi ciri selepas operasi konvolusi dan fungsi pengaktifan ialah Leaky-ReLU. Kemudian, lapisan penggabungan maksimum digunakan untuk mengurangkan dimensi dan mengawal overfitting, peta ciri output \(\bf P\) dinyatakan sebagai
\[\begin{equation*} \mathbf{P}=\operatorname{POOL}\left(\sigma_{\operatorname{Leaky-ReLU}} \left(\operatorname{CONV}_{m \times n}(\mathbf{M})\right)\right) \tag{1} \end{equation*}\] |
di mana \(\sigma_{\operatorname{Leaky-ReLU}}(\cdot)\) mewakili fungsi pengaktifan Leaky-ReLU, \({m \times n}\) mewakili saiz isirong lilitan adalah \({5 \times 3}\). \(\operatorname{POOL}(\cdot)\) mewakili operasi pengumpulan maksimum.
Sebelum menghantar ciri keluaran modul CNN kepada rangkaian ingatan jangka pendek yang panjang, yang Bersambung Sepenuhnya Lapisan (FC) ditambah untuk setiap unit peringkat rendah untuk mengurangkan dimensi ciri tanpa kehilangan ketepatan. Modul LSTM mengemas kini nilai sel melalui operasi antara fungsi get, yang menyimpan dan memperoleh maklumat kontekstual dengan berkesan. Dalam kerja ini, Bi-LSTM diguna pakai untuk mendapatkan maklumat masa kini dan masa hadapan dalam sesuatu ujaran. Selain itu, untuk mendapatkan perwakilan peringkat ujaran yang diskriminatif, kami menggunakan lapisan perhatian untuk menumpukan pada bahagian emosi yang berkaitan untuk SED. Sehubungan itu, keluaran cawangan berulang konvolusi boleh dibentangkan sebagai
\[\begin{equation*} \mathbf{P_{\operatorname{CR}}}=\mathbf{D_{\operatorname{BiLSTM}}\mathrm{(}P\mathrm{)}}\odot \left(\omega_{\mathbf{\operatorname{P}}} \cdot\sigma_{\operatorname{tanh}}(\mathbf{D_{\operatorname{BiLSTM}}\mathrm{(}P\mathrm{)}})\right), \tag{2} \end{equation*}\] |
bersama
\[\begin{equation*} \mathbf{D_{\operatorname{BiLSTM}}\mathrm{(}P\mathrm{)}}=\left[\mathbf D_{\mathbf{\operatorname{LSTM}}}^{(\operatorname{F})}(\mathbf P)^{\mathrm{T}}, \mathbf D_{\mathbf{\operatorname{LSTM}}}^{(\operatorname{B})}(\mathbf P)^{\mathrm{T}}\right]^{\mathrm{T}}, \tag{3} \end{equation*}\] |
di mana \(\bf P\) ialah keluaran modul CNN, \(\mathbf{D_{\operatorname{BiLSTM}}\mathrm{(}P\mathrm{)}}\) terdiri daripada \(\mathbf D_{\mathbf{\operatorname{LSTM}}}^{(\operatorname{F})}(\mathbf P)\) and \(\mathbf D_{\mathbf{\operatorname{LSTM}}}^{(\operatorname{B})}(\mathbf P)\) mewakili keluaran ke hadapan dan ke belakang Bi-LSTM masing-masing, dan \(\omega_{\mathbf{P}}\) mewakili vektor berat yang dipelajari daripada \(\mathbf{D_{\operatorname{BiLSTM}}\mathrm{(}P\mathrm{)}}\). Kemudian, \(\sigma_{\operatorname{tanh}}(\cdot)\) mewakili fungsi pengaktifan tanh [31]. Sehubungan itu, pihak \(\mathbf{P_{\operatorname{CR}}}\) ialah keluaran akhir cawangan berulang konvolusi dengan perhatian.
3.2 Deskriptor Aras Rendah dan Cawangan wav2vec
Kami memperoleh \(65\) deskriptor aras rendah dan deskriptor deltanya daripada isyarat pertuturan input. LLD mengandungi kategori kenyaringan, tenaga, Kadar Silang Sifar (ZCR), 1-26 TrAnsformasi Spektrum Relatif (RASTA) jalur pendengaran, Pekali Cepstrum Frekuensi Mel (MFCC) 1-14 tanpa \(0\)-pekali ke-, ciri spektrum, dan F\(0\)-ciri yang berkaitan. Kami mengekstrak \(130\)LLD berdimensi menggunakan kit alat openSMILE [52].
Cawangan wav2vec yang telah dilatih melalui pembelajaran penyeliaan kendiri menggunakan wav2vec 2.0 untuk mendapatkan perwakilan pertuturan yang bermakna daripada isyarat mentah [37]. Rajah 1 menunjukkan cawangan wav2vec yang terdiri daripada tiga blok. Pengekod ciri mengandungi beberapa blok konvolusi, yang mengekod audio mentah \(\bf G\) menjadi representasi ucapan terpendam \(\bf L_1, L_2, \ldots, L_j\), Di mana \(j\) ialah langkah masa. \(\bf L_j\) dinormalkan kepada min sifar dan varians unit. Khususnya, blok CNN terdiri daripada lapisan lilitan temporal, normalisasi lapisan dan fungsi pengaktifan unit linear ralat gaussian.
Kemudian, \(\bf L_j\) disalurkan kepada modul pengekod kontekstual berasaskan pengubah yang memperoleh perwakilan kontekstual \(\bf R_1, R_2, \ldots, R_j\) dengan mengagregatkan beberapa langkah masa. Akhir sekali, kami mengambil representasi ucapan terpendam \(\bf L_j\) daripada blok CNN sebagai input kepada modul pengkuantitian dan dapatkan pembenaman \(\bf Q_j\) selepas pendiskretan mengikut kuantisasi produk. Kerugian kontras digunakan untuk mengoptimumkan perwakilan konteks yang diperoleh daripada modul pengekod kontekstual dan pembenaman pendiskretan. Kami menambah \(\rm L2\) penyelarasan dan kehilangan kepelbagaian untuk meningkatkan penggunaan perwakilan buku kod terkuantisasi [53]. Akhir sekali, kehilangan kontras dioptimumkan pada setiap langkah untuk mendapatkan perwakilan kontekstual terlatih \(\bf R_j\) sebagai sebahagian daripada ciri akustik SED. Ambil perhatian bahawa kami membekukan model wav2vec 2.0 (dengan kehilangan kontrastif terbina dalam) dan menganggapnya sebagai pengekstrak ciri.
Akhir sekali, ciri LLD dan ciri wav2vec 2.0 digunakan sebagai input kepada dua rangkaian Bi-LSTM dengan lapisan perhatian, masing-masing. Output cawangan deskriptor peringkat rendah dan cawangan wav2vec hadir sebagai
\[\begin{eqnarray*} &&\!\!\!\!\! \mathbf{P_{\operatorname{LLD}}}=\omega_{\mathbf{\operatorname{LLD}}} \cdot \sigma_{\operatorname{tanh}}\left(\mathbf{D_{\operatorname{BiLSTM}}\mathrm{(}\mathbf{LLD}\mathrm{)}}\right), \tag{4} \\ &&\!\!\!\!\! \mathbf{P_{\operatorname{w2v}}}=\omega_{\mathbf{\operatorname{R_j}}} \cdot \sigma_{\operatorname{tanh}}\left(\mathbf{D_{\operatorname{BiLSTM}}\mathrm{(}\mathbf{R_j}\mathrm{)}}\right), \tag{5} \end{eqnarray*}\] |
di mana \(\mathbf{D_{\operatorname{BiLSTM}}\mathrm{(}P\mathrm{)}}\) \(=\) \(\mathbf D_{\mathbf{\operatorname{LSTM}}}^{(\operatorname{F})}(\mathbf P)\) \(+\) \(\mathbf D_{\mathbf{\operatorname{LSTM}}}^{(\operatorname{B})}(\mathbf P)\) mewakili output ke hadapan dan ke belakang Bi-LSTM, masing-masing. Secara khusus, \(\omega_{\mathbf{\operatorname{LLD}}}\) and \(\omega_{\mathbf{\operatorname{R_j}}}\) mewakili pemberat bagi \(\mathbf{D_{\operatorname{BiLSTM}}\mathrm{(}LLD\mathrm{)}}\) and \(\mathbf{D_{\operatorname{BiLSTM}}\mathrm{(}R_j\mathrm{)}}\), masing-masing. Sebagai tambahan, \(\sigma_{\operatorname{tanh}}(\cdot)\) mewakili fungsi pengaktifan tanh [31]. Sehubungan itu, pihak \(\mathbf{P_{\operatorname{LLD}}}\) and \(\mathbf{P_{\operatorname{w2v}}}\) ialah keluaran akhir cawangan LLD dan wav2vec, masing-masing.
3.3 Ciri Gabungan Pelbagai Sumber dengan Focal-Loss
Kemudian, kami menggabungkan tiga cabang sebagai maklumat peringkat rendah berbilang sumber. Perwakilan peringkat ujaran \(\bf S\) as
\[\begin{equation*} \mathbf{S}=[\mathbf{P_{\operatorname{CR}}}^{\mathrm{T}}, \mathbf{P_{\operatorname{LLD}}}^{\mathrm{T}}, \mathbf{P_{\operatorname{w2v}}}^{\mathrm{T}}]^{\mathrm{T}} \tag{6} \end{equation*}\] |
Gabungan LLI ialah input lapisan bersambung sepenuhnya. Sama seperti karya sebelumnya, fungsi pengaktifan softmax digunakan untuk mengira kebarangkalian ramalan emosi.
Kehilangan fokus biasanya digunakan untuk menyelesaikan ketidakseimbangan kategori dan kesukaran pengelasan dalam tugas pengesanan objek, yang juga wujud dalam tugas SED. Oleh itu, kertas kerja ini menggunakan Tumpuan-Kehilangan (FL) berfungsi untuk meminimumkan perbezaan antara label yang diramalkan dan kebenaran asas.
Pertama, untuk menyelesaikan masalah ketidakseimbangan antara sampel positif dan negatif, faktor pemberat \(\zeta \in[0,1]\) dinaikkan seperti ditunjukkan dalam Pers. (7). Apabila bilangan sampel positif jauh lebih besar daripada sampel negatif, maka kawal \(\zeta \in[0,0.5]\) untuk menambah berat sampel negatif dan mengurangkan berat sampel positif. bila \(\zeta\) = 0.5, ia ialah fungsi rentas-entropi piawai.
Walaupun faktor pemberat mengimbangi sampel positif dan negatif, ia tidak menangani masalah keseimbangan sampel mudah dan keras. Oleh itu, faktor modulasi \(\left({1-p}\right)^\theta\) ditambah pada fungsi, di mana \(p\) mewakili anggaran kebarangkalian rangkaian untuk kes positif dan \(1-p\) adalah kes negatif, yang \(\theta\) adalah faktor tumpuan. Dengan menyesuaikan diri \(\theta\) untuk mengurangkan sumbangan kehilangan sampel mudah dan meningkatkan berat sampel keras. FL dijana seperti yang ditunjukkan dalam
\[\begin{equation*} \mathcal{L}_{F L}\left(p\right)=-\zeta\left({1-p}\right)^\theta \log \left(p\right), \tag{7} \end{equation*}\] |
di mana \(\zeta\) adalah faktor pemberat, \(\theta\geq 0\) ialah faktor tumpuan, dan \(\left({1-p}\right)^\theta\) ialah faktor modulasi. Apabila sampel positif mudah dikelaskan dengan betul, \(p\) cenderung kepada 1, \(\left({1-p}\right)^\theta\) cenderung kepada 0, dan sumbangan kepada jumlah kerugian adalah sangat kecil.
4. Eksperimen
4.1 Persediaan Eksperimen
1) Tarikh dan Ciri: Untuk menilai prestasi kaedah cadangan kami, kami mengujinya pada Tangkapan Gerak Dyadic Emosi Interaktif (IEMOCAP) [54] pangkalan data yang dikumpul oleh Universiti California Selatan. Pangkalan data mengandungi lebih kurang \(12\) jam data secara keseluruhan termasuk \(10\) pelakon profesional. Setiap dialog dilakukan oleh dua pelakon berlainan jantina, mengandungi sejumlah \(5\) dialog, dan setiap dialog diadik dibahagikan kepada ujaran. Tempoh purata bagi setiap ujaran ialah \(4.5\) detik. Ujaran tersebut dilabelkan dengan enam label emosi (gembira, sedih, neutral, marah, teruja, dan kecewa). Dalam kertas ini, gembira (\(595\)) dan teruja (\(1\,041\)) digabungkan menjadi gembira, jadi kami meramalkan empat emosi yang paling mewakili antaranya: neutral (\(1\,708\)), sedih (\(1\,084\)), marah (\(1\,103\)), dan gembira (\(1\,636\)), dengan sejumlah \(5\,531\) ujaran seperti dalam karya berkaitan pada IEMOCAP [32], [37], [43], [44].
Dalam eksperimen, ciri log-Mels diekstrak oleh python-speech-features 0.6 toolkit. Kit alat ekstrak ciri openSMILE [52] (versi 2.4.1) digunakan untuk mengekstrak LLD (ciri statik, delta tertib pertama (\(\Delta\)) dan delta tertib kedua (\(\Delta^2\))). Ambil perhatian bahawa kit alat transformer 4.26.1 digunakan untuk mengekstrak ciri wav2vec 2.0, berdasarkan model wav2vec2-base-960h yang telah terlatih. Selain itu, sistem SED ini dilaksanakan dalam versi PyTorch 0.4.0, dipercepatkan oleh CUDA 9.0. Secara khusus, dimensi ciri input bagi setiap cawangan ditunjukkan dalam Jadual 2.
2) Persediaan Penilaian: Dalam percubaan, kami menggunakan z-skor untuk menormalkan data percubaan. Untuk mengurangkan pengaruh pemasangan berlebihan, Bebas Sesi Strategi (SI) diguna pakai dalam percubaan kami, menetapkan empat sesi pertama sebagai set latihan dan sesi terakhir sebagai set ujian. The Purata Ingatan Tanpa Wajaran (\(\text{UAR}\)) diberikan oleh purata empat nilai ingatan kelas sebagai metrik untuk menilai prestasi. Ia konsisten dengan kebanyakan kerja lain di IEMOCAP. Di samping itu, kami menggunakan \(\text{F1-score}\) untuk menilai ketepatan klasifikasi model cadangan kami.
3) Parameter Eksperimen: Untuk cawangan CR, lapisan konvolusi pertama mengandungi \(128\) kernel disertai dengan penormalan kelompok (momentum daripada \(0.99\), pereputan berat badan \(0.001\)), dan setiap lapisan konvolusi yang lain termasuk \(256\) biji. Ambil perhatian bahawa, Kami hanya menggunakan lapisan penghimpunan maksimum selepas lapisan konvolusi pertama, dengan saiz \(2\) dan langkah \(2\), menggunakan pelapik sifar.
Untuk cawangan wav2vec, modul pengekod ciri mengandungi \(7\) blok dan setiap blok dengan \(512\) saluran. Konvolusi dengan langkah (\(5, 2, 2, 2, 2, 2, 2\)) dan lebar kernel (\(10, 3, 3, 3, 3, 2, 2\)). Audio mentah dikodkan ke dalam urutan pembenaman dengan selangkah \(20\) ms dan bidang yang menerima \(25\) ms. Modul pengekod kontekstual menggunakan \(12\) blok pengubah dengan 8 kepala perhatian setiap satu, dimensi model \(768\). MSIR yang dicadangkan dilaksanakan menggunakan platform Python dan rangka kerja TensorFlow. Kami menggunakan Anggaran momen penyesuaian (Adam) pengoptimum dalam eksperimen kami dan julat kadar pembelajaran awal ialah \(\lbrace 5\times 10^{-6}, 10^{-6}, 5\times 10^{-5}, 10^{-5}, 5\times 10^{-4}, 10^{-4}, 5\times 10^{-3}, 10^{-3}, 5\times 10^{-2}, 10^{-2}\rbrace\). Seni bina dilatih dengan saiz kumpulan \(64\). Parameter model dioptimumkan dengan meminimumkan fungsi kehilangan dalam \(100\) zaman.
4.2 Keputusan dan Analisis Eksperimen
4.2.1 Perbandingan antara Pendekatan
Pertama, kami memeriksa prestasi skor UAR dan F1 menggunakan maklumat peringkat rendah yang berbeza dan gabungannya untuk cawangan berulang yang berbeza dengan fungsi kehilangan yang berbeza. Maklumat peringkat rendah terdiri daripada 2D-log-Mels, 3D-log-Mels, 1D-LLD, 2D-LLD, 3D-LLD, dan wav2vec 2.0, sementara kami menganggap cawangan RNN yang berbeza dengan kerugian yang berbeza. Set ciri bagi Cabaran Paralinguistik Pengiraan (ComParE) [55] dan Set Parameter Akustik Minimalis Geneva lanjutan (eGeMAPS) ialah garis dasar. Jadual 1 menyenaraikan skor UAR dan F1 bagi pendekatan yang berbeza (termasuk garis dasar dan MSIR yang dicadangkan) pada SED. Keputusan menunjukkan bahawa cawangan RNN mengatasi garis dasar dan memperoleh peningkatan mutlak skor UAR dan F1 pada SED. Ini menunjukkan bahawa maklumat peringkat rendah dengan cawangan berulang dapat mengekalkan dan memperoleh maklumat emosi yang berkesan. Tambahan pula, keputusan menunjukkan bahawa UAR 2D-log-Mels dihidupkan Rangkaian Neural Berulang Konvolusi berasaskan perhatian (ACRNN) adalah lebih baik daripada [18]. Oleh itu, kami menggunakan ciri ini dalam percubaan berikut kami. Kami menggunakan LLD (termasuk 1D-LLD, 2D-LLD, 3D-LLD) sebagai input RNN (modul merujuk kepada LLF-LSTM dalam [36]) dan menggabungkan ciri yang diperolehi ke dalam ACRNN (2D), masing-masing. Berbanding dengan LLF-LSTM (1D-LLD) dan LLF-LSTM (2D-LLD), gabungan ACRNN (2D) dan LLF-LSTM (3D-LLD) memperoleh peningkatan relatif \(1.5\%\) and \(0.9\%\) pada UAR, \(2.7\%\) and \(1.5\%\) pada skor F1, masing-masing.
Sementara itu, untuk mendapatkan gambaran emosi yang lebih banyak, kami memperoleh ciri wav2vec 2.0, sambil menggabungkan dengan ciri ACRNN (2D) dan LLF-LSTM (3D-LLD) (Seni bina ini adalah Cawangan berulang berasaskan maklumat peringkat rendah Berbilang Sumber tanpa Kehilangan Tumpuan (MSIR (tanpa FL)). Keputusan Jadual 1 menyatakan bahawa, skor UAR dan F1 bagi (MSIR (w/o FL)) adalah \(80.9\)\(\%\) and \(71.1\)\(\%\) yang memperoleh peningkatan mutlak untuk garis dasar. Selain itu, berbanding dengan gabungan ciri ACRNN (2D) dan LLF-LSTM (3D-LLD), kami juga menggabungkan wav2vec 2.0 (yang mana input w2v-EN serupa dengan [56] tanpa lapisan padat) dan LLF-LSTM (3D-LLD), yang mendapat peningkatan daripada \(0.9\)\(\%\) UAR dan \(2.2\)\(\%\) Skor F1, menunjukkan bahawa perwakilan emosi kontekstual mengandungi lebih banyak maklumat emosi dan berkesan untuk menambah baik tugas SED. Khususnya, berbanding dengan gabungan dua cawangan, maklumat peringkat rendah berbilang sumber mempunyai prestasi yang lebih baik untuk tugas SED.
4.2.2 Kajian Ablasi
Selanjutnya, untuk memproses ketidakseimbangan antara sampel positif dan sampel negatif serta sampel mudah dan sampel keras, kami menggunakan fungsi kehilangan fokus untuk SED. Jadual 1 menunjukkan bahawa kita memperoleh \(1.2\)\(\%\) UAR dan \(0.1\)\(\%\) F1-skor peningkatan lagi berbanding dengan MSIR (w/o FL), yang menunjukkan bahawa fokus-kerugian adalah keberkesanan untuk kelas ketidakseimbangan. Secara khusus, kami membentangkan hasil graf lajur UAR dan skor F1 untuk pendekatan yang dicadangkan MSIR dan MSIR (w/o FL) dalam Rajah 2 dan Rajah 3.
Kami membuat perbandingan antara sistem MSIR kami yang dicadangkan dan cawangan berulang lain untuk emosi "gembira", "neutral", "sedih", "marah" pada Sensitiviti (Kadar Positif Sebenar yang dinyatakan sebagai 'TPR'\(;\%\)) dan Kekhususan (Kadar Negatif Sebenar yang dinyatakan sebagai 'TNR'\(;\%\)). Keputusan Jadual 3 dan Jadual 4 menunjukkan bahawa MSIR mencapai Kekhususan tertinggi gembira, neutral, sedih, dan marah, iaitu \(87.3\)\(\%\), \(86.0\)\(\%\), \(96.6\)\(\%\), dan \(98.4\)\(\%\), masing-masing. Selain itu, Sensitiviti neutral, sedih, dan marah dengan seni bina MSIR (w/o FL) adalah \(63.1\)\(\%\), \(67.7\)\(\%\), dan \(78.8\)\(\%\), yang lebih tinggi daripada hanya menggunakan dua cawangan. Ini mengesahkan bahawa ciri gabungan pelbagai sumber boleh mencapai prestasi yang lebih baik.
Jadual 3 Kepekaan (kadar positif sebenar dinyatakan sebagai 'TPR'\(;\%\)) daripada emosi "gembira", "neutral", "sedih", "marah" yang diperoleh dengan empat kaedah masing-masing. |
Jadual 4 Kekhususan (kadar negatif sebenar dinyatakan sebagai 'TNR'\(;\%\)) daripada emosi "gembira", "neutral", "sedih", "marah" yang diperoleh dengan empat kaedah masing-masing. |
Untuk tujuan membuat perbandingan mengikut kelas, matriks kekeliruan empat emosi pada sistem MSIR yang dicadangkan dalam Rajah 4(a), 4(b), 4(c), dan 4(d), masing-masing. Hasilnya menyatakan bahawa pendekatan yang dicadangkan memperoleh ingatan semula empat emosi, di mana "gembira" adalah \(57.4\)\(\%\) (untuk 'positif') dan \(87.3\)\(\%\) (untuk 'negatif'), "neutral" ialah \(59.3\)\(\%\) (untuk 'positif') dan \(86.0\)\(\%\) (untuk 'negatif'), "sedih" ialah \(64.1\)\(\%\) (untuk 'positif') dan \(96.6\)\(\%\) (untuk 'negatif'), dan "marah" ialah \(70.7\)\(\%\) (untuk 'positif') dan \(98.4\)\(\%\) (untuk 'negatif'). Ini mengesahkan prestasi pendekatan yang dicadangkan pada kedua-dua kelas.
Rajah 4 Matriks kekeliruan (termasuk penarikan balik dan nombor) MSIR yang dicadangkan pada empat emoton. |
Akhirnya, kami mempertimbangkan untuk membandingkan parameter \(\zeta\) FL dalam empat emosi (di mana kami menetapkan \(\theta\) = \(2\) sama seperti kebanyakan karya sebelumnya), dan prestasi semuanya lebih baik daripada Entropi silang (CE) (iaitu, kami mengkaji keputusan UAR terbaik untuk pendekatan MSIR yang dicadangkan berbanding dengan MSIR (w/o FL)), seperti yang ditunjukkan dalam Rajah 5(a), 5(b), 5(c), dan 5 (d), masing-masing. UAR "gembira" dengan \(\zeta\)=\(0.75\) is \(0.9\)\(\%\) lebih baik daripada CE. UAR "sedih" dengan \(\zeta\)=\(0.25\), \(0.55\), \(0.65\) adalah lebih baik daripada CE, di mana UAR berada \(1.2\)\(\%\) lebih baik daripada CE apabila \(\zeta\)=\(0.65\). UAR "marah" dengan alpha=\(0.25\), \(0.65\) adalah lebih baik daripada CE, di mana UAR berada \(0.9\)\(\%\) lebih baik daripada CE apabila \(\zeta\)=\(0.25\). Khususnya, UAR "neutral" untuk semua parameter \(\zeta\) adalah lebih baik daripada CE. bila \(\zeta\)=\(0.75\), UAR ialah \(1.8\)\(\%\) lebih baik daripada CE yang memperoleh peningkatan prestasi terbesar. Dengan menambah parameter pemfokusan \(\theta\), sumbangan sampel mudah dalam kehilangan dikurangkan dan memperluaskan julat sampel menerima kehilangan rendah. Dengan melaraskan nilai faktor pemberat \(\zeta\), yang mengimbangi kepentingan sampel positif dan negatif dan meningkatkan prestasi model.
5. Kesimpulan
Kertas kerja ini membentangkan pendekatan baru untuk mengesan emosi pertuturan menggunakan cabang berulang melalui penggabungan maklumat peringkat rendah. Kami mula-mula mengekstrak maklumat peringkat rendah daripada segmen audio untuk menjana perwakilan emosi. Maklumat peringkat rendah ini adalah input kepada cawangan berulang yang berbeza, mengeluarkan penyatuan ciri. Seterusnya, kami menggunakan focal-loss untuk melupuskan ketidakseimbangan kelas dalam tugasan SED. Keputusan percubaan pada set data IEMOCAP menunjukkan prestasi unggul pendekatan yang dicadangkan, berbanding dengan penyelidikan dan garis dasar sedia ada. Kerja masa depan mungkin menumpukan pada menyiasat maklumat peringkat rendah yang lebih berkesan untuk cawangan yang berbeza, model pra-latihan yang lain juga dijangka. Selain itu, kami ingin meneroka pembelajaran pemindahan untuk menyelesaikan masalah pengesanan emosi pertuturan merentas domain [57]-[59].
Acknowledgments
This work is supported by the State Key Program of National Natural Science Foundation of China (U2003207), National Natural Science Foundation of China (NSFC) (62174150), and China Postdoctoral Science Foundation (2022M711693).
Rujukan
[1] S. Li, X. Xing, W. Fan, B. Cai, P. Fordson, and X. Xu, “Spatiotemporal and frequential cascaded attention networks for speech emotion recognition,” Neurocomputing, vol.448, pp.238-248, 2021.
CrossRef
[2] R.S. Sudhakar and M.C. Anil, “Analysis of speech features for emotion detection: A review,” Proc. International Conference on Computing Communication Control and Automation (ICCUBEA), Pune, India, pp.661-664, IEEE, 2015.
CrossRef
[3] A. Koduru, H.B. Valiveti, and A.K. Budati, “Feature extraction algorithms to improve the speech emotion recognition rate,” Int. J. Speech Technol., vol.23, no.1, pp.45-55, 2020.
CrossRef
[4] A. Satt, S. Rozenberg, and R. Hoory, “Efficient emotion recognition from speech using deep learning on spectrograms,” Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), Stockholm, Sweden, pp.1089-1093, ISCA, 2017.
CrossRef
[5] K. Hartmann, I. Siegert, D. Philippou-Hübner, and A. Wendemuth, “Emotion detection in HCI: From speech features to emotion space,” IFAC Symposium on Analysis, Design, and Evaluation of Human-Machine Systems, vol.46, no.15, pp.288-295, 2013.
CrossRef
[6] S. Li, W. Deng, and J. Du, “Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild,” Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Hawaii State, USA, pp.2852-2861, IEEE, 2017.
CrossRef
[7] S. Bedoya-Jaramillo, E. Belalcazar-Bolaños, T. Villa-Cañas, J. Orozco-Arroyave, J. Arias-Londoño, and J. Vargas-Bonilla, “Automatic emotion detection in speech using mel frequency cesptral coefficients,” Proc. Symposium of Image, Signal Processing, and Artificial Vision (STSIVA), Medellin, Antioquia, Colombia, pp.62-65, IEEE, 2012.
CrossRef
[8] S. Lalitha, D. Geyasruti, R. Narayanan, and M. Shravani, “Emotion detection using MFCC and cepstrum features,” Procedia Computer Science, vol.70, pp.29-35, 2015.
CrossRef
[9] I. Shahin, O.A. Alomari, A.B. Nassif, I. Afyouni, I.A. Hashem, and A. Elnagar, “An efficient feature selection method for arabic and english speech emotion recognition using Grey Wolf Optimizer,” Applied Acoustics, vol.205, p.109279, 2023.
CrossRef
[10] Mustaqeem, M. Sajjad, and S. Kwon, “Clustering-based speech emotion Recognition by incorporating learned features and Deep BiLSTM,” IEEE Access, vol.8, pp.79861-79875, 2020.
CrossRef
[11] X. Ma, Z. Wu, J. Jia, M. Xu, H. Meng, and L. Cai, “Emotion recognition from variable-length speech segments using deep learning on spectrograms,” Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), Hyderabad, India, pp.3683-3687, ISCA, 2018.
CrossRef
[12] S.P. Mishra, P. Warule, and S. Deb, “Variational mode decomposition based acoustic and entropy features for speech emotion recognition,” Applied Acoustics, vol.212, p.109578, 2023.
CrossRef
[13] N. Scheidwasser-Clow, M. Kegler, P. Beckmann, and M. Cernak, “SERAB: A multi-lingual benchmark for speech emotion recognition,” Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Virtual and Singapore, pp.7697-7701, IEEE, 2022.
CrossRef
[14] A.S. Tehrani, N. Faridani, and R. Toosi, “Unsupervised representations improve supervised learning in speech emotion recognition,” ArXiv Preprint, ArXiv:2309.12714, 2023.
CrossRef
[15] M. Baruah and B. Banerjee, “Speech emotion recognition via generation using an attention-based variational recurrent neural network,” Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), Brno, Czechia, pp.4710-4714, ISCA, 2022.
CrossRef
[16] G.A. Prabhakar, B. Basel, A. Dutta, and C.V.R. Rao, “Multichannel CNN-BLSTM architecture for speech emotion recognition system by fusion of magnitude and phase spectral features using DCCA for consumer applications,” IEEE Trans. Consum. Electron., vol.69, no.2, pp.226-235, 2023.
CrossRef
[17] S. Sarker, K. Akter, and N. Mamun, “A text independent speech emotion recognition based on convolutional neural network,” Proc. International Conference on Electrical, Computer and Communication Engineering (ECCE), Swansea, UK, pp.1-4, IEEE, 2023.
CrossRef
[18] M. Chen, X. He, J. Yang, and H. Zhang, “3-D convolutional recurrent neural networks with attention model for speech emotion recognition,” IEEE Signal Process. Lett., vol.25, no.10, pp.1440-1444, 2018.
CrossRef
[19] D.M. Schuller and B.W. Schuller, “A review on five recent and near-future developments in computational processing of emotion in the human voice,” Emotion Review, vol.13, no.1, pp.44-50, 2021.
CrossRef
[20] C. Marechal, D. Mikołajewski, K. Tyburek, P. Prokopowicz, L. Bougueroua, C. Ancourt, and K. Wȩgrzyn-Wolska, “Survey on AI-based multimodal methods for emotion detection,” High-performance Modelling and Simulation for Big Data Applications, LNTCS, vol.11400, pp.307-324, 2019.
CrossRef
[21] A. Triantafyllopoulos, S. Liu, and B.W. Schuller, “Deep speaker conditioning for speech emotion recognition,” Proc. International Conference on Multimedia and Expo (ICME), Shenzhen, China, pp.1-6, IEEE, 2021.
CrossRef
[22] H. Zhou and K. Liu, “Speech emotion recognition with discriminative feature learning,” Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), Shanghai, China, pp.4094-4097, ISCA, 2020.
CrossRef
[23] D. Dai, Z. Wu, R. Li, X. Wu, J. Jia, and H. Meng, “Learning discriminative features from spectrograms using center loss for speech emotion recognition,” Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Graz, Austria, pp.7405-7409, ISCA, 2019.
CrossRef
[24] P. Kumar, S. Jain, B. Raman, P.P. Roy, and M. Iwamura, “End-to-end Triplet loss based emotion embedding system for speech emotion recognition,” Proc. International Conference on Pattern Recognition (ICPR), Virtual Event/Milano, Italy, pp.8766-8773, Springer, 2021.
CrossRef
[25] T.Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollár, “Focal loss for dense object detection,” Proc. International Conference on Computer Vision (ICCV), Venice, Italy, pp.2980-2988, IEEE, 2017.
CrossRef
[26] J. Cai, Z. Meng, A.S. Khan, Z. Li, J. O’Reilly, and Y. Tong, “Island loss for learning discriminative features in facial expression recognition,” Proc. International Conference on Automatic Face & Gesture Recognition (FG), Xi’an, China, pp.302-309, IEEE, 2018.
CrossRef
[27] X.Y. Jing, X. Zhang, X. Zhu, F. Wu, X. You, Y. Gao, S. Shan, and J.Y. Yang, “Multiset feature learning for highly imbalanced data classification,” IEEE Trans. Pattern Anal. Mach. Intell., vol.43, no.1, pp.139-156, 2019.
CrossRef
[28] Y. Chang, Z. Ren, T.T. Nguyen, K. Qian, and B.W. Schuller, “Knowledge transfer for on-device speech emotion recognition with neural structured learning,” Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, Greece, IEEE, 2023.
CrossRef
[29] P. Pérez-Toro, D. Rodríguez-Salas, T. Arias-Vergara, S. Bayerl, P. Klumpp, K. Riedhammer, M. Schuster, E. Nöth, A. Maier, and J. Orozco-Arroyave, “Transferring quantified emotion knowledge for the detection of depression in alzheimer’s disease using forestnets,” Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, Greece, IEEE, 2023.
CrossRef
[30] S. Lalitha, S. Tripathi, and D. Gupta, “Enhanced speech emotion detection using deep neural networks,” Int. J. Speech Technol., vol.22, no.3, pp.497-510, 2019.
CrossRef
[31] Y. Shen, H. Yang, and L. Lin, “Automatic depression detection: an emotional audio-textual corpus and a Gru/Bilstm-based model,” Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Virtual and Singapore, pp.6247-6251, IEEE, 2022.
CrossRef
[32] W. Wu, M. Wu, and K. Yu, “Climate and weather: Inspecting depression detection via emotion recognition,” Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Virtual and Singapore, pp.6262-6266, IEEE, 2022.
CrossRef
[33] Y. Feng and L. Devillers, “End-to-end continuous speech emotion recognition in real-life customer service call center conversations,” Proc. International Conference on Affective Computing and Intelligent Interaction Workshops and Demos (ACIIW), pp.1-8, IEEE, 2023.
CrossRef
[34] B.T. Atmaja and M. Akagi, “Dimensional speech emotion recognition from speech features and word embeddings by using multitask learning,” APSIPA Transactions on Signal and Information Processing, vol.9, no.1, p.e17, 2020.
CrossRef
[35] F. Wang, H. Sahli, J. Gao, D. Jiang, and W. Verhelst, “Relevance units machine based dimensional and continuous speech emotion prediction,” Multimed. Tools Appl., vol.74, pp.9983-10000, 2015.
CrossRef
[36] B. Mirheidari, A. Bittar, N. Cummins, J. Downs, H.L. Fisher, and H. Christensen, “Automatic detection of expressed emotion from five-minute speech samples: Challenges and opportunities,” Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), Incheon, Korea, pp.2458-2462, ISCA, 2022.
CrossRef
[37] H. Zou, Y. Si, C. Chen, D. Rajan, and E.S. Chng, “Speech emotion recognition with co-attention based multi-level acoustic information,” Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Virtual and Singapore, pp.7367-7371, IEEE, 2022.
CrossRef
[38] Z. Yao, Z. Wang, W. Liu, Y. Liu, and J. Pan, “Speech emotion recognition using fusion of three multi-task learning-based classifiers: HSF-DNN, MS-CNN and LLD-RNN,” Speech Communication, vol.120, pp.11-19, 2020.
CrossRef
[39] M. Luo, H. Phan, and J. Reiss, “Cross-modal fusion techniques for utterance-level emotion recognition from text and speech,” Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, Greece, IEEE, 2023.
CrossRef
[40] Y. Xie, R. Liang, Z. Liang, C. Huang, C. Zou, and B. Schuller, “Speech emotion classification using attention-based LSTM,” IEEE/ACM Trans. Audio, Speech, Language Process., vol.27, no.11, pp.1675-1685, 2019.
CrossRef
[41] L. Tarantino, P.N. Garner, A. Lazaridis, “Self-attention for speech emotion recognition,” Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), Graz, Austria, pp.2578-2582, ISCA, 2019.
CrossRef
[42] Z. Zhao, H. Wang, H. Wang, and B. Schuller, “Hierarchical network with decoupled knowledge distillation for speech emotion recognition,” Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, Greece, IEEE, 2023.
CrossRef
[43] S. Kakouros, T. Stafylakis, L. Mošner, and L. Burget, “Speech-based emotion recognition with self-supervised models using attentive channel-wise correlations and label smoothing,” Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, Greece, IEEE, 2023.
CrossRef
[44] K. Liu, D. Wang, D. Wu, and J. Feng, “Speech emotion recognition via two-stream pooling attention with discriminative channel weighting,” Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, Greece, IEEE, 2023.
CrossRef
[45] M. Rayhan Ahmed, S. Islam, A. Muzahidul Islam, and S. Shatabda, “An ensemble 1D-CNN-LSTM-GRU model with data augmentation for speech emotion recognition,” Expert Systems with Applications, vol.218, p.119633, 2023.
CrossRef
[46] D. Bertero and P. Fung, “A first look into a convolutional neural network for speech emotion detection,” Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), New Orleans, LA, USA, pp.5115-5119, IEEE, 2017.
CrossRef
[47] N. Majumder, S. Poria, D. Hazarika, R. Mihalcea, A. Gelbukh, and E. Cambria, “DialogueRNN: An attentive RNN for emotion detection in conversations,” Proc. AAAI Conference on Artificial Intelligence, Hawaii, USA, pp.6818-6825, AAAI Press, 2019.
CrossRef
[48] J. Santoso, T. Yamada, K. Ishizuka, T. Hashimoto, and S. Makino, “Performance improvement of speech emotion recognition by neutral speech detection using autoencoder and intermediate representation,” Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), Incheon, Korea, pp.4700-4704, ISCA, 2022.
CrossRef
[49] W. Li, J. Xue, R. Tan, C. Wang, Z. Deng, S. Li, G. Guo, and D. Cao, “Global-local-feature-fused driver speech emotion detection for intelligent cockpit in automated driving,” IEEE Trans. Intell. Veh., vol.8, no.4, pp.2684-2697, 2023.
CrossRef
[50] X. Qin, Z. Wu, T. Zhang, Y. Li, J. Luan, B. Wang, L. Wang, and J. Cui, “BERT-ERC: Fine-tuning BERT is enough for emotion recognition in conversation,” Proc. AAAI Conference on Artificial Intelligence, Washington, DC, USA, pp.13492-13500, 2023.
CrossRef
[51] Y. Wang, J. Wang, and X. Zhang, “YNU-HPCC at WASSA-2023 shared task 1: Large-scale language model with LoRA fine-tuning for empathy detection and emotion classification,” Proc. Workshop on Computational Approaches to Subjectivity, Sentiment, & Social Media Analysis (WASSA), Toronto, Canada, pp.526-530, Association for Computational Linguistics, 2023.
CrossRef
[52] F. Eyben, F. Weninger, F. Gross, and B. Schuller, “Recent developments in openSMILE, the munich open-source multimedia feature extractor,” Proc. ACM International Conference on Multimedia, Barcelona, Spain, pp.835-838, ACM, 2013.
CrossRef
[53] Y. Wang, A. Boumadane, and A. Heba, “A fine-tuned wav2vec 2.0/HuBERT benchmark for speech emotion recognition, speaker verification and spoken language understanding,” ArXiv Preprint, ArXiv:2111.02735, 2021.
CrossRef
[54] C. Busso, M. Bulut, C.C. Lee, A. Kazemzadeh, E. Mower, S. Kim, J.N. Chang, S. Lee, and S.S. Narayanan, “IEMOCAP: Interactive emotional dyadic motion capture database,” Lang. Resources & Evaluation, vol.42, no.4, pp.335-359, 2008.
CrossRef
[55] B. Schuller, S. Steidl, A. Batliner, A. Vinciarelli, K. Scherer, F. Ringeval, M. Chetouani, F. Weninger, F. Eyben, E. Marchi, M. Mortillaro, H. Salamin, A. Polychroniou, F. Valente, and S. Kim, “The INTERSPEECH 2013 computational paralinguistics challenge: Social signals, conflict, emotion, autism,” Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), Lyon, France, pp.148-152, ISCA, 2013.
CrossRef
[56] M. Macary, M. Tahon, Y. Estéve, and A. Rousseau, “On the use of self-supervised pre-trained acoustic and linguistic features for continuous speech emotion recognition,” 2021 IEEE Spoken Language Technology Workshop (SLT), pp.373-380, 2021.
CrossRef
[57] S. Li, P. Song, and W. Zheng, “Multi-source discriminant subspace alignment for cross-domain speech emotion recognition,” IEEE/ACM Trans. Audio, Speech, Language Process., vol.31, pp.2448-2460, 2023.
CrossRef
[58] W. Zhang, P. Song, D. Chen, C. Sheng, and W. Zhang, “Cross-corpus speech emotion recognition based on joint transfer subspace learning and regression,” IEEE Trans. Cogn. Develop. Syst., vol.14, no.2, pp.588-598, 2021.
CrossRef
[59] W. Zhang and P. Song, “Transfer sparse discriminant subspace learning for cross-corpus speech emotion recognition,” IEEE/ACM Trans. Audio, Speech, Language Process., vol.28, pp.307-318, 2019.
CrossRef