Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Open Access
Enhancing Speech Quality in Air Traffic Control Communication Using DIUnet_V-Based Speech Enhancement Techniques
Membuka akses
Meningkatkan Kualiti Pertuturan dalam Komunikasi Kawalan Trafik Udara Menggunakan Teknik Peningkatan Pertuturan Berasaskan DIUnet_V

Haijun LIANG, Yukun LI, Jianguo KONG, Qicong HAN, Chengyu YU

  • pandangan teks lengkap

    346

  • Petikan Ini
  • Free PDF (11.7MB)

Ringkasan:

Komunikasi Kawalan Trafik Udara (ATC) mengalami masalah seperti gangguan elektromagnet yang tinggi, kadar pertuturan yang cepat dan kebolehfahaman yang rendah, yang menimbulkan cabaran untuk tugas hiliran seperti Pengecaman Pertuturan Automatik (ASR). Artikel ini bertujuan untuk menyelidik cara meningkatkan kualiti audio dan kebolehfahaman pertuturan penerbangan awam melalui kaedah peningkatan pertuturan, dengan itu meningkatkan ketepatan pengecaman pertuturan dan menyediakan sokongan untuk pendigitalan penerbangan awam. Kami mencadangkan model peningkatan pertuturan yang dipanggil DIUnet_V (DenseNet & Inception & U-Net & Volume) yang menggabungkan kedua-dua kaedah kekerapan masa dan domain masa untuk mengendalikan ciri khusus pertuturan penerbangan awam dengan berkesan, seperti gangguan elektromagnet utama dan kadar pertuturan pantas . Untuk penilaian model, kami menilai kesan denoising dan peningkatan menggunakan tiga metrik: Nisbah Signal-to-Noise (SNR), Min Skor Pendapat (MOS) dan kadar ralat pengecaman pertuturan. Pada set data rakaman latihan ATC simulasi, DIUnet_Volume10 mencapai nilai SNR sebanyak 7.3861, menunjukkan peningkatan 4.5663 berbanding model U-net asal. Untuk menangani cabaran ketiadaan pertuturan bersih dalam persekitaran kerja ATC, yang menyukarkan pengiraan SNR dengan tepat, kami mencadangkan untuk menilai kesan denoising secara tidak langsung berdasarkan prestasi pengecaman sistem pengecaman pertuturan ATC. Pada set data pertuturan ATC sebenar, purata kadar ralat perkataan menurun sebanyak 1.79% mutlak dan purata kadar ralat ayat menurun sebanyak 3% mutlak untuk pertuturan yang diproses DIUnet_V berbanding dengan pertuturan yang tidak diproses dalam sistem pengecaman pertuturan yang dibina.

Jawatankuasa
IEICE TRANSACTIONS on Information Vol.E107-D No.4 pp.551-558
Tarikh penerbitan
2024/04/01
Diumumkan
2023/12/11
ISSN dalam talian
1745-1361
DOI
10.1587/transinf.2023EDP7110
Jenis Manuskrip
PAPER
kategori
Pertuturan dan Pendengaran

1. Pengenalan

1.1 Latar Belakang

Peningkatan pertuturan adalah salah satu subtugas pemisahan pertuturan. Matlamat peningkatan pertuturan adalah untuk meningkatkan pertuturan sasaran sambil mengurangkan pertuturan bukan sasaran, meningkatkan pertuturan yang berguna dengan berkesan sambil menyekat pertuturan yang mengganggu. Teknik peningkatan pertuturan boleh dibahagikan kepada kaedah domain masa dan kaedah domain kekerapan masa (TF).

Pada peringkat awal, kaedah domain TF hanya mempertimbangkan pemulihan amplitud pertuturan sasaran. Kaedah biasa termasuk topeng nilai sebenar topeng binari ideal (IBM) [1], topeng nisbah ideal (IRM) [2], dan topeng magnitud spektrum (SMM) [3]. Walau bagaimanapun, kaedah ini tidak mengambil kira maklumat fasa dalam pertuturan. Menyedari kepentingan maklumat fasa [4], Williamson et al. mencadangkan nisbah ideal kompleks cIRM topeng [5] dan mereka bentuk pendekatan berasaskan DNN untuk menganggar bahagian sebenar dan khayalan cIRM untuk pembinaan semula setia spektrogram TF kompleks. Walau bagaimanapun, dalam penilaian kaedah penganggaran cIRM berasaskan DNN, didapati bahawa hanya menukar sasaran latihan kepada cIRM membawa kepada degradasi kepada IRM, iaitu, maklumat fasa tidak dipulihkan. Untuk menangani isu ini, Yin et al. [6] mereka bentuk rangkaian dua aliran PHASEN, yang meramalkan topeng amplitud dan fasa secara berasingan, menggabungkan pertukaran maklumat dua arah dalam seni bina dua aliran untuk membimbing ramalan fasa dengan amplitud yang diramalkan. Walau bagaimanapun, ramalan fasa ini membawa kepada kehilangan maklumat dalam fasa tersebut. Untuk mengelakkan kehilangan maklumat fasa, [7] menggunakan teknik Short-Time Fourier Transform (SFTF) untuk mengubah audio kepada spektrogram magnitud, mencapai keputusan yang baik. [8] mencadangkan pendekatan alternatif kepada SFTF menggunakan Transformasi Pengekod Autokonvolusi (AET) bernilai sebenar sebagai bahagian hadapan adaptif untuk pengiraan spektrogram. Walaupun prestasi AET telah bertambah baik, ia tidak menggunakan fasa campuran untuk anggaran nisbah sumber-ke-bunyi yang lebih baik dan tidak mengeluarkan fasa sumber, mengehadkan prestasi AET.

Untuk mengelakkan berurusan dengan maklumat fasa yang kompleks, dalam kaedah domain masa, Rethage et al. [10] memilih Wavenet [9] untuk memproses isyarat pertuturan. Ia boleh memberikan input bukan sebab dan output sampel selari untuk setiap ramalan dan mempertimbangkan maklumat kontekstual dengan berulang kali menggunakan belitan diluaskan dengan faktor pelebaran yang berkembang pesat. Walau bagaimanapun, seni bina [9] mempunyai penggunaan memori yang tinggi, dan model ini hanya berfungsi dengan baik dalam pengendalian hingar pegun. Daniel Stoller et al. [11] mengambil pendekatan berbeza dengan menggabungkan Wavenet dengan model U-Net yang digunakan dalam domain imej, berjaya menggunakan model U-Net pada domain pertuturan, dan mencadangkan Wave-U-Net. Model Wave-U-Net mengambil audio sebagai input dan bukannya imej, membolehkan pemisahan sumber hujung ke hujung dalam domain masa. Walau bagaimanapun, model ini masih mengalami penggunaan memori yang tinggi.

Aviad Eisenberg et al. [12] berhujah bahawa kaedah domain masa mengabaikan ciri temporal ucapan itu sendiri. Mereka kembali kepada kaedah domain TF [12] dan mencadangkan seni bina Siam-Unet. Seni bina ini mengambil ciri TF sebagai input dan output dan menggunakan penyahkod dwi-kepala untuk mengendalikan magnitud dan komponen fasa yang terurai daripada spektrogram kompleks, mencapai hasil yang baik.

Selepas menganalisis model yang disebutkan di atas, kertas ini menggabungkan kekuatan domain kekerapan masa dan kaedah domain masa untuk mereka bentuk DIUnet_V. Daripada menggunakan pemetaan ciri berasaskan pertuturan seperti dalam [11], kajian ini memfokuskan kepada pemetaan ciri spektrogram. Pendekatan ini mengurangkan isu penggunaan memori yang dikaitkan dengan pemetaan ciri berasaskan pertuturan dalam Wave-U-Net dan membolehkan pengekstrakan ciri mendalam bagi ciri imej. Memandangkan AET mempunyai masalah dengan pengendalian maklumat fasa dengan tepat, makalah ini masih menggunakan teknik SFTF klasik. DIUnet_V menggunakan modul Gabungan Ciri Bahagian Hadapan yang lebih mendalam dan lebih fleksibel berbanding Siam-Unet dan FASA, membolehkan pengekstrakan ciri yang lebih mendalam bagi komponen bernilai kompleks dan fasa.

1.2 Strategi Peningkatan

Untuk menangani cabaran yang dihadapi dalam bidang peningkatan pertuturan ATC, kami telah menjalankan usaha berikut:

  1. Untuk mencapai pengurangan hingar dengan lebih baik dalam pertuturan ATC, kajian ini telah mengkategorikan jenis hingar yang terdapat dalam komunikasi ATC secara terperinci. Khususnya, ini termasuk gangguan elektromagnet kompleks (EI) yang dijana oleh peranti elektronik seperti radar dan peralatan komunikasi semasa pergerakan pesawat berkelajuan tinggi, serta gangguan bunyi persekitaran semasa proses komunikasi yang melibatkan juruterbang dan pengawal menggunakan fon kepala dan peranti mikrofon (seperti perbualan latar belakang. , bunyi angin, dsb.).
  2. Untuk menangani isu pengurangan penonjolan pembesar suara sasaran dalam pertuturan yang diketepikan, yang boleh menjejaskan tugas pengecaman pertuturan hiliran secara negatif, kertas kerja ini mencadangkan untuk memasukkan tugasan penambahbaikan selepas peringkat denoised. Kesan khusus daripada tugas peningkatan ini akan dibincangkan secara terperinci dalam Bab 4.
  3. [13] menunjukkan isu lazim kadar pertuturan pantas dalam komunikasi antara juruterbang dan pengawal semasa proses ATC. Keputusan statistik khusus ditunjukkan dalam Jadual 1. Kadar pertuturan yang berbeza mempunyai kesan yang berbeza-beza pada sistem pengecaman pertuturan bahagian belakang. Untuk mengurangkan kadar ralat perkataan dan kadar ralat ayat dalam pengecaman pertuturan hiliran, kertas kerja ini memperkenalkan modul pemprosesan kadar pertuturan tambahan kepada model selepas peringkat penyahucapan dan peningkatan.
  4. Untuk menangani isu kehilangan maklumat pada penghujung audio yang disebabkan oleh tetingkap, kami menggunakan kaedah Bertindih-dan-Tambah (OLA) semasa ramalan audio. Dalam pendekatan ini, kami menambah segmen senyap pada audio yang diramalkan, dengan berkesan menyelesaikan masalah kehilangan maklumat pada penghujung audio.

Jadual 1  Membentangkan perbandingan kadar pertuturan antara korpora yang berbeza.

Rajah 1  Struktur DIUnet_V.

2. Pembinaan Model

2.1 DIUnet_V

Diilhamkan oleh model U-Net dan pelbagai derivatifnya, kertas kerja ini mencadangkan model DIUnet_V. DIUnet_V adalah berdasarkan model U-Net dan menggabungkan modul DenseNet121 dan InceptionV3 pada hujung input untuk pengekstrakan ciri audio berbilang skala. Ia juga termasuk mekanisme perhatian pada penghujung penyahkodan untuk mencapai penyahkodan pertuturan yang cekap. Untuk mengatasi isu kehilangan maklumat berguna pada penghujung dan pengecilan keseluruhan pertuturan berguna dalam kebanyakan model peningkatan semasa proses denoising, DIUnet_V menggunakan prapemprosesan pada pertuturan input dan melakukan pelarasan amplitud pada pertuturan output. Khususnya, ia menambahkan segmen senyap pada penghujung pertuturan input dan menggunakan keuntungan pada pertuturan yang ditolak. Model ini terdiri daripada tiga komponen utama: modul prapemprosesan, pengekod & penyahkod, dan modul output.

2.1.1 Modul Pra-Pemprosesan

Selepas menjalani prapemprosesan, audio input melalui tiga langkah: sisipan segmen senyap, transformasi frekuensi masa dan gabungan ciri bahagian hadapan. Tujuan menambah segmen senyap adalah untuk menyediakan maklumat kontekstual yang mencukupi, membolehkan model denoising mengendalikan bahagian akhir isyarat pertuturan dengan betul. Transformasi frekuensi masa melibatkan penukaran bentuk gelombang domain masa audio campuran kepada spektrum magnitud dan fasa menggunakan STFT. Spektrum fasa dikekalkan, dan spektrum magnitud disalurkan melalui pengekod untuk pengekstrakan ciri. Formula penukaran antara spektrogram dan sampel domain masa adalah seperti berikut:

\[\begin{equation*} X_{\rm k} (f)=\sum\limits_{n=0}^l {x(n)} w(n)e^{-j2\pi fn} \tag{1} \end{equation*}\]

Dalam Persamaan. (1), isyarat audio input dibahagikan kepada beberapa tetingkap masa, setiap satu mengandungi \(l\) sampel. \(X_{\mathrm{k}}(f)\) mewakili nilai kompleks isyarat input pada frekuensi \(f\) untuk tetingkap masa ke-k, di mana f menandakan komponen kekerapan untuk dianalisis dalam tetingkap masa ke-k. \(x(n)\) ialah isyarat asal, dan \(w(n)\) ialah fungsi tetingkap. Fungsi tetingkap yang digunakan dalam artikel ini ialah tetingkap Hamming, yang ditakrifkan oleh Pers. (2):

\[\begin{equation*} w(n)=0.54-0.46\cos \left(\frac{2\pi n}{l-1}\right) \tag{2} \end{equation*}\]

Lokasi \(n\) ialah indeks sampel dalam tetingkap, dan \(l\) ialah bilangan titik sampel yang terkandung dalam tetingkap.

Gabungan Ciri Bahagian Depan menggunakan DenseNet121 dan InceptionV3 untuk pengekstrakan ciri daripada input. DenseNet121 berbeza daripada CNN tradisional dalam mekanisme sambungan padatnya, di mana setiap lapisan menerima semua lapisan sebelumnya sebagai input tambahan, secara langsung menggabungkan peta ciri dari lapisan berbeza. Ini bukan sahaja membolehkan penggunaan semula ciri tetapi juga meningkatkan kecekapan. Selain itu, InceptionV3 menggunakan kernel konvolusi bersaiz berbilang untuk mendalami rangkaian dan mengembangkan ruang ciri. Proses gabungan kedua-dua rangkaian digambarkan dalam Rajah 2.

Rajah 2  Struktur modul FFF

2.1.2 Pengekod dan Penyahkod

Modul FFF melakukan konvolusi mendalam pada spektrogram input untuk mengekstrak ciri pada butiran yang berbeza dan melakukan gabungan ciri. Vektor ciri bercantum kemudiannya dimasukkan ke dalam pengekod U-Net. Pengekod terdiri daripada lima peringkat, termasuk lapisan CNN, lapisan BN, lapisan CNN, lapisan BN dan lapisan downsample (DC). Penyahkod terdiri daripada empat peringkat, setiap satu terdiri daripada lapisan pensampelan naik, modul mekanisme perhatian, dua lapisan BN dan lapisan konvolusi 2D. Kami menggabungkan mekanisme perhatian ke dalam proses penyahkodan untuk mencapai gabungan ciri selanjutnya. Ini membolehkan penyahkod mengurus ciri yang dikodkan pada langkah masa yang berbeza, dengan itu meningkatkan prestasi penyahkod. Model rangkaian saraf dibina menggunakan rangka kerja PyTorch, dan aliran data khusus model yang dibina ditunjukkan dalam Jadual 2.

Jadual 2  Jadual aliran data model

2.1.3 Modul Output

Semasa peningkatan pertuturan, adalah perkara biasa untuk melaraskan kelantangan isyarat pertuturan untuk lebih mencerminkan kejelasan dan ketajamannya. Satu isu yang biasa diperhatikan dalam model denoising berasaskan U-Net ialah penindasan sedikit komponen pertuturan yang berguna. Untuk mengurangkan masalah ini, kertas ini memperkenalkan blok Volume dalam modul output. Blok Kelantangan boleh mengeluarkan tahap keamatan atau keuntungan audio yang berbeza. Keuntungan boleh dicapai dengan melaraskan amplitud atau tindak balas frekuensi isyarat input. Formula khusus adalah seperti berikut:

\[\begin{equation*} Output\_level=\frac{(Input\_level+\textit{Gain})}{10^{dB/10}} \tag{3} \end{equation*}\]

Lokasi Input_level mewakili tahap isyarat input, Gain mewakili keuntungan yang diingini, dan dB/10 menunjukkan hubungan penukaran dalam desibel.

Selain itu, kami menjalankan percubaan lanjutan untuk melaraskan kadar pertuturan audio output. Tujuan eksperimen ini adalah untuk menyiasat sama ada mengubah kelajuan isyarat pertuturan menyumbang kepada peningkatan prestasi pengecaman pertuturan. Keputusan percubaan khusus boleh didapati dalam Sekt. 4.3.3. Modul pelarasan kadar pertuturan kami adalah berdasarkan algoritma Fasa Vocoder. Khususnya, Fasa Vokoder menukar isyarat audio kepada domain frekuensi, melakukan operasi regangan masa dalam domain ini dan kemudian menukarnya kembali kepada domain masa. Sepanjang proses ini, Vokoder Fasa memberi perhatian khusus kepada pengendalian maklumat fasa untuk memastikan audio yang diproses mengekalkan kesinambungan dan kualiti audio yang lebih baik. Kami melaksanakan pelarasan kadar pertuturan menggunakan fungsi 'librosa.effects.time_stretch'.

2.2 Pendekatan Pengurangan Bunyi

Kajian ini menyiasat model peningkatan pertuturan dari perspektif analisis spektrogram dan analisis siri masa. Spektrogram adalah salah satu kaedah untuk mewakili audio dan mengandungi ciri masa, kekerapan dan tenaga. Dalam transformasi frekuensi masa, spektrogram (perwakilan 2D bagi maklumat tiga dimensi) telah terbukti sebagai perwakilan yang berkesan untuk pemprosesan audio. Ia ialah peta haba yang menerangkan cara komponen frekuensi bentuk gelombang berubah dari semasa ke semasa, dan ia boleh diperoleh melalui STFT. Formula penjelmaannya ditunjukkan dalam Pers. (1).

Model yang dibina mengambil spektrum magnitud yang diubah sebagai input dan bertujuan untuk menyekat hingar dengan meramalkan maklumat hingar dalam spektrum magnitud. Langkah pemprosesan khusus digambarkan dalam Rajah 3.

Rajah 3  Proses denoising berdasarkan spektrogram

3. Pengenalan kepada Kaedah Penilaian

3.1 Kaedah Penilaian 1: Nisbah Isyarat-ke-Bunyi (SNR)

SNR adalah singkatan kepada Signal-to-Noise Ratio, yang merupakan metrik yang biasa digunakan untuk menilai prestasi model peredam pertuturan. Ia ditakrifkan sebagai nisbah kuasa isyarat kepada kuasa hingar dan merupakan nilai skalar. Nilai SNR yang lebih tinggi menunjukkan nisbah tenaga isyarat yang lebih tinggi kepada tenaga hingar, yang bermaksud kebolehfahaman yang lebih baik untuk sistem pendengaran manusia. Formula pengiraan khusus untuk SNR adalah seperti berikut:

\[\begin{equation*} SNR=10\log_{10} \frac{\sum\nolimits_{n=1}^N s^{2}(n)} {\sum\nolimits_{n=1}^N (x(n)-s(n))^{2}} \tag{4} \end{equation*}\]

Dalam persamaan, s(n) mewakili isyarat pertuturan bersih, x(n) mewakili isyarat pertuturan bising, dan dB (decibel) ialah unit untuk SNR.

3.2 Kaedah Penilaian 2: Skor MOS

Skor Min Pendapat (MOS) ialah kaedah yang digunakan secara meluas untuk penilaian kualiti pertuturan. Ia adalah kaedah penilaian subjektif, dan kriteria pemarkahan khusus dibentangkan dalam Jadual 3. Memandangkan kos penilaian manual yang tinggi, kami menggunakan pendekatan berasaskan pembelajaran yang mendalam untuk mencapai penilaian kualiti pertuturan. Kami membina model pengukuran kualiti pertuturan berdasarkan kaedah yang dicadangkan dalam [17], membolehkan pengiraan kualiti pertuturan yang dirasakan sebelum dan selepas pengurangan hingar. Skor Min Pendapat (MOS) ialah kaedah yang digunakan secara meluas untuk penilaian kualiti pertuturan. Ia adalah kaedah penilaian subjektif, dan kriteria pemarkahan khusus dibentangkan dalam Jadual 3. Memandangkan kos penilaian manual yang tinggi, kami menggunakan pendekatan berasaskan pembelajaran yang mendalam untuk mencapai penilaian kualiti pertuturan. Kami membina model pengukuran kualiti pertuturan berdasarkan kaedah yang dicadangkan dalam [19], membolehkan pengiraan kualiti pertuturan yang dirasakan sebelum dan selepas pengurangan hingar. Set data latihan yang diperlukan untuk model penilaian kualiti pertuturan kami telah dijelaskan oleh dua pengajar kawalan trafik udara dan tiga pengawal pelatih. Untuk memastikan kualiti data, pengajar juga menyemak anotasi yang dibuat oleh pelatih. Model akhir mencapai Min Ralat Mutlak (MAE) sebanyak 0.21.

Jadual 3  Jadual kriteria Skor MOS

3.3 Kaedah Penilaian 3: Prestasi Sistem Pengecaman Pertuturan ATC

Pada masa ini, model pengecaman pertuturan telah digunakan secara meluas dalam pelbagai senario. Walau bagaimanapun, sistem pengecaman pertuturan masih mengalami pengitlak yang lemah, bermakna ketepatan pengecaman sistem boleh berbeza dengan ketara untuk data ujian pertuturan teks yang sama tetapi dengan kualiti yang berbeza. Isu ini lebih ketara dalam sistem pengecaman pertuturan ATC. Oleh itu, prestasi sistem pengecaman pertuturan ATC secara tidak langsung dapat mencerminkan perubahan kualiti dalam data pertuturan ujian. Pendekatan ini mengatasi cabaran mengira SNR untuk pengurangan hingar sebelum dan selepas, kerana data pertuturan udara ke darat yang bersih tidak tersedia dalam senario kerja dunia sebenar. Dalam kajian ini, kami menilai data pertuturan ujian sebelum dan selepas pengurangan hingar menggunakan model pengecaman pertuturan ATC berasaskan Squeezeformer [18] yang dibina di makmal.

4. Persediaan Eksperimen

4.1 Set Data

Dalam kajian ini, set data yang kami gunakan terdiri daripada audio suara kawalan trafik udara bersih (ATC) yang dirakam semasa latihan simulator pengawal di Universiti Penerbangan Penerbangan Awam China, tanpa sebarang bunyi buatan tambahan. Kami mengumpul 5000 sampel audio setiap satu dalam bahasa Cina dan Inggeris, dengan tempoh purata 5.4 saat setiap satu, berjumlah 15 jam. Data hingar yang dipilih terutamanya terdiri daripada gangguan elektromagnet yang diekstrak daripada komunikasi ATC. Selain itu, untuk meningkatkan kebolehgeneralisasian model, kami menambah pangkalan data hingar kami dengan bunyi yang mungkin berlaku dalam senario ATC sebenar, termasuk batuk, bertepuk tangan, tapak kaki, menguap dan bunyi mesin daripada dataset PNL 100 Nonspeech Sounds sumber terbuka [19 ], [20], serta klik tetikus, menaip papan kekunci dan bercakap daripada set data sumber terbuka klasifikasi bunyi persekitaran ESC-50 [21] untuk menambah latihan model sebagai bunyi yang mengganggu. Untuk memastikan bahawa audio campuran hingar masih mengekalkan keaslian dan bahawa audio hingar sepadan dengan panjang audio bersih, kami mula-mula melaraskan panjang audio hingar untuk memastikan ia kurang daripada atau sama dengan audio bersih, kemudian menggunakan kaedah menggunakan segmen hingar yang sama beberapa kali untuk menambah hingar. Akhir sekali, kami mengawal tahap hingar dengan melaraskan nisbah isyarat kepada hingar (SNR). Merujuk literatur berkaitan, kami membahagikan SNR latihan dan ucapan ujian kepada empat tahap: 10 db hingga \(-5\) db, 5 db hingga 0 db, dan 0 db hingga \(-5\) db [22], untuk menjadikan model lebih mantap.

4.2 Persediaan Latihan Model

Untuk mencipta set data latihan/pengesahan, audio telah diambil sampel pada 16 kHz. Sampel latihan dibahagikan kepada tingkap dengan panjang 8064 dan anjakan tingkap 4000. Set data latihan yang terhasil terdiri daripada 45,000 sampel, dan set data ujian terdiri daripada 5,000 sampel. Setiap sampel latihan telah diubah menjadi spektrogram magnitud dan spektrogram fasa menggunakan STFT. Untuk mengimbangi resolusi frekuensi isyarat pertuturan dengan sumber pengiraan, panjang tetingkap STFT ditetapkan kepada 255, dan anjakan tetingkap ditetapkan kepada 63. Saiz data STFT yang terhasil ialah (128, 128). Eksperimen telah dijalankan pada sistem pengendalian Windows dengan konfigurasi komputer berikut: CPU Intel Xeon Silver 4110, dua kad grafik khusus NVIDIA RTX2080Ti 11 GB, memori ECC 128 GB 2666 MHz, 480 GB SSD dan cakera keras 4 TB SATA.

4.3 Eksperimen
4.3.1 Eksperimen Ablasi

Untuk mengesahkan keberkesanan model yang dipertingkatkan yang dicadangkan, kami menjalankan eksperimen ablasi menggunakan metrik penilaian SNR dan MOS. Set data ujian terdiri daripada 466 sampel, diedarkan sama dengan set data latihan, dengan jumlah tempoh 0.7 jam. Keputusan eksperimen khusus ditunjukkan dalam Rajah 4, di mana paksi-x mewakili model penilaian dan paksi-y mewakili skor yang sepadan.

Rajah 4  Keputusan percubaan ablasi

Daripada Rajah 4, kita boleh perhatikan bahawa nilai SNR dan MOS bagi model garis dasar U-Net ialah 2.82 dan 3.3, masing-masing. Apabila mekanisme perhatian dimasukkan ke dalam model U-Net, nilai SNR dan MOS meningkat kepada 6.49 dan 3.5, masing-masing. Tambahan pula, dengan menyepadukan serentak mekanisme perhatian dan modul FFF ke dalam model U-Net, nilai SNR dan MOS terus meningkat kepada 7.38 dan 4.1, masing-masing. Akhir sekali, selepas memasukkan blok Kelantangan ke bahagian belakang model DIUnet, prestasi dipertingkatkan dengan ketara. Antaranya, DIUnet_Volume10 mencapai keputusan terbaik dengan nilai SNR dan MOS masing-masing 7.39 dan 4.5.

4.3.2 Kaedah Penilaian Berdasarkan Prestasi Pengecaman Ucapan ATC

Walaupun SNR dan MOS biasanya digunakan metrik untuk penilaian kualiti pertuturan, ia mempunyai had tertentu. Contohnya, SNR tidak boleh digunakan secara langsung pada senario ujian pertuturan ATC dunia sebenar, dan MOS adalah subjektif dan terdedah kepada pilihan individu. Memandangkan batasan ini, kami menggunakan pendekatan penilaian tidak langsung dari perspektif ATC: kaedah penilaian berdasarkan sistem pengecaman pertuturan ATC untuk menilai kesan pengurangan hingar.

Kami menggunakan sistem pengecaman pertuturan Squeezeformer ATC untuk secara tidak langsung mengukur keberkesanan peningkatan pertuturan ATC. Semasa fasa ujian, kami memilih 100 dialog komunikasi darat-udara dunia sebenar untuk penilaian perbandingan, dengan tempoh purata 7 saat bagi setiap segmen pertuturan. Data ujian untuk sistem pengecaman pertuturan ATC terdiri daripada enam kategori: pertuturan asal yang tidak diproses, pertuturan yang diproses dengan U-Net\(+\)Perhatian, pertuturan diproses dengan DIUnet_V tanpa modul Kelantangan, dan pemprosesan pertuturan dengan DIUnet_V dengan modul Kelantangan berbeza.

Metrik penilaian utama yang digunakan untuk sistem pengecaman pertuturan ialah Kadar Ralat Ayat (SER) dan Kadar Ralat Kata (WER), dikira seperti berikut:

\[\begin{equation*} \textit{SER}=100\times \frac{\textit{len}(error\ senteces)}{\textit{Total}}\% \tag{5} \end{equation*}\]

Lokasi Jumlah ialah jumlah bilangan ayat dan len() fungsi ialah fungsi statistik kiraan.

\[\begin{equation*} \textit{WER}=100\times \frac{\textit{Substitution}+\textit{Deletion}+\textit{Insertion}}{\textit{Total}}\% \tag{6} \end{equation*}\]

Lokasi Jumlah ialah jumlah bilangan perkataan dalam ayat tersebut. Kadar ralat pengecaman khusus ditunjukkan dalam Jadual 4.

Jadual 4  Prestasi pengecaman pertuturan

Daripada jadual di atas, dapat dilihat bahawa di bawah data ujian pertuturan asal, sistem pengecaman mempunyai SER sebanyak 25.00% dan purata WER sebanyak 4.70%. Di bawah data ujian pertuturan ATC yang diproses menggunakan U-Net\(+\)Model perhatian, sistem pengecaman mempamerkan SER dan purata WER yang lebih tinggi berbanding hasil pengecaman pertuturan asal. Melalui analisis keputusan, kami mendapati bahawa sebab utama kesan denoising yang lemah bagi U-Net\(+\)Perhatian ialah kehilangan maklumat ekor dalam pertuturan yang disalahkan. Untuk menangani isu ini, kami membuat penambahbaikan pada U-Net\(+\)Model perhatian. Model DIUnet_V mula-mula menambah segmen senyap pada pertuturan input dan kemudian memprosesnya. Keputusan menunjukkan bahawa DIUnet (tanpa Volume) mengurangkan SER daripada 25.00% kepada 21.00%, penurunan 4.00% mutlak; purata WER menurun sebanyak 0.94% mutlak. Berdasarkan ini, kami menambahkan modul Kelantangan pada bahagian belakang model untuk meningkatkan kelantangan pertuturan yang ditolak. Dari segi SER, Jilid10, Jilid15 dan Jilid20 lebih rendah sedikit sebanyak 1.00% mutlak berbanding DIUnet_V (tanpa Jilid). Walau bagaimanapun, dari segi purata WER, ketiga-tiga varian tersebut mengatasi prestasi DIUnet_V (tanpa Volume) dengan pengurangan 1.14% mutlak. Secara keseluruhannya, untuk audio yang ditolak, peningkatan kelantangan sedikit sebanyak meningkatkan prestasi pengecaman pertuturan.

Di samping itu, untuk menunjukkan kesan peningkatan pertuturan bagi model yang berbeza, kami memilih secara rawak segmen data ujian pertuturan ATC untuk memvisualisasikan hasil peningkatan model yang berbeza, seperti yang ditunjukkan dalam Rajah 5.

Rajah 5  Analisis spektrogram

Rajah 5 (a) memaparkan spektrogram isyarat audio asal, yang panjangnya 2.5 saat dan mempamerkan bunyi latar belakang dan gangguan elektromagnet. Dalam Rajah 5 (b), kita memerhatikan spektrogram yang diperoleh selepas pemprosesan audio menggunakan U-Net\(+\)Perhatian. Terutamanya, tenaga hingar dikurangkan berbanding dengan audio asal, tetapi tempoh audio dipendekkan kepada 2 saat. Pemendekan ini terutamanya disebabkan oleh maklumat terhad yang ditangkap oleh model pada penghujung audio, mengakibatkan penyingkiran maklumat audio yang disalah anggap sebagai bunyi semasa denosing. Rajah 5 (c) mewakili spektrogram selepas menafikan menggunakan model DIUnet_V (tanpa Volume), dengan perubahan dalam lajur terakhir dikaitkan dengan kemasukan segmen senyap. Untuk menilai dan menerangkan dengan tepat kesan denoising model, kami menganalisis imej kontras daripada empat perspektif: hingar latar belakang, pemeliharaan isyarat, kontras dan kehadiran artifak tambahan. Mengenai bunyi latar belakang, Rajah 5 (c) mempamerkan warna yang lebih seragam di kebanyakan kawasan berbanding dengan Rajah. 5 (a) dan 5 (b), menunjukkan pengurangan hingar yang berkesan. Dari segi pemeliharaan isyarat, isyarat utama (jalur menegak terang) kekal jelas dan tidak diherotkan dalam Rajah 5 (c). Perbezaan antara isyarat dan latar belakang adalah tinggi dalam Rajah 5 (c), membayangkan pembezaan isyarat-bunyi yang berjaya. Tiada artifak yang tidak dijangka diperhatikan dalam Rajah 5 (c). Oleh itu, berbanding dengan Rajah. 5 (a) dan 5 (b), kesan denoising dalam Rajah 5 (c) adalah lebih baik, menghasilkan latar belakang yang lebih licin sambil mengekalkan isyarat dengan berkesan. Rajah 5 (d), (e), dan (f) bertujuan untuk mengesahkan sama ada modul Volume menyumbang dengan ketara kepada prestasi model keseluruhan. Adalah jelas daripada Rajah 5 (f) bahawa penambahan modul Volume meningkatkan lagi kesan denoising.

4.3.3 Sambungan Model

Bahagian 1.2 menyebut bahawa kadar pertuturan merujuk kepada kelajuan pertuturan dan berfungsi sebagai asas untuk irama bahasa. Ia biasanya diukur dengan bilangan fonem atau perkataan yang dituturkan setiap unit masa (setiap minit atau saat). Daripada keputusan dalam Jadual 1, terbukti bahawa komunikasi ATC mengalami masalah kadar pertuturan yang cepat. Oleh itu, kami mencadangkan untuk memasukkan modul kadar pertuturan ke dalam model peningkatan pertuturan untuk menambah baik lagi tugas pengecaman pertuturan hiliran.

Begitu juga, kami memilih 100 sampel pertuturan ATC dunia sebenar, yang tertakluk kepada penolakan menggunakan model DIUnet_V. Selepas itu, audio dihantar melalui modul kadar pertuturan. Dalam kajian ini, kami menjalankan eksperimen perbandingan menggunakan tiga faktor kelajuan yang berbeza: 1.0 (bersamaan dengan 5.15 perkataan sesaat), 0.9 (bersamaan dengan 4.54 perkataan sesaat), dan 0.8 (bersamaan dengan 4.12 perkataan sesaat). Keputusan eksperimen dibentangkan dalam Jadual 5.

Jadual 5  Pengecaman pertuturan model DIUnet_V pada Kadar pertuturan yang berbeza

Menurut Jadual 5, modul kadar pertuturan mempunyai kesan ke atas pengecaman pertuturan. Prestasi terbaik sistem pengecaman diperhatikan apabila faktor kelajuan ditetapkan kepada 0.9, dengan SER sebanyak 20% dan purata WER sebanyak 3.61%.

5. Kesimpulan

Dalam kertas kerja ini, kami membangunkan model peningkatan pertuturan yang dipanggil DIUnet_V, yang menggabungkan kekerapan masa dan pemprosesan domain masa dalam konteks ATC penerbangan awam. Model ini berdasarkan seni bina pengekod-penyahkod rangkaian neural konvolusi dalam, yang mampu mengekstrak perwakilan ciri mendalam daripada spektrogram dan mencapai pemisahan hingar yang tepat dan pantas. Tidak seperti kaedah peningkatan tradisional, pendekatan kami menggunakan teknik pembelajaran mendalam, membolehkan denoising mudah, cepat dan berkesan. Keputusan eksperimen menunjukkan bahawa DIUnet_V mengatasi prestasi model U-Net asas dan model U-Net dengan mekanisme perhatian dari segi prestasi yang dipertingkatkan. Nilai SNR DIUnet_V secara konsisten melebihi 7.2 dB, dan skor MOS melebihi 4.1, menghasilkan peningkatan masing-masing sebanyak 4.4 dB dan 0.8 mata berbanding model garis dasar berprestasi terbaik. Untuk menangani cabaran mengira SNR selepas denoise kerana ketiadaan audio ATC yang bersih dalam senario dunia sebenar, kami secara tidak langsung menilai kualiti audio denoise menggunakan sistem pengecaman pertuturan Squeezeformer ATC. Keputusan menunjukkan bahawa audio yang dikurangkan dan dipertingkatkan dengan ketara meningkatkan ketepatan sistem ASR, seterusnya mengesahkan keberkesanan model kami. Selain itu, kami menjalankan eksperimen tambahan untuk menyiasat kesan kadar pertuturan pada sistem pengecaman ASR, dan keputusan menunjukkan bahawa mengurangkan kadar pertuturan boleh meningkatkan ketepatan pengecaman ASR. Model yang dicadangkan boleh digunakan untuk komunikasi darat-ke-udara radio penerbangan awam dan tentera, meningkatkan kebolehfahaman pertuturan, mengurangkan risiko salah faham dan salah pertimbangan, serta meningkatkan keselamatan dan kecekapan.

pembiayaan

Penyelidikan ini telah disokong oleh Dana Penyelidikan Fundamental untuk Universiti Pusat (No. PHD2023-035, No. ZHMH2022-009) dan Program R&D Utama Negara China (No. 2021YFF0603904).

Rujukan

[1] S. Srinivasan, N. Roman, and D.L. Wang, “Binary and ratio time-frequency masks for robust speech recognition,” Speech Communication, vol.48, no.11, pp.1486-1501, 2006.
CrossRef

[2] G. Hu and D.L. Wang, “Speech segregation based on pitch tracking and amplitude modulation,” Proc. 2001 IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics (Cat. no.01TH8575), IEEE, pp.79-82, 2001.
CrossRef

[3] Y. Wang, A. Narayanan, and D.L. Wang, “On training targets for supervised speech separation,” IEEE/ACM Trans. Audio, Speech, Language Process., vol.22, no.12, pp.1849-1858, 2014.
CrossRef

[4] K. Paliwal, K. Wójcicki, and B. Shannon, “The importance of phase in speech enhancement,” speech communication, vol.53, no.4, pp.465-494, 2011.
CrossRef

[5] D.S. Williamson, Y. Wang, and D.L. Wang, “Complex ratio masking for monaural speech separation,” IEEE/ACM Trans. Audio, Speech, Language Process., vol.24, no.3, pp.483-492, 2015.
CrossRef

[6] D. Yin, C. Luo, Z. Xiong, and W. Zeng, “Phasen: A phase-and-harmonics-aware speech enhancement network,” Proc. AAAI Conference on Artificial Intelligence. vol.34, no.05, pp.9458-9465, 2020.
CrossRef

[7] Y. Luo, Z. Chen, J.R. Hershey, J. Le Roux, and N. Mesgarani, “Deep clustering and conventional networks for music separation: Stronger together,” 2017 IEEE international conference on acoustics, speech and signal processing (ICASSP), IEEE, pp.61-65, 2017.
CrossRef

[8] S. Venkataramani, J. Casebeer, and P. Smaragdis, “End-to-end source separation with adaptive front-ends,” 2018 52nd Asilomar Conference on Signals, Systems, and Computers, IEEE, pp.684-688, 2018.
CrossRef

[9] A. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, “Wavenet: A generative model for raw audio,” arXiv preprint arXiv:1609.03499, 2016.

[10] D. Rethage, J. Pons, and X. Serra, “A wavenet for speech denoising,” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, pp.5069-5073, 2018.
CrossRef

[11] D. Stoller, S. Ewert, and S. Dixon, “Wave-u-net: A multi-scale neural network for end-to-end audio source separation,” arXiv preprint arXiv:1806.03185, 2018.

[12] A. Eisenberg, S. Gannot, and S.E. Chazan, “Single microphone speaker extraction using unified time-frequency Siamese-Unet,” 2022 30th European Signal Processing Conference (EUSIPCO), IEEE, pp.762-766, 2022.
CrossRef

[13] Y. Lin, “Spoken instruction understanding in air traffic control: Challenge, technique, and application,” Aerospace, vol.8, no.3, p.65, 2021.
CrossRef

[14] B. Yang, X. Tan, Z. Chen, B. Wang, M. Ruan, D. Li, Z. Yang, X. Wu, and Y. Lin “ATCSpeech: A multilingual pilot-controller speech corpus from real air traffic control environment,” arXiv preprint arXiv:1911.11365, 2019.

[15] D. Wang and X. Zhang, “Thchs-30: A free chinese speech corpus,” arXiv preprint arXiv:1512.01882, 2015.
CrossRef

[16] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, “Librispeech: an asr corpus based on public domain audio books,” 2015 IEEE international conference on acoustics, speech and signal processing (ICASSP), IEEE, pp.5206-5210, 2015.
CrossRef

[17] G. Mittag, B. Naderi, A. Chehadi, and S. Möller, “Nisqa: A deep cnn-self-attention model for multidimensional speech quality prediction with crowdsourced datasets,” arXiv preprint arXiv:2104.09494, 2021.

[18] S. Kim, A. Gholami, A. Shaw, N. Lee, K. Mangalam, J. Malik, M.W. Mahoney, and K. Keutzer, “Squeezeformer: An Efficient Transformer for Automatic Speech Recognition,” 2022. DOI: 10. 48550/ arXiv.2206.00888.
CrossRef

[19] Hu G N. 100 nonspeech sounds [online], available: http://web.cse.ohio-state.edu/pnl/corpus/HuNonspeech/HuCorpus.html, April 20, 2004.

[20] G. Hu and D.L. Wang, “A tandem algorithm for pitch estimation and voiced speech segregation,” IEEE Trans. Audio, Speech, Language Process., vol.18, pp.2067-2079, 2010.
CrossRef

[21] K.J. Piczak, “ESC: Dataset for environmental sound classification,” Proc. 23rd ACM International Conference on Multimedia, Brisbane, Australia, 26-30 Oct. 2015; Association for Computing Machinery: New York, NY, USA, pp.1015-1018, 2015.
CrossRef

[22] D. Pearce and H.-G. Hirsch, “The Aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions,” ASR2000-Automatic speech recognition: challenges for the new Millenium ISCA tutorial and research workshop (ITRW), 2000.
CrossRef

Pengarang

Haijun LIANG
  Civil Aviation Flight University of China

is a Ph.D. holder and a supervisor for master's students. He graduated from Sichuan University with a specialization in Computer Application Technology. His research focuses on Air Traffic Management, Flow Management and Simulation, Speech Processing, and Real-time Software Engineering. Dr. Liang has received several honors, including the Teaching Quality Award and the Outstanding Educator Award. He has published over 20 papers and holds 3 patents/software copyrights. Additionally, he has led and participated in numerous educational, research, and scientific projects.

Yukun LI
  Civil Aviation Flight University of China

is currently pursuing a master's degree at the Civil Aviation Flight University of China, conducting research under the guidance of an advisor in the field of language processing, speech enhancement, and deep learning in ground-to-air communication.

Jianguo KONG
  Civil Aviation Flight University of China

is a Professor and a master's supervisor with over 15 years of research experience in air traffic management, air traffic control automation technology, and computer programming development. He graduated from Southwest Jiaotong University. Since 2011, he has been devoted to research on visualization control simulation training systems, intelligent air traffic control, and the application of artificial intelligence in air traffic management systems. He has led or participated in more than 20 scientific research projects, including provincial and ministerial-level research projects. He has published over 30 papers, including 10 indexed by SCI/EI, and authored two textbooks.

Qicong HAN
  Civil Aviation Flight University of China

is currently pursuing a master's degree at the Civil Aviation Flight University of China, following an advisor's research in the field of civil aviation, specifically focusing on speech recognition and deep learning.

Chengyu YU
  Civil Aviation Flight University of China

is currently pursuing a master's degree at the Civil Aviation Flight University of China, conducting research under the guidance of an advisor in the field of fatigue image detection for air traffic controllers and deep learning.

Kata kunci