Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

In-Vehicle Voice Interface with Improved Utterance Classification Accuracy Using Off-the-Shelf Cloud Speech Recognizer Antara Muka Suara Dalam Kenderaan dengan Ketepatan Klasifikasi Ujaran Yang Dipertingkatkan Menggunakan Pengecam Pertuturan Awan Luar Rak

Takeshi HOMMA, Yasunari OBUCHI, Kazuaki SHIMA, Rintaro IKESHITA, Hiroaki KOKUBO, Takuya MATSUMOTO

  • pandangan teks lengkap

    0

  • Petikan Ini

Ringkasan:

Untuk sistem navigasi kereta berdaya suara yang menggunakan perkhidmatan pengecaman pertuturan awan pelbagai guna (cloud ASR), klasifikasi sebutan yang teguh terhadap ralat pengecaman pertuturan diperlukan untuk merealisasikan antara muka suara yang mesra pengguna. Tujuan kajian ini adalah untuk meningkatkan ketepatan pengelasan sebutan untuk sistem navigasi kereta yang didayakan suara apabila input kepada pengelas adalah hasil pengecaman pertuturan yang terdedah kepada ralat yang diperoleh daripada ASR awan. Peranan klasifikasi ujaran adalah untuk meramalkan fungsi navigasi kereta yang ingin dilaksanakan oleh pengguna daripada ujaran spontan. ASR awan menyebabkan ralat pengecaman pertuturan disebabkan oleh bunyi yang berlaku semasa perjalanan di dalam kereta, dan ralat itu merendahkan ketepatan klasifikasi sebutan. Terdapat banyak kaedah untuk mengurangkan bilangan ralat pengecaman pertuturan dengan mengubah suai bahagian dalam pengecam pertuturan. Walau bagaimanapun, pembangun aplikasi tidak boleh menggunakan kaedah ini pada awan ASR kerana mereka tidak boleh menyesuaikan ASR. Dalam makalah ini, kami mencadangkan sistem untuk meningkatkan ketepatan klasifikasi sebutan dengan mengubah suai kedua-dua input isyarat pertuturan kepada ASR awan dan output ayat yang diiktiraf daripada ASR. Pertama, sistem kami melakukan peningkatan pertuturan pada ujaran pengguna dan kemudian menghantar kedua-dua isyarat pertuturan yang dipertingkatkan dan tidak dipertingkatkan kepada ASR awan. Hasil pengecaman pertuturan daripada kedua-dua isyarat pertuturan digabungkan untuk mengurangkan bilangan ralat pengecaman. Kedua, untuk mengurangkan ralat klasifikasi ujaran, kami mencadangkan kaedah penambahan data, yang kami panggil "doping optimum," di mana bukan sahaja transkripsi yang tepat tetapi juga ayat yang dikenal pasti ralat ditambahkan pada data latihan. Penilaian dengan sebutan pengguna sebenar yang dituturkan kepada produk navigasi kereta menunjukkan bahawa sistem kami mengurangkan bilangan ralat klasifikasi sebutan sebanyak 54% daripada keadaan garis dasar. Akhir sekali, kami mencadangkan pendekatan peningkatan separa automatik untuk pengelas untuk mendapat manfaat daripada prestasi ASR awan yang lebih baik.

Jawatankuasa
IEICE TRANSACTIONS on Information Vol.E101-D No.12 pp.3123-3137
Tarikh penerbitan
2018/12/01
Diumumkan
2018/08/31
ISSN dalam talian
1745-1361
DOI
10.1587/transinf.2018EDK0001
Jenis Manuskrip
PAPER
kategori
Pertuturan dan Pendengaran

Pengarang

Takeshi HOMMA
  Hitachi, Ltd.
Yasunari OBUCHI
  Tokyo University of Technology
Kazuaki SHIMA
  Clarion Co., Ltd.
Rintaro IKESHITA
  Hitachi, Ltd.
Hiroaki KOKUBO
  Hitachi, Ltd.
Takuya MATSUMOTO
  Hitachi Automotive Systems Ltd.

Kata kunci

Contents [show]