Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Latent Words Recurrent Neural Network Language Models for Automatic Speech Recognition Kata Terpendam Model Bahasa Rangkaian Neural Berulang untuk Pengecaman Pertuturan Automatik

Ryo MASUMURA, Taichi ASAMI, Takanobu OBA, Sumitaka SAKAUCHI, Akinori ITO

  • pandangan teks lengkap

    0

  • Petikan Ini

Ringkasan:

Makalah ini menunjukkan model bahasa rangkaian saraf berulang perkataan terpendam (LW-RNN-LMs) untuk meningkatkan pengecaman pertuturan automatik (ASR). LW-RNN-LMs dibina untuk mendapatkan kelebihan dalam kedua-dua model bahasa rangkaian saraf berulang (RNN-LMs) dan model bahasa perkataan terpendam (LW-LMs). RNN-LM boleh menangkap maklumat konteks jarak jauh dan menawarkan prestasi yang kukuh, dan LW-LM adalah teguh untuk tugas di luar domain berdasarkan pemodelan ruang perkataan terpendam. Walau bagaimanapun, RNN-LMs tidak dapat menangkap secara eksplisit perhubungan tersembunyi di sebalik perkataan yang diperhatikan kerana konsep ruang pembolehubah terpendam tidak ada. Di samping itu, LW-LM tidak boleh mengambil kira hubungan jarak jauh antara perkataan terpendam. Idea kami adalah untuk menggabungkan RNN-LM dan LW-LM untuk mengimbangi kelemahan individu. LW-RNN-LM boleh menyokong kedua-dua pemodelan ruang pembolehubah terpendam serta LW-LM dan pemodelan perhubungan jarak jauh serta RNN-LM pada masa yang sama. Dari sudut pandangan RNN-LM, LW-RNN-LM boleh dianggap sebagai RNN-LM kelas lembut dengan ruang pembolehubah pendam yang luas. Sebaliknya, dari sudut pandangan LW-LMs, LW-RNN-LM boleh dianggap sebagai LW-LM yang menggunakan struktur RNN untuk pemodelan pembolehubah pendam dan bukannya struktur n-gram. Kertas ini juga memperincikan kaedah inferens parameter dan dua jenis kaedah pelaksanaan, penghampiran n-gram dan penghampiran Viterbi, untuk memperkenalkan LW-LM kepada ASR. Eksperimen kami menunjukkan keberkesanan LW-RNN-LMs pada penilaian kebingungan untuk korpus Penn Treebank dan penilaian ASR untuk tugas pertuturan spontan Jepun.

Jawatankuasa
IEICE TRANSACTIONS on Information Vol.E102-D No.12 pp.2557-2567
Tarikh penerbitan
2019/12/01
Diumumkan
2019/09/25
ISSN dalam talian
1745-1361
DOI
10.1587/transinf.2018EDP7242
Jenis Manuskrip
PAPER
kategori
Pertuturan dan Pendengaran

Pengarang

Ryo MASUMURA
  NTT Corporation
Taichi ASAMI
  NTT Corporation
Takanobu OBA
  NTT Corporation
Sumitaka SAKAUCHI
  NTT Corporation
Akinori ITO
  Tohoku University

Kata kunci

Contents [show]