Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Topic Extraction based on Continuous Speech Recognition in Broadcast News Speech Pengekstrakan Topik berdasarkan Pengiktirafan Ucapan Berterusan dalam Ucapan Berita Siaran

Katsutoshi OHTSUKI, Tatsuo MATSUOKA, Shoichi MATSUNAGA, Sadaoki FURUI

  • pandangan teks lengkap

    0

  • Petikan Ini

Ringkasan:

Dalam kertas kerja ini, kami mencadangkan model pengekstrakan topik berdasarkan skor perkaitan statistik antara perkataan topik dan perkataan dalam artikel, dan melaporkan hasil yang diperoleh dalam eksperimen pengekstrakan topik menggunakan pengecaman pertuturan berterusan untuk ujaran berita siaran Jepun. Kami cuba mewakili topik ucapan berita menggunakan gabungan pelbagai perkataan topik, yang merupakan perkataan penting dalam artikel berita atau perkataan yang berkaitan dengan berita. Kami menganggap topik berita diwakili oleh gabungan perkataan. Kami secara statistik memodelkan pemetaan daripada perkataan dalam artikel kepada perkataan topik. Menggunakan pemetaan, model pengekstrakan topik boleh mengekstrak perkataan topik walaupun ia tidak muncul dalam artikel. Kami melatih model pengekstrakan topik yang mampu mengira tahap perkaitan antara perkataan topik dan perkataan dalam artikel dengan menggunakan teks akhbar yang meliputi tempoh lima tahun. Tahap perkaitan antara perkataan tersebut dikira berdasarkan ukuran seperti maklumat bersama atau kaedah χ2. Dalam eksperimen yang mengekstrak lima perkataan topik menggunakan model berasaskan χ2, kami mencapai ketepatan 72% dan 12% ingat kembali untuk hasil pengecaman pertuturan. Hasil pengecaman pertuturan biasanya termasuk beberapa ralat pengecaman, yang merendahkan prestasi pengekstrakan topik. Untuk mengelakkan ini, kami menggaji calon N-terbaik dan kemungkinan yang diberikan oleh model akustik dan bahasa. Dalam eksperimen, kami mendapati bahawa mengekstrak lima perkataan topik menggunakan calon N-terbaik dan nilai kemungkinan mencapai ketepatan yang dipertingkatkan dengan ketara.

Jawatankuasa
IEICE TRANSACTIONS on Information Vol.E85-D No.7 pp.1138-1144
Tarikh penerbitan
2002/07/01
Diumumkan
ISSN dalam talian
DOI
Jenis Manuskrip
PAPER
kategori
Pertuturan dan Pendengaran

Pengarang

Kata kunci

Contents [show]