Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Integration of Multiple Bilingually-Trained Segmentation Schemes into Statistical Machine Translation Penyepaduan Skim Segmentasi Berbilang Dwibahasa yang Dilatih ke dalam Terjemahan Mesin Statistik

Michael PAUL, Andrew FINCH, Eiichiro SUMITA

  • pandangan teks lengkap

    0

  • Petikan Ini

Ringkasan:

Kertas kerja ini mencadangkan algoritma pembahagian perkataan tanpa pengawasan yang mengenal pasti sempadan perkataan dalam teks bahasa sumber berterusan untuk meningkatkan kualiti terjemahan pendekatan terjemahan mesin statistik (SMT). Kaedah ini boleh digunakan pada mana-mana pasangan bahasa yang bahasa sumbernya tidak dibahagikan dan pembahagian bahasa sasaran diketahui. Dalam langkah pertama, kaedah bootstrap berulang digunakan untuk mempelajari pelbagai skema segmentasi yang konsisten dengan segmentasi frasa sistem SMT yang dilatih pada biteks yang disegmen semula. Dalam langkah kedua, berbilang skema segmentasi disepadukan ke dalam sistem SMT tunggal dengan mencirikan bahagian bahasa sumber dan menggabungkan pasangan terjemahan yang sama bagi model SMT yang berbeza segmen. Keputusan eksperimen yang menterjemahkan lima bahasa Asia ke dalam bahasa Inggeris mendedahkan bahawa kaedah yang dicadangkan untuk menyepadukan pelbagai skema segmentasi mengatasi model SMT yang dilatih pada mana-mana segmentasi perkataan yang dipelajari dan berprestasi setanding dengan alat segmentasi binaan satu bahasa yang tersedia.

Jawatankuasa
IEICE TRANSACTIONS on Information Vol.E94-D No.3 pp.690-697
Tarikh penerbitan
2011/03/01
Diumumkan
ISSN dalam talian
1745-1361
DOI
10.1587/transinf.E94.D.690
Jenis Manuskrip
PAPER
kategori
Pemprosesan Bahasa Asli

Pengarang

Kata kunci

Contents [show]