Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Imposing Constraints from the Source Tree on ITG Constraints for SMT Mengenakan Kekangan daripada Pokok Sumber pada Kekangan ITG untuk SMT

Hirofumi YAMAMOTO, Hideo OKUMA, Eiichiro SUMITA

  • pandangan teks lengkap

    0

  • Petikan Ini

Ringkasan:

Dalam terjemahan mesin statistik (SMT) semasa, penyusunan semula perkataan yang salah adalah salah satu masalah yang paling serius. Untuk menyelesaikan masalah ini, banyak teknik kekangan penyusunan semula perkataan telah dicadangkan. Tatabahasa transduksi penyongsangan (ITG) adalah salah satu daripada kekangan ini. Dalam kekangan ITG, susunan perkataan sisi sasaran diperoleh dengan memutarkan nod pokok binari sisi sumber. Dalam putaran nod ini, contoh pokok binari sumber tidak dipertimbangkan. Oleh itu, kekangan yang lebih kuat untuk penyusunan semula perkataan boleh diperolehi dengan mengenakan kekangan lanjut yang diperoleh daripada pokok sumber pada kekangan ITG. Contohnya, untuk urutan kata sumber { abcd }, kekangan ITG membenarkan sejumlah dua puluh dua susunan perkataan sasaran. Walau bagaimanapun, apabila contoh pokok perduaan sumber ((ab) (cd)) diberikan, kekangan "pokok sumber yang mengenakan pada ITG" (IST-ITG) yang dicadangkan kami membenarkan hanya lapan susunan perkataan. Pengurangan bilangan pilih atur susunan perkataan oleh kekangan yang lebih kuat yang dicadangkan oleh kami dengan cekap menyekat susunan perkataan yang salah. Dalam percubaan kami dengan IST-ITG menggunakan data trek terjemahan Bahasa Inggeris-ke-Cina NIST MT08, kaedah yang dicadangkan menghasilkan peningkatan 1.8 mata dalam aksara BLEU-4 (35.2 hingga 37.0) dan CER 6.2% lebih rendah (74.1 hingga 67.9). %) berbanding dengan keadaan asas kami.

Jawatankuasa
IEICE TRANSACTIONS on Information Vol.E92-D No.9 pp.1762-1770
Tarikh penerbitan
2009/09/01
Diumumkan
ISSN dalam talian
1745-1361
DOI
10.1587/transinf.E92.D.1762
Jenis Manuskrip
PAPER
kategori
Pemprosesan Bahasa Asli

Pengarang

Kata kunci

Contents [show]