Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Joint Chinese Word Segmentation and POS Tagging Using an Error-Driven Word-Character Hybrid Model Segmentasi Perkataan Cina Bersama dan Penandaan POS Menggunakan Model Hibrid Aksara Perkataan Didorong Ralat

Canasai KRUENGKRAI, Kiyotaka UCHIMOTO, Jun'ichi KAZAMA, Yiou WANG, Kentaro TORISAWA, Hitoshi ISAHARA

  • pandangan teks lengkap

    0

  • Petikan Ini

Ringkasan:

Dalam makalah ini, kami membentangkan model hibrid aksara perkataan yang diskriminatif untuk pembahagian perkataan Cina bersama dan penandaan POS. Model hibrid aksara perkataan kami menawarkan prestasi tinggi kerana ia boleh mengendalikan kedua-dua perkataan yang diketahui dan tidak diketahui. Kami menerangkan strategi kami yang menghasilkan keseimbangan yang baik untuk mempelajari ciri-ciri perkataan yang diketahui dan tidak diketahui dan mencadangkan dasar yang didorong ralat yang memberikan keseimbangan tersebut dengan memperoleh contoh perkataan yang tidak diketahui daripada ralat tertentu dalam korpus latihan. Kami menghuraikan rangka kerja yang cekap untuk melatih model kami berdasarkan Margin Infused Relaxed Algorithm (MIRA), menilai pendekatan kami pada Penn Chinese Treebank dan menunjukkan bahawa ia mencapai prestasi unggul berbanding pendekatan terkini yang dilaporkan dalam sastera.

Jawatankuasa
IEICE TRANSACTIONS on Information Vol.E92-D No.12 pp.2298-2305
Tarikh penerbitan
2009/12/01
Diumumkan
ISSN dalam talian
1745-1361
DOI
10.1587/transinf.E92.D.2298
Jenis Manuskrip
Special Section PAPER (Special Section on Natural Language Processing and its Applications)
kategori
Analisis Morfologi/Sintaksis

Pengarang

Kata kunci

Contents [show]