Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Stemming Malay Text and Its Application in Automatic Text Categorization Menyusun Teks Bahasa Melayu dan Aplikasinya dalam Pengkategorian Teks Automatik

Michiko YASUKAWA, Hui Tian LIM, Hidetoshi YOKOO

  • pandangan teks lengkap

    0

  • Petikan Ini

Ringkasan:

Dalam bahasa Melayu, tiada konjugasi dan deklinasi serta imbuhan mempunyai fungsi tatabahasa yang penting. Dalam bahasa Melayu, perkataan yang sama boleh berfungsi sebagai kata nama, kata adjektif, kata keterangan, atau, kata kerja, bergantung pada kedudukannya dalam ayat. Walaupun kata dasar yang sangat mudah digunakan dalam perbualan tidak formal, adalah penting untuk menggunakan perkataan yang tepat dalam ucapan formal atau teks bertulis. Dalam bahasa Melayu, untuk menjelaskan ayat, kata terbitan digunakan. Derivasi dicapai terutamanya dengan penggunaan imbuhan. Terdapat kira-kira seratus kemungkinan bentuk terbitan kata dasar dalam bahasa bertulis bahasa Melayu terpelajar. Oleh itu, susunan perkataan bahasa Melayu mungkin rumit. Walaupun terdapat beberapa jenis algoritma stemming yang tersedia untuk pemprosesan teks dalam bahasa Inggeris dan beberapa bahasa lain, ia tidak boleh digunakan untuk mengatasi kesukaran dalam stemming perkataan Melayu. Stemming ialah proses mengurangkan pelbagai perkataan kepada bentuk akarnya untuk meningkatkan keberkesanan pemprosesan teks dalam sistem maklumat. Adalah penting untuk mengelakkan ralat over-stemming dan under-stemming. Kami telah membangunkan stemmer bahasa Melayu baharu (algoritma stemming) untuk mengalih keluar imbuhan infleksi dan terbitan. Stemmer kami menggunakan satu set peraturan imbuhan dan dua jenis kamus: kamus kata dasar dan kamus kata terbitan. Penggunaan set peraturan adalah bertujuan untuk mengurangkan berlakunya kesilapan under-stemming, manakala kamus pula dipercayai dapat mengurangkan berlakunya over-stemming. Kami melakukan eksperimen untuk menilai aplikasi stemmer kami dalam perisian perlombongan teks. Untuk eksperimen, data teks yang digunakan adalah halaman web sebenar yang dikumpul daripada World Wide Web untuk menunjukkan keberkesanan algoritma stemming bahasa Melayu kami. Keputusan eksperimen menunjukkan bahawa stemmer kami boleh meningkatkan ketepatan ungkapan Boolean yang diekstrak untuk pengkategorian teks dengan berkesan.

Jawatankuasa
IEICE TRANSACTIONS on Information Vol.E92-D No.12 pp.2351-2359
Tarikh penerbitan
2009/12/01
Diumumkan
ISSN dalam talian
1745-1361
DOI
10.1587/transinf.E92.D.2351
Jenis Manuskrip
Special Section PAPER (Special Section on Natural Language Processing and its Applications)
kategori
Analisis Dokumen

Pengarang

Kata kunci

Contents [show]