Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Improved Gini-Index Algorithm to Correct Feature-Selection Bias in Text Classification Algoritma Indeks Gini yang Diperbaik untuk Membetulkan Bias Pemilihan Ciri dalam Pengelasan Teks

Heum PARK, Hyuk-Chul KWON

  • pandangan teks lengkap

    0

  • Petikan Ini

Ringkasan:

Kertas kerja ini membentangkan algoritma Gini-Index yang dipertingkatkan untuk membetulkan bias pemilihan ciri dalam klasifikasi teks. Gini-Index telah digunakan sebagai ukuran pemisahan untuk memilih atribut pemisahan yang paling sesuai dalam pepohon keputusan. Baru-baru ini, algoritma Gini-Index yang dipertingkatkan untuk pemilihan ciri, direka untuk pengkategorian teks dan berdasarkan teori Gini-Index, telah diperkenalkan, dan ia telah terbukti lebih baik daripada kaedah lain. Walau bagaimanapun, kami mendapati bahawa Gini-Index masih menunjukkan kecenderungan pemilihan ciri dalam klasifikasi teks, khususnya untuk set data tidak seimbang yang mempunyai sejumlah besar ciri. Bias pemilihan ciri bagi Indeks Gini dalam pemilihan ciri ditunjukkan dalam tiga cara: 1) nilai Gini bagi ciri frekuensi rendah adalah rendah (mengikut ukuran ketulenan) secara keseluruhan, tanpa mengira pengedaran ciri antara kelas, 2) untuk tinggi -ciri frekuensi, nilai Gini sentiasa agak tinggi dan 3) untuk ciri khusus yang tergolong dalam kelas besar, nilai Gini secara relatifnya lebih rendah daripada yang dimiliki oleh kelas kecil. Oleh itu, untuk membetulkan bias itu dan menambah baik pemilihan ciri dalam klasifikasi teks menggunakan Gini-Index, kami mencadangkan algoritma Gini-Index (I-GI) yang dipertingkatkan dengan tiga ekspresi Gini-Index yang dirumus semula. Dalam kajian ini, kami menggunakan pengurangan dimensi global (DR) dan DR tempatan untuk mengukur kebaikan ciri dalam pemilihan ciri. Dalam keputusan percubaan untuk algoritma I-GI, kami memperoleh nilai ciri tidak berat sebelah dan menghapuskan banyak ciri umum yang tidak berkaitan sambil mengekalkan banyak ciri khusus. Tambahan pula, kami boleh meningkatkan prestasi klasifikasi keseluruhan apabila kami menggunakan kaedah DR tempatan. Jumlah purata prestasi pengelasan telah meningkat sebanyak 19.4 %, 15.9 %, 3.3 %, 2.8 % dan 2.9 % (kNN) dalam Micro-F1, 14 %, 9.8 %, 9.2 %, 3.5 % dan 4.3 % (SVM) dalam Mikro-F1, 20 %, 16.9 %, 2.8 %, 3.6 % dan 3.1 % (kNN) dalam Makro-F1, 16.3 %, 14 %, 7.1 %, 4.4 %, 6.3 % (SVM) dalam Makro-F1, berbanding dengan tf*idf, χ2, Keuntungan Maklumat, Nisbah Odds dan kaedah Gini-Index sedia ada mengikut setiap pengelas.

Jawatankuasa
IEICE TRANSACTIONS on Information Vol.E94-D No.4 pp.855-865
Tarikh penerbitan
2011/04/01
Diumumkan
ISSN dalam talian
1745-1361
DOI
10.1587/transinf.E94.D.855
Jenis Manuskrip
PAPER
kategori
Pengiktirafan Corak

Pengarang

Kata kunci

Contents [show]