Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Automatic Stop Word Generation for Mining Software Artifact Using Topic Model with Pointwise Mutual Information Penjanaan Kata Henti Automatik untuk Artifak Perisian Perlombongan Menggunakan Model Topik dengan Maklumat Bersama Pointwise

Jung-Been LEE, Taek LEE, Hoh Peter IN

  • pandangan teks lengkap

    0

  • Petikan Ini

Ringkasan:

Artifak perisian melombong ialah cara yang berguna untuk memahami kod sumber projek perisian. Pemodelan topik khususnya telah digunakan secara meluas untuk menemui maklumat yang bermakna daripada artifak perisian. Walau bagaimanapun, artifak perisian tidak berstruktur dan mengandungi campuran jenis teks dalam teks semula jadi. Ciri artifak perisian ini memburukkan prestasi pemodelan topik. Antara beberapa tugas pra-pemprosesan bahasa semula jadi, mengalih keluar kata henti untuk mengurangkan istilah yang tidak bermakna dan tidak menarik ialah cara yang cekap untuk meningkatkan kualiti model topik. Walaupun banyak pendekatan digunakan untuk menjana kata henti yang berkesan, senarai tersebut sudah lapuk atau terlalu umum untuk digunakan pada artifak perisian perlombongan. Selain itu, prestasi model topik adalah sensitif kepada set data yang digunakan dalam latihan untuk setiap pendekatan. Untuk menyelesaikan masalah ini, kami mencadangkan pendekatan penjanaan kata henti automatik untuk model topik artifak perisian. Dengan mengukur keselarasan topik antara perkataan dalam topik menggunakan Maklumat Bersama Pointwise (PMI), kami menambahkan perkataan dengan skor PMI yang rendah pada senarai kata henti kami untuk setiap gelung pemodelan topik. Melalui percubaan kami, kami membuktikan bahawa senarai kata henti kami menghasilkan prestasi model topik yang lebih tinggi daripada senarai daripada pendekatan lain.

Jawatankuasa
IEICE TRANSACTIONS on Information Vol.E102-D No.9 pp.1761-1772
Tarikh penerbitan
2019/09/01
Diumumkan
2019/05/27
ISSN dalam talian
1745-1361
DOI
10.1587/transinf.2018EDP7390
Jenis Manuskrip
PAPER
kategori
Kejuruteraan Perisian

Pengarang

Jung-Been LEE
  Korea University
Taek LEE
  Sungshin University
Hoh Peter IN
  Korea University

Kata kunci

Contents [show]