Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Policy Gradient Based Semi-Markov Decision Problems: Approximation and Estimation Errors Masalah Keputusan Semi-Markov Berasaskan Kecerunan Dasar: Ralat Anggaran dan Anggaran

Ngo Anh VIEN, SeungGwan LEE, TaeChoong CHUNG

  • pandangan teks lengkap

    0

  • Petikan Ini

Ringkasan:

Dalam dan kami telah membentangkan algoritma berasaskan simulasi untuk mengoptimumkan ganjaran purata dalam Proses Keputusan (SMDP) separa Markov keadaan terhingga berterusan masa berterusan. Kami menganggarkan kecerunan ganjaran purata. Kemudian, algoritma berasaskan simulasi telah dicadangkan untuk menganggarkan kecerunan anggaran ganjaran purata (dipanggil GSMDP), menggunakan hanya satu laluan sampel rantai Markov yang mendasari. GSMDP telah terbukti menumpu dengan kebarangkalian 1. Dalam kertas ini, kami memberikan had pada ralat anggaran dan anggaran untuk algoritma GSMDP. Ralat anggaran anggaran itu ialah saiz perbezaan antara kecerunan sebenar dan kecerunan anggaran. Ralat anggaran, saiz perbezaan antara output algoritma dan output asimptotiknya, timbul kerana algoritma hanya melihat urutan data terhingga.

Jawatankuasa
IEICE TRANSACTIONS on Information Vol.E93-D No.2 pp.271-279
Tarikh penerbitan
2010/02/01
Diumumkan
ISSN dalam talian
1745-1361
DOI
10.1587/transinf.E93.D.271
Jenis Manuskrip
Special Section PAPER (Special Section on Foundations of Computer Science)
kategori

Pengarang

Kata kunci

Contents [show]