Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Learning the Balance between Exploration and Exploitation via Reward Mempelajari Keseimbangan antara Penerokaan dan Eksploitasi melalui Ganjaran

Tetsuya YOSHIDA, Koichi HORI, Shinichi NAKASUKA

  • pandangan teks lengkap

    0

  • Petikan Ini

Ringkasan:

Kertas kerja ini mencadangkan kaedah baharu untuk meningkatkan kerjasama dalam sistem serentak dalam rangka Sistem Multi-Agen (MAS) dengan menggunakan pembelajaran pengukuhan. Apabila subsistem berfungsi secara bebas dan serentak, mencapai kerjasama yang sesuai di kalangan mereka adalah penting untuk meningkatkan keberkesanan keseluruhan sistem. Melayan subsistem sebagai ejen memudahkan untuk menangani interaksi di antara mereka secara eksplisit kerana ia boleh dimodelkan secara semula jadi sebagai komunikasi antara ejen dengan maklumat yang dimaksudkan. Dalam pendekatan kami, ejen cuba mempelajari keseimbangan yang sesuai antara penerokaan dan eksploitasi melalui ganjaran, yang penting dalam penyelesaian masalah teragih dan serentak secara umum. Dengan memberi tumpuan kepada cara memberi ganjaran dalam pembelajaran peneguhan, bukan persamaan pembelajaran, dua jenis ganjaran ditakrifkan dalam konteks kerjasama antara ejen, berbeza dengan pembelajaran pengukuhan dalam rangka kerja ejen tunggal. Dalam pendekatan kami ganjaran untuk desakan oleh ejen individu menyumbang untuk memudahkan penerokaan dan ganjaran untuk konsesi kepada ejen lain menyumbang kepada memudahkan eksploitasi. Kaedah kerjasama kami telah diteliti melalui uji kaji reka bentuk satelit mikro dan hasilnya menunjukkan ianya berkesan sedikit sebanyak memudahkan kerjasama di kalangan ejen dengan membiarkan ejen sendiri mempelajari keseimbangan yang sesuai antara desakan dan konsesi. Hasilnya juga mencadangkan kemungkinan menggunakan magnitud relatif ganjaran ini sebagai parameter kawalan baharu dalam MAS untuk mengawal tingkah laku keseluruhan MAS.

Jawatankuasa
IEICE TRANSACTIONS on Fundamentals Vol.E82-A No.11 pp.2538-2545
Tarikh penerbitan
1999/11/25
Diumumkan
ISSN dalam talian
DOI
Jenis Manuskrip
Special Section PAPER (Special Section on Concurrent Systems Technology)
kategori

Pengarang

Kata kunci

Contents [show]