Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Open Access
A POMDP-Based Approach to Assortment Optimization Problem for Vending Machine
Membuka akses
Pendekatan Berasaskan POMDP untuk Masalah Pengoptimuman Pelbagai untuk Mesin Layan Diri

Gaku NEMOTO, Kunihiko HIRAISHI

  • pandangan teks lengkap

    264

  • Petikan Ini
  • Free PDF (1.5MB)

Ringkasan:

Pengoptimuman pelbagai adalah salah satu masalah utama peruncit, dan telah dikaji secara meluas. Dalam kertas ini, kami memberi tumpuan kepada mesin layan diri, yang mempunyai banyak isu ciri untuk dipertimbangkan. Kami mula-mula merumuskan masalah pengoptimuman pelbagai untuk mesin layan diri, seterusnya mencadangkan model yang mewakili pembuatan keputusan pengguna, dan kemudian menunjukkan kaedah penyelesaian berdasarkan proses keputusan Markov yang boleh diperhatikan sebahagiannya (POMDP). Masalahnya termasuk pemerhatian keadaan yang tidak lengkap, tingkah laku pengguna stokastik dan keputusan dasar yang memaksimumkan ganjaran yang dijangkakan pada masa hadapan. Menggunakan simulasi komputer, kami melihat bahawa jualan meningkat berbanding dengan kaedah heuristik di bawah keadaan yang sama. Lebih-lebih lagi, jualan menghampiri batas atas teori.

Jawatankuasa
IEICE TRANSACTIONS on Fundamentals Vol.E107-A No.6 pp.909-918
Tarikh penerbitan
2024/06/01
Diumumkan
2023/09/05
ISSN dalam talian
1745-1337
DOI
10.1587/transfun.2023EAP1036
Jenis Manuskrip
PAPER
kategori
Sains Sistem Matematik

1. Pengenalan

Perancangan pelbagai produk yang sesuai, serta pengurusan harga dan inventori, merupakan isu penting bagi kebanyakan peruncit. Pelbagai pendekatan sedang dibuat untuk menyelesaikan masalah bagi setiap jenis perniagaan, seperti kedai runcit, kedai serbaneka, pasar raya, dan tapak EC. Antaranya, pengoptimuman pelbagai untuk mesin layan diri (terutama mesin layan diri minuman) mempunyai beberapa ciri yang berbeza daripada kedai runcit lain. Iaitu, terdapat banyak jenis produk dengan inventori yang terhad, terdapat selang masa sehingga data jualan boleh diperolehi, peluang penambahan adalah terhad, dan perubahan dalam jualan disebabkan oleh persekitaran adalah besar. Kekangan ini menjadikan masalah lebih rumit.

Dalam kertas kerja ini, kami mula-mula membentangkan rumusan masalah pengoptimuman pelbagai untuk mesin layan diri, seterusnya mencadangkan model yang menerangkan pembuatan keputusan pengguna, dan kemudian menunjukkan kaedah penyelesaian kepada masalah tersebut. Kami menggunakan perumusan berdasarkan proses keputusan Markov yang boleh diperhatikan separa (POMDP), rangka kerja pemodelan untuk proses membuat keputusan di mana pembolehubah keadaan sebahagiannya boleh diperhatikan. Dalam mesin layan diri, pekerja, yang dipanggil lelaki laluan, berulang kali menukar pelbagai jenis produk untuk mendapatkan jualan yang lebih baik. Matlamat pengoptimuman pelbagai adalah untuk memaksimumkan jualan yang dijangkakan dengan menukar pelbagai pada setiap kerja penambahan.

Baki kertas itu disusun seperti berikut. Dalam Mazhab. 2, gambaran keseluruhan kerja berkaitan ditunjukkan. Ciri-ciri masalah pengoptimuman pelbagai untuk mesin layan diri juga diterangkan. Dalam Mazhab. 3, rumusan umum masalah dibentangkan. Dalam Mazhab. 4, model pemilihan produk pengguna dibentangkan bersama dengan batas atas teori bagi jualan yang dijangkakan. Dengan sempadan atas ini, kita dapat mengetahui bagaimana penyelesaian yang diperolehi adalah hampir kepada penyelesaian yang optimum. Pendekatan berasaskan POMDP yang dicadangkan untuk masalah ini diterangkan dalam Sek. 5. Ini merupakan sumbangan utama kertas kerja ini. Dalam Mazhab. 6 kami membentangkan model simulasi dan tetapannya untuk penilaian, dan membincangkan ketepatan dan keberkesanan kaedah yang dicadangkan dalam Sek. 7. Bahagian 8 ialah kesimpulannya.

2. Karya Berkaitan

Masalah pengoptimuman pelbagai telah dikaji secara meluas. Terdapat dua tema utama dalam literatur tentang pengoptimuman pelbagai, yang memperkatakan mekanisme dan model penggantian statik atau dinamik dalam tingkah laku pengguna.

Penggantian statik mengandaikan bahawa jika produk yang dipilih pada mulanya kehabisan stok, maka pengguna tidak akan membeli item lain sebaliknya [1]. Sebaliknya, penggantian dinamik mengandaikan bahawa jika produk kehabisan stok, maka pengguna membeli item lain sebagai alternatif [2], [3].

Dalam [4], tiga model ditunjukkan untuk menggambarkan tingkah laku pengguna: permintaan eksogen, pilihan lokasi dan logit multinomial. Model permintaan eksogen memberikan kaedah untuk menerangkan tingkah laku pengguna daripada data jualan yang boleh diperhatikan bagi setiap produk, seperti K\(\ddot{\mathrm{o}}\)k dan Fisher [5]. Model pilihan lokasi dibangunkan oleh Lancaster [6]. Model ini memperkenalkan vektor berbilang dimensi di mana setiap dimensi sepadan dengan ciri produk dan permintaan pengguna. Pemilihan produk pengguna ditentukan oleh kedekatan vektor ideal pengguna dengan vektor produk. Model multinomial logit (MNL) ialah model utiliti rawak yang mewakili kebarangkalian pemilihan setiap produk sebagai fungsi utiliti pengguna. Model asas MNL telah ditubuhkan oleh McFadden [7]. Model MNL mempunyai had kerana ia menganggap bebas daripada alternatif yang tidak relevan dalam kebarangkalian pemilihan produk. Untuk mengurangkan batasan ini, model MNL bersarang telah dicadangkan oleh Williams [8].

Sebaliknya, penyelidikan mengenai perancangan pelbagai untuk mesin layan diri tidak sedang dijalankan. Sebaliknya, tingkah laku pengguna untuk mesin layan diri sedang dikaji. Anupindi et al. [9] mencadangkan model untuk anggaran permintaan yang mengambil kira penggantian dinamik. Sebab mengapa masalah pengoptimuman pelbagai untuk mesin layan diri tidak ditemui dengan baik adalah (i) permintaan untuk menyelesaikan masalah ini adalah kecil kerana pelbagai jenis biasanya diputuskan oleh lelaki laluan menggunakan pengetahuan dan pengalaman mereka dalam jualan, dan (ii) kerumitan masalah. Kerumitan timbul daripada ciri-ciri penting berikut bagi masalah:

  • Penjualan produk boleh diperhatikan hanya apabila pengisian semula dilakukan.
  • Kerja-kerja penambahan dilakukan secara berkala. Oleh itu, penyelesaian kepada masalah adalah proses membuat keputusan berdasarkan sejarah pemerhatian lampau.
  • Sifat pelanggan tidak dapat diperhatikan dan perlu dianggarkan.

Baru-baru ini, syarikat minuman cuba memperkenalkan sistem maklumat yang menyokong kerja lelaki laluan. Mencadangkan kaedah yang membantu laluan lelaki membuat keputusan adalah sumbangan utama kertas ini.

3. Rumusan Umum

Sebelum membincangkan masalah pengoptimuman pelbagai, kami menggariskan rumusan umum. Masalah pengoptimuman pelbagai untuk mesin layan diri ditakrifkan oleh 6-tuple \(AOP = (\boldsymbol{A}, S, G, O, \pi, {\cal C})\), Di mana \(\boldsymbol{A}\) ialah set pelbagai, \(S\) ialah set negeri, \(G\) ialah fungsi keuntungan, \(O\) ialah fungsi pemerhatian, \(\pi\) adalah dasar, dan \(\cal C\) ialah kekangan pelbagai. Butiran diterangkan di bawah.

(1) Produk dan Pelbagai

Pertimbangkan \(n\) macam-macam produk \(q_i(i=1,\ldots,n)\) and \(m\) lajur (\(m > 0\), biasanya \(n > m\)), di mana lajur mesin layan diri adalah bekas untuk stok produk. Pelbagai ialah gabungan pemilihan \(m\) produk dari \(n\) jenis produk yang membenarkan pendua. Gabungan sedemikian diwakili oleh multiset1. Biarkan \(\boldsymbol{A} = \{\boldsymbol{a}_1, \ldots, \boldsymbol{a}_L\}\) menunjukkan set semua jenis, di mana \(L\) ialah jumlah bilangan pelbagai. Pelbagai yang diberikan pada masa \(t\) dilambangkan dengan \(\boldsymbol{a}(t)\). Perhatikan bahawa \(\boldsymbol{a}(t)\) berkuat kuasa ke atas jualan antara \(t\) and \(t + 1\).

Kami menganggap bahawa setiap lajur mempunyai kapasiti yang sama, dan biarkan \(\mathit{cap}\) nyatakan kapasiti setiap lajur. Kemudian bilangan produk \(q_i\) dalam pelbagai \(\boldsymbol{a}(t)\) is \(\mathit{stk}(\boldsymbol{a}(t), q_i) := \#\boldsymbol{a}(t)[q_i] \cdot \mathit{cap}\), Di mana \(\#\boldsymbol{a}(t)[q_i]\) ialah bilangan kejadian \(q_i\) dalam multiset \(\boldsymbol{a}(t)\) dan kami menganggap setiap lajur penuh selepas kerja-kerja penambahan.

(2) Ruang Negeri

Mari \(S = \{s_1, \ldots, s_v\}\) menjadi set negeri, di mana setiap negeri \(s_i\) ialah \(u\)-vektor dimensi dan setiap komponen sate boleh menjadi nombor nyata, integer dan nilai diskret. Keadaan mesin layan diri terdiri daripada persekitaran, cuaca, populasi latar belakang untuk pembelian di mesin layan diri, dsb.

Negeri pada masa \(t\) dilambangkan dengan \(s(t)\). Kami mentakrifkan kebarangkalian peralihan keadaan sebagai fungsi \(\delta\): \(\mathbb{N} \times S \times S \rightarrow [0, 1]\), Di mana \(\forall t, s_j : \sum_{j^\prime}{\delta(t, s_j, s_{j^\prime}) = 1}\). Ia bermakna bahawa kebarangkalian itu \(s(t)=s_j\) and \(s(t+1)=s_{j^\prime}\) is \(\delta(t, s_j, s_{j^\prime})\). Apabila kebarangkalian peralihan keadaan bergantung pada masa \(t\), ia dipanggil varian masa, jika tidak ia dipanggil invarian masa. Dalam kes invarian masa, \(\delta\) ditakrifkan sebagai \(\delta : S \times S \rightarrow [0, 1]\).

(3) Fungsi Keuntungan

Fungsi keuntungan untuk pelbagai ditakrifkan sebagai fungsi \(G : S \times \boldsymbol{A} \rightarrow \mathbb{N}\) yang memberikan jumlah jualan (amaun atau unit) di bawah keadaan tertentu dan pelbagai. \(G(s_j, \boldsymbol{a}_l)\) diberikan oleh jumlah jualan semua produk: \(G(s_j, \boldsymbol{a}_l) := \sum_{q_i \in \boldsymbol{a}_l} g_i\), Di mana \(g_i\) ialah jualan produk \(q_i\). vektor \(\boldsymbol{g} := [ g_1, \ldots, g_n ]\) dipanggil vektor keuntungan. Ambil perhatian bahawa kami secara tersirat menganggap semua produk mempunyai harga yang sama. Bagaimana untuk mendapatkan fungsi keuntungan dijelaskan dalam bahagian seterusnya.

(4) Fungsi Pemerhatian

Fungsi pemerhatian ditakrifkan sebagai \(O : S \rightarrow W\), Di mana \(W\) adalah beberapa set. Pemerhatian pada masa \(t\) dilambangkan dengan \(o(t) := O(s(t))\). Seperti yang telah kita takrifkan, setiap negeri \(s\) diwakili oleh a \(u\)-vektor berdimensi \(s_i := [ s_i^1, \cdots, s_i^u ]\). Dalam kertas ini, kami menganggap bahawa fungsi pemerhatian menutupi beberapa substatus, contohnya, untuk keadaan \(s_i = [ s_i^1, s_i^2, s_i^3, s_i^4 ]\), \(O(s_i) = [ s_i^1, s_i^4 ]\) (fungsi menutupi substatus kedua dan ketiga). Di sini substate bertopeng menyiratkan substate yang tidak boleh diperhatikan dan yang lain membayangkan substate yang boleh diperhatikan.

(5) Polisi

Bila \(s(k), o(k), \boldsymbol{a}(k), \boldsymbol{g}(k), k=0, \ldots, t-1\) diberikan, fungsi yang mengeluarkan \(\boldsymbol{a}(t)\) dipanggil polisi.

(6) Kekangan Pelbagai

Kekangan pelbagai adalah satu set \({\cal C} \subseteq \boldsymbol{A} \times \boldsymbol{A}\). Untuk bila-bila masa \(t\), \((\boldsymbol{a}(t), \boldsymbol{a}(t+1)) \in {\cal C}\) mesti puas hati. Sebab mengapa kekangan ini timbul ialah bilangan produk yang boleh ditukar oleh lelaki laluan pada setiap masa adalah terhad. Kekangan ini mencirikan masalah pengoptimuman pelbagai untuk mesin layan diri.

Kami kini mentakrifkan masalah pengoptimuman pelbagai yang dikaji dalam kertas ini.

Masalah pengoptimuman pelbagai: Cari polisi yang memenuhi kekangan pelbagai dan memaksimumkan jumlah keuntungan sepanjang masa \(t=0, \ldots, T\).

Kita juga boleh mengklasifikasikan masalah dengan ciri-ciri berikut: Ruang keadaan diketahui/tidak diketahui untuk ejen (pengurus laluan dalam kes ini), pemerhatian lengkap/tidak lengkap, fungsi perolehan diketahui/tidak diketahui, dan kebarangkalian peralihan diketahui/tidak diketahui. Contohnya ialah

  • Kedai (seperti kedai serbaneka, pasar raya): negeri diketahui, pemerhatian lengkap, fungsi keuntungan diketahui.
  • Mesin layan diri: keadaan diketahui (atau tidak diketahui), pemerhatian tidak lengkap, fungsi keuntungan diketahui.

4. Model Pemilihan Produk

Untuk memberikan fungsi keuntungan, kami memperkenalkan model pemilihan produk pengguna. Berdasarkan model MNL, nilai utiliti memberikan kebarangkalian bahawa pengguna memilih satu daripada produk boleh pilih jamak [10], [11]. biarlah \(P_{q_i, s_j, k}\) menunjukkan kebarangkalian pengguna itu \(C_k\) cuba membeli produk \(q_i\) dalam negeri \(s_j\). Nilai utiliti apabila pengguna \(C_k\) cuba membeli produk \(q_i\), dilambangkan dengan \(V_{q_i, s_j, k}\), diberikan oleh model regresi linear

\[\begin{equation*} V_{q_i, s_j, k} := \ln \frac{P_{q_i, s_j, k}}{P_{q_1, s_j, k}} = \alpha_i^{j, k} + \sum_l \beta_{i,l}^{j, k}Y_{l}^{j} \tag{1} \end{equation*}\]

di mana kita menganggap produk \(q_1\) adalah rujukan, \(\alpha_i^{j, k}\) ialah pemalar, dan \(\beta_{i,l}^{j, k}\) ialah pekali bagi setiap pembolehubah penjelasan \(Y_{l}^j\). Kemudian kebarangkalian bahawa pengguna \(C_k\) memilih produk \(q_i\) dalam negeri \(s_j\) diberikan oleh

\[\begin{equation*} P_{q_i, s_j, k}=\frac{\exp(V_{q_i, s_j, k})}{\sum_{l=1}^n\exp(V_{q_l, s_j, k})} \tag{2} \end{equation*}\]

Perhatikan bahawa nilai utiliti dan kebarangkalian pemilihan ditakrifkan bukan sahaja untuk produk dalam pelbagai, tetapi juga untuk produk bukan dalam pelbagai.

Menggunakan kebarangkalian Persamaan. (2), kami memberikan kebarangkalian pembelian produk \(q_i\) oleh setiap pengguna. biarlah \(N\) menjadi bilangan pengguna dan biarkan \(X_i\) menunjukkan pembolehubah stokastik yang mewakili bilangan jualan untuk produk \(q_i\) tanpa sebarang sekatan ke atas pelbagai. Kebarangkalian pembelian \(\Pr(X_i=r | s_j)\) di bawah negeri \(s_j\) mengikuti taburan binomial Poisson [12]. Taburan binomial Poisson dijelaskan seperti berikut. Kami mengambil kira \(N\) percubaan bebas yang setiap satunya mempunyai kebarangkalian kejayaannya sendiri. Kemudian taburan binomial Poisson ialah taburan kebarangkalian diskret bagi bilangan kejayaan daripada \(N\) percubaan yang boleh dikira secara rekursif oleh

\[\begin{align} & \Pr(X_i=r | s_j) = \nonumber \\ & \left\{\begin{array}{ll} \displaystyle \prod^N_{k=1}(1-P_{q_i, s_j, k}) & \mbox{ if } r = 0 \\ \displaystyle \frac{1}{r}\sum^r_{l=1} (-1)^{l-1}\Pr(X_i=r-l | s_j)\Upsilon(l) & \mbox{ if } r > 0 \\ \end{array}\right. \tag{3} \end{align}\]

di mana \(P_{q_i, s_j, k}\) adalah yang ditakrifkan oleh Pers. (2) dan

\[\begin{align} & \Upsilon(l)=\sum^N_{k=1}\left(\frac{P_{q_i, s_j, k}}{1-P_{q_i, s_j, k}}\right)^l, \nonumber \\ & \mbox{Expected value}:E[X_i | s_j]=\sum^N_{k=1}P_{q_i, s_j, k} \tag{4} \end{align}\]

Seterusnya kita mempertimbangkan kebarangkalian di bawah pelbagai yang diberikan. Kami menganggap penggantian statik. Sejak jumlah jualan sebenar \(g_i\) dikekang oleh pelbagai, kebarangkalian di bawah keadaan \(s_j\) dan bermacam-macam \(\boldsymbol{a}_h\) diperoleh seperti berikut.

\[\begin{align} & \Pr(g_i=r | s_j, \boldsymbol{a}_h) = \nonumber\\ & \left\{\begin{array}{ll} 0 & \mbox{ if } r > \mathit{stk}(\boldsymbol{a}_h, q_i) \\ \\ \displaystyle \sum_{l = r}^N \Pr(X_i=l | s_j) & \mbox{ if } \ r = \mathit{stk}(\boldsymbol{a}_h, q_i) \\ \\ \Pr(X_i=r | s_j) & \mbox{ if } \ r < \mathit{stk}(\boldsymbol{a}_h, q_i) \\ \end{array}\right. \tag{5} \end{align}\]

Oleh kerana kekangan kapasiti, semua kes \(r \leq X_i \leq N\) kurangkan kepada \(X_i = r\). Juga, ganjaran yang dijangkakan di bawah keadaan \(s_j\) dan bermacam-macam \(\boldsymbol{a}_h\) diberikan oleh

\[\begin{equation*} \begin{array}{@{}l@{}} \displaystyle E[G(s_j, \boldsymbol{a}_h)] = \displaystyle \sum_{q_i \in \boldsymbol{a}_h} \min \{ \mathit{stk}(\boldsymbol{a}_h, q_i), E[X_i | s_j] \}\\ \end{array} \tag{6} \end{equation*}\]

Kita boleh memperoleh batas atas teori pada jualan yang dijangkakan. Sekiranya ejen mengetahui keadaan secara jelas \(s(t)\) mesin layan diri pada masa itu \(t\), ejen boleh memaksimumkan jumlah jualan yang dijangkakan dengan memilih jenis yang sesuai daripada set keseluruhan jenis \(\boldsymbol{A}\). Kami boleh memberikan had atas jualan dijangka berikut pada setiap masa \(t\), tanpa mengambil kira kekangan pelbagai.

\[\begin{equation*} E^{\mathit{Upper\:bound}}_t = \max_{\boldsymbol{a}(t) \in A}E[G(s(t), \boldsymbol{a}(t-1))] \tag{7} \end{equation*}\]

Dengan kekangan pelbagai, pemilihan pelbagai pada masa \(t\) dikekang oleh pelbagai pada masa \(t - 1\). Kami mengambil kira nilai maksimum yang boleh dilaksanakan jualan yang dijangkakan di bawah kekangan pelbagai. biarlah \(\boldsymbol{a}_l\), \(\boldsymbol{a}_m\) menjadi dua macam dan biarkan \({\cal C}(\boldsymbol{a}_l, \boldsymbol{a}_m)\) menunjukkan pembolehubah Boolean sedemikian \({\cal C}(\boldsymbol{a}_l, \boldsymbol{a}_m) = 1\) if \((\boldsymbol{a}_l, \boldsymbol{a}_m) \in {\cal C}\) dan 0 sebaliknya. Kemudian jualan yang dijangka mempertimbangkan kekangan pelbagai pada masa \(t\) diberikan oleh

\[\begin{align} &E_t(\boldsymbol{a}(0), \ldots, \boldsymbol{a}(t -1)) = \nonumber \\ &\left( \prod_{i = 1}^{t - 1}{\cal C}(\boldsymbol{a}(i-1), \boldsymbol{a}(i)) \right) \cdot E[G(s(t), \boldsymbol{a}(t-1))] \tag{8} \end{align}\]

dan nilai maksimum yang boleh dilaksanakan pada setiap masa \(t\) is

\[\begin{equation*} E^{\mathit{Feasible\:max}}_t = \max_{\boldsymbol{a}(0), \ldots, \boldsymbol{a}(t-1) \in \boldsymbol{A}} E_t(\boldsymbol{a}(0), \ldots, \boldsymbol{a}(t-1)) \tag{9} \end{equation*}\]

Jelas sekali, \(E^{\mathit{Feasible\:max}}_t \leq E^{\mathit{Upper\:bound}}_t\) memegang.

5. Formulasi sebagai POMDP

Mengikuti Kaelbling et al. [13], kami mencadangkan kaedah berasaskan POMDP yang memilih dasar pelbagai yang baik daripada set dasar yang diberikan. POMDP ialah proses stokastik yang menangani situasi di mana keadaan boleh diperhatikan sebahagiannya, dan pemerhatian ini tidak semestinya memenuhi proses Markov.

5.1 POMDP

POMDP ialah model ejen yang berinteraksi secara serentak dengan dunia. Diberi set diskret \(Z\), biarkan \(\Pi(Z)\) menandakan set semua taburan kebarangkalian diskret pada \(Z\). Secara formal, POMDP ditakrifkan sebagai tuple \(POMDP = (\mathit{St}, \mathit{Act}, \Delta, \mathit{Rw}, \Omega, \mathit{Obs})\), Di mana \(\mathit{St}\) ialah set keadaan terhingga, \(\mathit{Act}\) ialah set tindakan terhingga, \(\Delta: \mathit{St} \times \mathit{Act} \to \Pi(\mathit{St})\) ialah fungsi peralihan keadaan, \(\mathit{Rw} : \mathit{St} \times \mathit{Act} \to \mathbb{R}\) ialah fungsi ganjaran, \(\Omega\) ialah set terhingga pemerhatian, dan \(\mathit{Obs} : \mathit{St} \times \mathit{Act} \to \Pi(\Omega)\) ialah fungsi pemerhatian. Oleh kerana keadaan perlu dianggarkan melalui fungsi pemerhatian, kaedah Kaelbling memperkenalkan sesuatu kepercayaan. Kepercayaan ialah pembolehubah yang mewakili keadaan semasa, dan ia dianggarkan daripada sejarah pemerhatian. Pada setiap langkah masa, ejen memilih tindakan untuk memaksimumkan ganjaran yang diharapkan bergantung pada kepercayaan. Polisi ialah perihalan tentang tingkah laku ejen. Kami mengguna pakai POMDP sebagai rangka kerja kaedah penyelesaian kerana kami memberi tumpuan kepada kes di mana ejen tidak dapat mengenali sebahagian daripada keadaan semasa mesin layan diri. Tetapi model yang dicadangkan disesuaikan daripada POMDP asal untuk disesuaikan dengan masalah pengoptimuman pelbagai mesin layan diri.

5.2 Model POMDP untuk AOP

Model POMDP untuk masalah pengoptimuman pelbagai diterangkan seperti berikut.

(1) Negeri

Set negeri dalam \(POMDP\) diberikan sebagai set negeri dalam \(AOP\). Negeri pada masa \(t\) dilambangkan dengan \(s(t)\).

(2) Tindakan

Ejen adalah lelaki laluan. Tindakan yang diberikan pada masa \(t\) adalah pelbagai \(\boldsymbol{a}(t)\) selepas pertukaran.

(3) Nyatakan Kebarangkalian Peralihan

Kebarangkalian peralihan keadaan dari masa \(t\) kepada \(t+1\) dilambangkan dengan \(\delta(t, s(t), s(t+1))\). Kami menganggap bahawa pelbagai tidak menjejaskan peralihan keadaan dan kebarangkalian peralihan keadaan adalah invarian masa. Jadi kita menandakan kebarangkalian dengan \(\delta(s(t+1) | s(t))\). Kami mentakrifkan kebarangkalian peralihan keadaan untuk \(n\) langkah masa, dilambangkan dengan \(\delta^n\), Dengan \(\delta^1(s'|s) := \delta(s'|s)\) and

\[\begin{align} \delta^n(s'|s) := \sum_{s'' \in S}\delta^{n - 1}(s'|s'')\delta(s''|s) \tag{10} \end{align}\]

(4) Pemerhatian dan Ganjaran

Keadaan yang mungkin diperhatikan \(o(t)\) dan vektor jualan \(\boldsymbol{g}(t) = [g_1(t), \cdots, g_n(t)]\) pada masa \(t\) secara stokastik diberikan bergantung kepada keadaan \(s(t)\) dan bermacam-macam \(\boldsymbol{a}(t-1)\). Sepatutnya begitu \(\boldsymbol{g}(t)=[r_1, \ldots, r_n]\). Kemudian kebarangkalian diberikan oleh

\[\begin{align} & {\cal O}(s(t), \boldsymbol{a}(t-1), o(t), \boldsymbol{g}(t))\nonumber\\ & := \Pr(o(t), \boldsymbol{g}(t) | s(t), \boldsymbol{a}(t-1)\nonumber)\\ & = \prod^n_{i=1}\Pr(o(t), g_i(t)=r_i | s(t), \boldsymbol{a}(t-1)) \tag{11} \\ & = \prod^n_{i=1}\Pr(g_i(t)=r_i | s(t), \boldsymbol{a}(t-1))\nonumber \end{align}\]

Persamaan terakhir berikutan daripada fakta bahawa \(o(t)\) ditentukan secara unik daripada \(s(t)\) seperti yang diterangkan dalam Sekt. 3(4), iaitu, pemerhatian menutupi beberapa substate. \(\Pr(g_i(t)=r_i | s(t), \boldsymbol{a}(t-1))\) dikira dengan Pers. (5).

Pada masa \(t\), ejen memperoleh keadaan yang mungkin diperhatikan \(o(t)\) dan jualan \(g_i(t)\) setiap produk \(q_i\). Jumlah jualan produk dianggap sebagai ganjaran. biarlah \(\mathit{rw}(t)\) menunjukkan ganjaran pada masa \(t\). kemudian \(\mathit{rw}(t) := G(s(t), \boldsymbol{a}(t - 1)) = \sum_{q_i \in \boldsymbol{a}(t - 1)} g_i(t)\).

5.3 Kepercayaan dan Dasar

Kepercayaan diwakili oleh fungsi \(b : S \to \mathbb{R}\) seperti itu \(0 \leq b(s) \leq 1\) and \(\sum_{s_j \in S}b(s_j) = 1\). Biarkan \(b_t\) menunjukkan kepercayaan pada masa \(t\). Bagi setiap negeri \(s \in S\), \(b_t(s)\) adalah kekuatan yang dipercayai oleh ejen \(s (t)=s\). Dasar mengenai pertukaran pelbagai ialah fungsi yang memberikan pelbagai pada setiap masa. Kami menganggap bahawa dasar \(\pi\) hanya bergantung pada keadaan terkini \(s(t)\), nilai yang diperhatikan \(o(t)\), dan pelbagai jenis terkini \(\boldsymbol{a}(t - 1)\). Juga, diandaikan bahawa ejen boleh memilih satu polisi daripada satu set polisi terhingga \(\Pi := \{\pi^1, \ldots, \pi^M\}\).

Pada setiap masa, dasar mengenai pertukaran pelbagai diputuskan oleh kepercayaan semasa. Diberi kepercayaan \(b_{t-1}\) pada masa \(t-1\), kepercayaan bahawa \(s(t)=s^\prime\) di bawah keadaan yang diperhatikan \(o(t)\) dan jualan \(\boldsymbol{g}(t)\) diberikan oleh

\[\begin{align} & b_{t}(s^\prime)=\Pr(s^\prime|o(t), \boldsymbol{a}(t-1), \boldsymbol{g}(t), b_{t-1}) \nonumber \\ & =\frac{\Pr(o(t), \boldsymbol{g}(t)|s^\prime, \boldsymbol{a}(t-1), b_{t-1})\Pr(s^\prime|\boldsymbol{a}(t-1), b_{t-1})}{\Pr(o(t), \boldsymbol{g}(t)|\boldsymbol{a}(t-1), b_{t-1})} \nonumber \\ & =\frac{\Pr(o(t), \boldsymbol{g}(t)|s^\prime, \boldsymbol{a}(t-1))}{\Pr(o(t), \boldsymbol{g}(t)|\boldsymbol{a}(t-1),b_{t-1})} \nonumber \\ & \ \ \ \ \times \sum_{s\in S}\Pr(s^\prime|\boldsymbol{a}(t-1), b_{t-1}, s)\Pr(s|\boldsymbol{a}(t-1),b_{t-1}) \nonumber \\ & =\frac{{\cal O}(s^\prime, \boldsymbol{a}(t-1), o(t), \boldsymbol{g}(t))}{\Pr(o(t), \boldsymbol{g}(t)|\boldsymbol{a}(t-1),b_{t-1})} \times \sum_{s\in S}\delta(s^\prime| s)b_{t-1}(s) \tag{12} \end{align}\]

di mana penyebutnya \(\Pr(o(t), \boldsymbol{g}(t)|\boldsymbol{a}(t-1),b_{t-1})\) boleh dianggap sebagai faktor normalisasi.

5.4 Prosedur Penentuan Polisi

Kami menerangkan prosedur untuk menentukan strategi untuk pertukaran pelbagai pada masa \(t\).

Pada masa \(t=0\), kami menganggap bahawa \(s(0)=s_j\) berkemungkinan sama untuk semua negeri yang mungkin \(s_j \in S\). Dengan kata lain, kepercayaan \(b_0(s(0))\) is \(b_0(s_1) = b_0(s_2) = \dots = b_0(s_v)=\frac{1}{v}\). Pada masa \(t>0\), nilai yang diperhatikan \(o(t)\) dan jualan \(\boldsymbol{g}(t)\) diperolehi. Menggunakan Persamaan. (12), kami mengemas kini kepercayaan oleh

\[\begin{align} b_t(s_j)= {\cal O}(s_j, \boldsymbol{a}(t-1), o(t), \boldsymbol{g}(t)) \times \sum_{s\in S}\delta(s_j|s)b_{t-1}(s) \tag{13} \end{align}\]

Selepas kemas kini, \(b_t\) dinormalkan supaya \(\sum_{s_j \in S}b_t(s_j) = 1\).

Dasar mengenai pertukaran pelbagai \(\pi_t^{k_0}(k_0=1, \ldots, M) \in \Pi\) diputuskan berdasarkan ganjaran jangkaan yang diperoleh pada masa hadapan. Pertama, kami mempertimbangkan nilai ganjaran yang diharapkan \(\mathit{rw}(t+1)\) pada masa \(t+1\). Dalam kes di mana \(\pi_t^{k_0}: \boldsymbol{a}(t-1) \rightarrow \boldsymbol{a}^{k_0}(t)\) dipilih, ganjaran yang dijangkakan pada masanya \(t+1\) diberikan seperti berikut:

\[\begin{aligned} & E_{\pi_t^{k_0}}[\mathit{rw}(t+1)] =\\ & \ \ \ \ \ \ \ \ \sum_{s^\prime \in S}\left\{\sum_{s \in S}\delta(s^\prime|s)b_t(s)\right\}E[G(s^\prime, \boldsymbol{a}^{k_0}(t))]. \end{aligned}\]

Seterusnya, kami menganggap kes itu \(\pi_{t+1}^{k_1} ({k_1}=1, \ldots, M)\) dipilih pada masanya \(t+1\). Nilai ganjaran yang diharapkan \(\mathit{rw}(t+2)\) dikira untuk setiap jenis \(\boldsymbol{a}^{k_0}(t), \boldsymbol{a}^{k_1}(t+1)\). Perhatikan bahawa pelbagai pada masa \(t + 1\) bergantung pada pelbagai pada masa \(t\) kerana kekangan pelbagai.

\[\begin{aligned} & E_{\pi_t^{k_0} \cdot \pi_{t+1}^{k_1}}[\mathit{rw}(t+2)]=\\ & \ \ \ \ \ \ \ \ =\sum_{s^\prime \in S}\left\{\sum_{s \in S}\delta^2(s^\prime|s) b_t(s)\right\}E[G(s^\prime, \boldsymbol{a}^{k_1}(t+1))]. \end{aligned}\]

Begitu juga pada masanya \(t+\tau\: (\tau>0)\), kita boleh memperoleh nilai jangkaan ganjaran seperti berikut:

\[\begin{aligned} & E_{\pi_t^{k_0} \cdots \pi_{t+\tau-1}^{k_{\tau-1}}}[\mathit{rw}(t+\tau)]= \\ & \sum_{s^\prime \in S}\left\{\sum_{s \in S}\delta^\tau(s^\prime|s) b_t(s)\right\}E[G(s^\prime, \boldsymbol{a}^{k_{\tau-1}}(t+\tau-1))]. \end{aligned}\]

Oleh itu, kita boleh mengira ganjaran maksimum yang dijangkakan pada masa hadapan apabila polisi \(\pi_t^{k_0}\) dipilih pada masanya \(t\). Apabila dasar \(\pi_t^{k_0}\) dipilih, jumlah ganjaran yang dijangkakan \(E_{t \rightarrow t+\tau}(\pi_t^{k_0})\) dikira sebagai jumlah mereka daripada \(t+1\) kepada \(t+\tau\). Seperti biasa dalam POMDP, untuk menjadikan ganjaran baru-baru ini lebih berkesan, kami mendarabkan ganjaran yang dijangkakan pada masa hadapan dengan kadar diskaun \(\gamma (0<\gamma<1)\).

\[\begin{align} & E_{t \rightarrow t+\tau}(\pi_t^{k_0}) \nonumber \\ & = E_{\pi_t^{k_0}}[\mathit{rw}(t+1)] + \gamma\max_{\pi_{t+1}^{k_1} \in \Pi} \biggl\{ E_{\pi_t^{k_0} \cdot \pi_{t+1}^{k_1}}[\mathit{rw}(t+2)] \nonumber \\ & \ \ + \gamma\max_{\pi_{t+2}^{k_2} \in \Pi} \biggl\{ E_{\pi_t^{k_0} \cdot \pi_{t+1}^{k_1} \cdot \pi_{t+2}^{k_2}}[\mathit{rw}(t+3)] + \gamma\max_{\pi_{t+3}^{k_3} \in \Pi} \biggl\{ \nonumber \\ & \ \ \cdots + \gamma\max_{\pi_{t+\tau-1}^{k_{\tau-1}} \in \Pi}\left\{E_{\pi_t^{k_0} \cdots \pi_{t+\tau-1}^{k_{\tau-1}}}[\mathit{rw}(t+\tau)]\right\} \cdots \biggr\}\biggr\}\biggr\} \tag{14} \end{align}\]

Harap maklum bahawa jualan yang dijangka pada masa hadapan tidak begitu penting dalam mesin layan diri, kami menganggap ganjaran dalam ufuk yang terhad.

Mengikut prosedur di atas, kami memperoleh jumlah ganjaran yang dijangkakan \(E_{t \rightarrow t+\tau}(\pi_t^1), \ldots, E_{t \rightarrow t+\tau}(\pi_t^M)\) oleh dasar-dasar tersebut \(\pi_t^1, \ldots, \pi_t^M\). Kemudian, dasar mengenai pertukaran assortment \(\pi_t\) diputuskan sebagai satu yang memaksimumkan ganjaran yang diharapkan:

\[\begin{align} \pi_t = \mathop{\rm arg~max}\limits_{\pi_t^{k_0} \in \Pi} E_{t \rightarrow t+\tau}(\pi_t^{k_0}) \tag{15} \end{align}\]

6. Simulasi Komputer

Dalam bahagian ini, kami menunjukkan hasil berangka yang diperoleh melalui simulasi komputer bagi masalah pengoptimuman pelbagai mesin layan diri.

6.1 Parameter dan Andaian

Kami menunjukkan parameter untuk simulasi dan beberapa andaian.

(1) Pengguna

Kami memperkenalkan andaian mudah ke atas pengguna yang membeli produk di mesin layan diri. Setiap pengguna mempunyai beberapa atribut (jantina, umur, pekerjaan, dsb.), dan keutamaan untuk pemilihan produk berkemungkinan bergantung pada atribut ini bersama-sama dengan keadaan semasa. Pada masa \(t\), \(N\) pengguna cuba membeli produk di mesin layan diri. Katakan bahawa \(k\)-pengguna ke \(C_k (k = 1, \ldots, N)\) cuba membeli salah satu \(n\) macam-macam produk. Produk pengguna \(C_k\) percubaan untuk membeli ditentukan secara probabilistik. Kami menganggap bahawa kebarangkalian ditentukan oleh sifat-sifat pengguna \(C_k\) dan keadaan mesin layan diri \(s(t)\). Jika produk yang hendak dibeli terdapat dalam pelbagai \(\boldsymbol{a}(t)\) dan inventori adalah mencukupi, pengguna \(C_k\) membelinya. Jika tidak (termasuk dalam kes habis dijual), pengguna tidak membeli, iaitu, kami menganggap penggantian statik.

Dalam simulasi komputer, kami menganggap bahawa atribut pengguna hanyalah jantina: lelaki atau perempuan. Syarat dan sifat lain tidak dipertimbangkan.

(2) Ejen

Ejen mengisi semula mesin layan diri dengan produk dan boleh menukar pelbagai jenis mengikut budi bicaranya sendiri. Ejen menyemak jualan untuk setiap jenis pada kerja penambahan seterusnya. Dalam simulasi, kami menganggap bahawa ejen mengetahui semua atribut dan parameter termasuk kebarangkalian peralihan antara keadaan. Ejen tidak dapat mengetahui keseluruhan maklumat mengenai keadaan semasa dan menganggarkannya daripada sejarah pemerhatian sebagai kepercayaan. Berdasarkan kepercayaan, ejen memilih polisi seterusnya.

(3) Keadaan Mesin Layan Diri

Pada asalnya, keadaan mesin layan diri boleh dianggap mempunyai banyak parameter dan faktor. Negeri boleh dikelaskan kepada dua jenis: boleh diperhatikan dan tidak boleh diperhatikan. Dalam simulasi ini, kami mempertimbangkan tiga keadaan: lokasi, suhu dan nisbah jantina. Lokasi boleh diperhatikan dan dikelaskan mengikut tiga jenis: pejabat, luar dan sekolah. Suhu adalah faktor luaran untuk mesin layan diri. Ia boleh diperhatikan dan dipilih daripada salah satu \(\{high, middle, low\}\) pada setiap masa. Nisbah jantina ialah faktor dalaman untuk mesin layan diri, dan ini bermakna nisbah lelaki dan perempuan dalam kalangan pengguna yang akan membeli di mesin layan diri. Dalam simulasi, tiga corak diandaikan: \(\{8:2, 5:5, 2:8\}\). Nisbah dipilih daripada salah satu daripadanya pada setiap masa. Nisbah tidak boleh diperhatikan dan ia tidak dapat diketahui oleh ejen. Imej keadaan mesin layan diri ditunjukkan dalam Rajah 1.

Rajah 1  Keadaan mesin layan diri.

(4) Produk dan Pelbagai

Semua produk mempunyai bentuk dan harga yang sama, dan bilangan produk yang boleh diisi semula dalam satu lajur juga adalah sama. Produk yang boleh ada dalam pelbagai jenis adalah 10 jenis: \(\mathsf{A}, \ldots, \mathsf{J}\). Mesin layan diri mempunyai 6 lajur, dan kapasiti setiap lajur ialah 20 untuk sebarang jenis produk. Anda boleh menetapkan jenis produk yang sama kepada berbilang lajur. Rajah 2 menggambarkan pelbagai dan stok.

Rajah 2  Produk dan pelbagai.

(5) Kebarangkalian Pemilihan Produk

Dalam simulasi, nilai utiliti \(V_{q_i, s_j, k}\) produk \(q_i \in \{\mathsf{A}, \ldots, \mathsf{J}\}\) oleh \(k\)-pengguna ke-dalam negeri \(s_j\) didefinisikan sebagai:

\[\begin{aligned} V_{q_i, s_j, k} &= V_{q_i}^0+V_{q_i}^M+\beta_{q_i}^M T_j \ \ \ \ \mbox{for male},\\ V_{q_i, s_j, k} &= V_{q_i}^0+V_{q_i}^F+\beta_{q_i}^F T_j \ \ \ \ \mbox{for female}. \end{aligned}\]

di mana \(V_{q_i}^0\) ialah pemalar bebas jantina bagi nilai utiliti, \(V_{q_i}^M / V_{q_i}^F\) ialah pemalar bergantung kepada jantina, \(\beta_{q_i}^M / \beta_{q_i}^F\) ialah pekali bergantung jantina, dan \(T_j\) ialah parameter suhu dalam keadaan \(s_j\), Seperti \(high \rightarrow 1\), \(middle \rightarrow 0\), \(low \rightarrow -1\).

Parameter ini ditentukan oleh ciri lokasi dan produk2. Setiap produk dikelaskan kepada jenis minuman (kopi, teh hijau, dll.) dengan atribut SEJUK atau PANAS, dan ciri setiap produk ditunjukkan dalam nilai parameter3. Parameter itu \(V_{q_i}^0\) adalah bebas daripada lokasi, tetapi \(V_{q_i}^M, V_{q_i}^F, \beta_{q_i}^M, \beta_{q_i}^F\) ditentukan oleh ciri-ciri lokasi. \(\beta_{q_i}^M, \beta_{q_i}^F\) adalah pekali sumbangan suhu kepada nilai utiliti. Apabila nilai ini positif, ia menunjukkan bahawa produk ini menjadi mudah untuk dijual apabila suhu meningkat. Nilai parameter yang kami pakai untuk simulasi dalam kertas ini ditunjukkan dalam Jadual 1-3.

Jadual 1  Parameter nilai utiliti: pejabat.

Jadual 2  Parameter nilai utiliti: luar.

Jadual 3  Parameter nilai utiliti: sekolah.

Anggaran parameter model logit multinominal boleh dilakukan secara bebas daripada pengoptimuman pelbagai. Dalam simulasi, kami menggunakan nilai buatan untuk parameter yang ditentukan dengan cara berikut. Kami mula-mula mempertimbangkan pelbagai produk sebenar yang untuk musim panas/musim sejuk, dalam/luar dan lelaki/wanita. Seterusnya kami memberikan nilai kepada setiap parameter yang kelihatan munasabah dari sudut pandangan kualitatif.

(6) Kebarangkalian Peralihan

Kebarangkalian peralihan \(\delta(s(t+1)|s(t))\) ditentukan oleh ciri-ciri lokasi. Walau bagaimanapun, kami menganggap bahawa peralihan nisbah jantina dan suhu adalah bebas di mana-mana lokasi. Di luar, kebarangkalian peralihan nisbah jantina ke negeri lain adalah besar supaya variasi nisbah itu meningkat. Semasa di sekolah, kebarangkalian untuk kekal dalam keadaan semasa meningkat kerana kami menganggap bahawa variasi adalah kecil. Kebarangkalian di pejabat diguna pakai nilai pertengahan. Nilai parameter untuk simulasi ditunjukkan dalam Jadual 4, 5.

Jadual 4  Kebarangkalian peralihan nisbah jantina.

Jadual 5  Kebarangkalian peralihan suhu.

Begitu juga dengan parameter dalam model logit multinominal, kebarangkalian peralihan keadaan harus dianggarkan daripada data empirikal. Walau bagaimanapun, kami di sini menganggap bahawa kebarangkalian sudah diketahui. Dalam kertas ini, kami berhasrat untuk menunjukkan pendekatan yang dicadangkan berfungsi jika semua nilai parameter diketahui. Jika ini tidak benar, maka tidak ada gunanya untuk memasukkan anggaran faktor yang tidak diketahui dalam model. Menganggarkan faktor yang tidak diketahui semasa proses pengoptimuman pelbagai kekal sebagai kerja masa hadapan.

(7) Polisi

Dalam simulasi ini, kami mentakrifkan set dasar \(\Pi\) termasuk \(M=8\) polisi dalam Jadual 6. Kekangan pelbagai adalah yang paling ketat yang membenarkan semua dasar ini.

Jadual 6  Set dasar \(\Pi\).

6.2 Model dan Penilaian

Untuk menilai dan membandingkan model yang dicadangkan, kami menggunakan model garis dasar dan model perbandingan. Sebagai garis dasar, kami mengira Persamaan sempadan atas teori. (8) dan nilai maksimum yang boleh dilaksanakan Persamaan. (9). Kami menggunakan model perbandingan sebagai pendekatan heuristik dengan tindakan tetap untuk setiap langkah masa.

  • Betulkan tindakan \(= 0\): Tinggalkan pelbagai jenis awal (6 produk \(\mathsf{A}, \ldots, \mathsf{F}\)) tidak berubah sama sekali.
  • Betulkan tindakan \(= 1, 2, 7\): Pilih dasar \(\pi^1, \pi^2, \pi^7\) untuk setiap langkah masa. Dalam kes ini, diandaikan bahawa ejen menganggap nisbah jantina mesin layan diri adalah tetap pada \(\{5:5\}\) dalam keadaan awal. Oleh kerana dasar lain menunjukkan prestasi yang lebih rendah daripada itu oleh \(\pi^1, \pi^2, \pi^7\), kami telah mengambil dasar ini dalam pembentangan graf dan jadual.

Dalam Mazhab. 5, kami mengira jumlah ganjaran yang dijangkakan \(E_{t \rightarrow t+\tau}(\pi_t^{k_0})\) pada setiap masa \(t\) oleh Pers. (14), di mana \(\tau\) ialah panjang langkah masa hadapan. Dalam simulasi, kami menyediakan tiga model cadangan berikut pada keputusan dasar Persamaan. (15):

  • Model yang dicadangkan \({\cal M}_1\): \(E_{t \rightarrow t+1}(\pi_t^{k_0})\)  \((\tau=1)\).
  • Model yang dicadangkan \({\cal M}_2\): \(E_{t \rightarrow t+2}(\pi_t^{k_0})\)  \((\tau=2)\).
  • Model yang dicadangkan \({\cal M}_3\): \(E_{t \rightarrow t+3}(\pi_t^{k_0})\)  \((\tau=3)\).
6.3 Keputusan

Bagi 2 garis dasar, 4 model perbandingan dan 3 model yang dicadangkan, 50 simulasi telah dijalankan di setiap satu daripada 3 lokasi. Panjang setiap simulasi ialah 20 langkah, bilangan pengguna adalah \(N = 100\) dan kadar diskaun ialah \(\gamma=0.9\) dalam Persamaan. (14). Persekitaran komputer adalah seperti berikut: Macbook Pro 15-inci, CPU 2.2 GHz 6teras intel Core i7, RAM 16 GB, Python 3.6.13. Masa pelaksanaan untuk satu simulasi adalah sekitar satu minit (\({\cal M}_1\)), 10 minit (\({\cal M}_2\)), dan 260 minit (\({\cal M}_3\)). Contoh keputusan simulasi di luar ditunjukkan dalam Rajah 34.

Rajah 3  Contoh simulasi.

Jadual 7, 8, dan 9 menunjukkan ringkasan "jualan" dan "habis" dalam 50 simulasi untuk setiap model. Di sini, jumlah kes "habis" dikira untuk bilangan pengguna yang ingin membeli produk tetapi tidak dapat kerana habis dijual dalam lajur.

Jadual 7  Ringkasan keputusan pejabat.

Jadual 8  Ringkasan keputusan luar.

Jadual 9  Ringkasan keputusan sekolah.

Dalam jadual ini, kecekapan penambahbaikan pelbagai untuk model dinilai oleh "Jualan(Ave.)/UB", di mana UB ialah batas atas teori. Ini bermakna nisbah berapa hampir nilai jualan yang dijangkakan kepada sempadan atas. Di semua lokasi, nisbah "Maks boleh dilaksanakan" ini hampir hampir 100%. Ini bermakna jika ejen mengetahui semua negeri pada masa hadapan dan boleh membuat pertukaran produk yang terbaik berdasarkan maklumat, jangkaan jualan yang boleh diperoleh oleh ejen adalah hampir menghampiri batas atas.

Dalam model perbandingan, nisbah tindakan tetap \(=0\) adalah sekitar 65-85%, dan tindakan pembetulan \(=1, 2, 7\) adalah sekitar 90% di setiap lokasi. Sebaliknya, nisbah model 1 hingga 3 yang dicadangkan adalah melebihi 90% di semua lokasi, terutamanya di pejabat dan sekolah nisbahnya ialah 92-94%. Oleh itu, kita boleh membuat kesimpulan bahawa model yang dicadangkan adalah berkesan dalam meningkatkan jualan berbanding model perbandingan. Lebih-lebih lagi, apabila kebarangkalian keadaan peralihan keadaan adalah kecil seperti di sekolah, kami memerhatikan bahawa prestasi meningkat seiring dengan langkah masa hadapan. \(\tau\) dalam anggaran meningkat. Walau bagaimanapun, peningkatan tidak begitu besar. Untuk pejabat dan luar, \(\tau = 1\) nampaknya cukup.

7. Perbincangan

Jika model yang dicadangkan berfungsi dengan betul, kami menjangkakan jualan menghampiri sempadan atas. Salah satu penambahbaikan yang mungkin dalam model yang dicadangkan adalah untuk meningkatkan \(\tau\) dalam Persamaan. (14), iaitu langkah masa hadapan untuk merumuskan ganjaran yang dijangkakan. Dalam makalah ini, kami telah menggunakan \(\tau=1, 2, 3\), tetapi kami menjangkakan bahawa jualan menghampiri sempadan atas dengan meningkat \(\tau\) kepada \(4, 5, \ldots\). Walau bagaimanapun, sebagai \(\tau\) bertambah, bilangan negeri yang mesti dikira meningkat secara eksponen. Atas sebab ini, kami tidak boleh cuba menggunakan nombor yang lebih besar untuk \(\tau\) dalam simulasi. Terdapat cara lain untuk penambahbaikan, seperti peningkatan dalam jenis dan corak dasar.

Seterusnya kita mempertimbangkan keadaan di mana model yang dicadangkan berprestasi lebih berkesan. Syarat mungkin termasuk kes bahawa bilangan produk dan lajur adalah cukup besar, kerana apabila bilangannya kecil, kesan anggaran masa depan berkurangan kerana pelbagai mencapai yang optimum serta-merta. Apabila ketiadaan peranti IoT dan data jualan semasa tidak dapat diperoleh dalam masa nyata, adalah perlu untuk menganggarkan keadaan semasa berdasarkan data terhad dan membuat rancangan yang tepat untuk penambahan stok dan pertukaran pelbagai. Dalam kes ini, kaedah yang dicadangkan adalah munasabah dan berkesan. Apabila persekitaran dan pilihan pengguna mesin layan diri sering berubah, kaedah berdasarkan ramalan permintaan daripada sejarah masa lalu mengenai jualan tidak dapat mengikuti perubahan tersebut. Memandangkan kaedah yang dicadangkan berfungsi secara adaptif dengan keadaan semasa, ia berfungsi dengan baik walaupun dalam kes sedemikian.

Sebaliknya, salah satu kes yang kurang berkesan adalah bahawa pelbagai optimum tidak berbeza dengan ketara pada persekitaran dan pilihan pengguna. Dalam kes sedemikian, pengiraan ganjaran yang dijangkakan pada masa hadapan tidak semestinya berfungsi dengan baik.

Ada satu lagi isu yang perlu dikaji. Walaupun keadaan sebahagiannya boleh diperhatikan dalam model yang dicadangkan, ejen mengetahui maklumat terperinci tentang nilai utiliti pengguna, dan kebarangkalian peralihan keadaan mesin layan diri. Maklumat tersebut mungkin tidak diketahui dalam situasi sebenar dan perlu dianggarkan melalui sejarah pemerhatian yang lalu. Memasukkan faktor ini ke dalam model kekal sebagai kerja masa hadapan.

Apa yang telah kami tunjukkan dalam kertas kerja ini ialah terdapat kes di mana kaedah yang dicadangkan mengatasi dasar mudah. Sudah tentu, keputusan akan berubah apabila nilai parameter diubah. Daripada perbincangan di atas, bagaimanapun, kita boleh menuntut pegangan hartanah berikut. Berbanding dengan dasar mudah,

  • jika kepelbagaian produk meningkat, maka kaedah berasaskan POMDP berfungsi dengan baik;
  • jika turun naik perubahan keadaan meningkat, maka kaedah berasaskan POMDP berfungsi dengan baik.

8. Kesimpulan

Kami telah mencadangkan model pengoptimuman pelbagai untuk mesin layan diri yang membolehkan pekerja merancang pelbagai jenis produk yang sesuai. Dalam simulasi model dengan beberapa andaian dan parameter berangka, kami telah mencapai peningkatan pada jualan sehingga 2-3 mata (dalam nisbah peratusan kepada batas atas teori) berbanding kaedah heuristik. Model yang dicadangkan mengatasi kaedah heuristik dalam keadaan yang sama. Hasilnya, kami telah mengesahkan keberkesanan anggaran untuk ganjaran masa depan yang dijangkakan.

Terdapat beberapa karya yang tinggal. Pertama, adalah perlu untuk mengesahkan kesan pelaksanaan simulasi di bawah keadaan yang berbeza (bilangan produk, bilangan lajur, bilangan stok, bilangan pengguna, dll.). Di samping itu, untuk membawa model lebih dekat kepada masalah pelbagai sebenar, kami meneruskan untuk merumuskan kepada kes bahawa maklumat yang diketahui oleh ejen adalah terhad.

Rujukan

[1] S.A. Smith and N. Agrawal, “Management of multi-item retail inventory systems with demand substitution,” Operations Research, vol.48, no.1, pp.50-64, 2000.
CrossRef

[2] P. Rusmevichientong, Z.J.M. Shen, and D.B. Shmoys, “Dynamic assortment optimization with a multinomial logit choice model and capacity constraint,” Technical Report, 2008.

[3] V. Gaur and D. Honhon, “Assortment planning and inventory decisions under a locational choice model*,” Technical Report, 2005.

[4] R. Chan, Z. Li, and D. Matsypura, “Assortment optimisation problem: A distribution-free approach,” Omega, vol.95, 102083, June 2019.
CrossRef

[5] A.G. Kök and M.L. Fisher, “Demand estimation and assortment optimization under substitution: Methodology and application,” Operations Research, vol.55, no.6, pp.1001-1021, 2007.
CrossRef

[6] K.J. Lancaster, “A new approach to consumer theory,” The Journal of Political Economy, vol.74, no.2, pp.132-157, 1966.
CrossRef

[7] D.L. McFadden, “Conditional logit analysis of qualitative choice behavior,” Frontiers in Econometrics, vol.8, pp.105-142, 1973.

[8] H.C.W.L. Williams, “On the formation of travel demand models and economic evaluation measures of user benefit,” Environment and Planning A: Economy and Space, vol.9, no.3, pp.285-344, 1977.
CrossRef

[9] R. Anupindi, M. Dada, and S. Gupta, “Estimation of consumer demand with stock-out based substitution: An application to vending machine products,” Marketing Science, vol.17, no.4, pp.406-423, Nov. 1998.
CrossRef

[10] R.D. Luce, Individual Choice Behavior, John Wiley, Oxford, England, 1959.

[11] O. Elshiewy, D. Guhl, and Y. Boztug, “Multinomial logit models in marketing ― From fundamentals to state-of-the-art,” Marketing ZFP, vol.39, no.3, pp.32-49, 2017.
CrossRef

[12] X.-H. Chen, A.P. Dempster, and J.S. Liu, “Weighted finite population sampling to maximize entropy,” Biometrika, vol.81, no.3, pp.457-69, 1994.
CrossRef

[13] L.P. Kaelbling, M.L. Littman, and A.R. Cassandra, “Planning and acting in partially observable stochastic domains,” Artificial Intelligence, vol.101, no.1-2, pp.99-134, 1998.
CrossRef

Nota kaki

1. Multiset: Konsep set yang menggabungkan tahap penduaan bilangan elemen yang disertakan apabila set mengandungi berbilang elemen dengan nilai yang sama. \(\# X[e]\) mewakili bilangan \(e\) termasuk dalam set berganda \(X\). Kami menandakan \(e \in X\) if \(\# X[e] > 0\).
2. Nilai parameter ini ditinggalkan kerana had ruang.
3. Sebagai contoh, nilai utiliti untuk lelaki lebih tinggi untuk kopi, lebih banyak produk SEJUK dijual apabila suhu meningkat, dsb.
4. Dalam Rajah 3, terdapat kes di mana jualan model yang dicadangkan melebihi batas atas teori pada beberapa langkah masa. Ini kerana jualan model yang dicadangkan dikira dengan simulasi stokastik pada setiap langkah masa manakala sempadan atas teori dirumuskan nilai jualan yang dijangkakan. Oleh itu, model yang dicadangkan dinilai dengan nilai purata jumlah jualan dalam 50 simulasi.

Pengarang

Gaku NEMOTO
  Japan Advanced Institute of Science and Technology

received the B. S. degree in physics from Tohoku University in 2000, the M. S. degree in physics from Chiba University in 2002, and the M. S. degree in information science from Japan Advanced Institute of Science and Technology (JAIST) in 2017. He is currently a Ph.D. student at JAIST. He joined Intage Technosphere Inc., Tokyo, Japan in 2002 and has been engaged in developments of information systems applied forecasting, optimization, and machine learning. His research interests include applications of machine learning and optimization for industry.

Kunihiko HIRAISHI
  Japan Advanced Institute of Science and Technology

received from the Tokyo Institute of Technology the B. E. degree in 1983, the M. E. degree in 1985, and D. E. degree in 1990. He is currently a professor at School of Information Science, Japan Advanced Institute of Science and Technology. His research interests include discrete event systems and formal verification. He is a member of the IEEE, IPSJ, and SICE.

Kata kunci