1. Pengenalan
Apabila kelaziman kereta pintar meningkat, teknologi pembahagian imej semakin digunakan untuk mengesan dan melihat persekitaran pemanduan dalam kenderaan autonomi. Perkembangan teknologi segmentasi imej telah melalui dua peringkat. Pada peringkat pertama, segmentasi adalah berdasarkan pembelajaran mesin tradisional, dan kebanyakan kaedah sangat bergantung pada reka bentuk ciri yang dibuat secara manual menggunakan pengetahuan sedia ada, seperti Algoritma Pengurangan Dimensi (DRA) [1], K-Means [2], dan C-Means [3]. Walau bagaimanapun, kaedah ini kebanyakannya adalah heuristik. Pada peringkat kedua, pembahagian adalah berdasarkan pembelajaran mendalam untuk pembahagian imej. Berikutan kerja pecah laluan Fully Convolutional Networks (FCN) [4], yang mengilhamkan banyak karya berikutnya [5]-[7], pembelajaran mendalam telah menjadi pilihan reka bentuk utama untuk pembahagian imej adegan pemanduan automatik.
Memandangkan kuasa pengkomputeran terhad sistem perkakasan pemanduan autonomi, masih terdapat potensi tinggi untuk pembangunan skim pembahagian imej yang ringan dan cekap. Konsep reka bentuk makro struktur rangkaian berbilang cawangan menyokong penggunaan mod berbilang cawangan untuk melaksanakan reka bentuk pembezaan untuk tugas pengekstrakan ciri yang pelbagai, menghasilkan rangkaian pembahagian yang ringan dan cekap. Konsep ini dicontohkan oleh BiSeNet v2 [8] yang terkenal, yang mencadangkan rangkaian cawangan dua hala yang menyepadukan butiran spatial dan ciri semantik yang mendalam. Cawangan terperinci menggunakan saluran luas dan rangkaian cetek untuk memperoleh butiran peringkat rendah dan menjana perwakilan ciri resolusi tinggi. Sebaliknya, cabang semantik memberi tumpuan semata-mata untuk mendapatkan maklumat konteks semantik peringkat tinggi yang mendalam. Butiran spatial dan semantik kelas diproses secara berasingan dan kemudian digabungkan menggunakan lapisan pengagregatan berpandu dua hala untuk mencapai ketepatan dan kecekapan tinggi dalam segmentasi semantik masa nyata. Untuk cawangan perincian, maklumat perincian spatial dalam imej adalah sangat penting untuk mengekalkan sempadan. Konvensional 3\(\times\)3 konvolusi kernel yang digunakan dalam cawangan terperinci untuk mengekstrak maklumat butiran spatial mempunyai keberkesanan yang terhad. Ini kerana kernel konvolusi konvensional mengutamakan ciri tempatan dalam bidang penerimaan, menghadap maklumat konteks sekeliling dan global yang boleh membantu mengekalkan butiran spatial dan meningkatkan ketepatan pembahagian. Tambahan pula, konvensional 3\(\times\)3 lilitan adalah berlebihan. Untuk cabang semantik, medan penerimaan yang lebih besar adalah penting untuk mempelajari korelasi yang kompleks antara objek. Tetapi, cawangan semantik BiSeNet v2 menggunakan modul baki kesesakan terbalik yang menggabungkan lilitan biasa dan lilitan boleh dipisahkan secara mendalam untuk mengekstrak maklumat semantik kontekstual yang mendalam. Walau bagaimanapun, modul ini mempunyai korelasi yang lemah antara ciri spatial dan ciri saluran, menghasilkan medan penerimaan yang kecil dan meninggalkan banyak ruang untuk penambahbaikan dalam ketepatan pembahagian.
Artikel ini mencadangkan rangkaian yang dipanggil "BiConvNet," yang dibina berdasarkan peningkatan yang dibuat dalam BiSeNet v2, khusus untuk tugas pembahagian imej dalam senario pemanduan autonomi. Untuk meningkatkan keupayaan cawangan terperinci mempelajari maklumat butiran spatial, BiConvNet memperkenalkan modul konvolusi PCSD untuk pengekstrakan ciri. Modul ini menggabungkan kelebihan lilitan diluaskan dan lilitan jalur untuk mengekodkan ciri tempatan dan ciri kontekstual daripada tiga medan penerimaan, dengan itu meningkatkan keupayaan untuk mengekalkan butiran spatial. Di samping itu, BiConvNet membina semula cabang semantik BiSeNet v2 dengan membuat beberapa pengubahsuaian. Daripada menggunakan modul baki kesesakan terbalik asal yang menggabungkan konvolusi konvensional dan konvolusi boleh dipisahkan secara mendalam, BiConvNet menggunakan konvolusi boleh dipisahkan secara mendalam untuk pensampelan bawah pada setiap peringkat. Ia juga menggunakan modul lilitan kesesakan terbalik daripada ConvNeXt untuk mengekod maklumat semantik bagi setiap peringkat, meningkatkan korelasi dan medan penerimaan antara ciri spatial dan saluran. Pengubahsuaian ini membawa kepada ketepatan pembahagian yang lebih baik. Cawangan dua hala menampilkan lapisan pengagregatan BiConvNet menggunakan modul pengagregatan berpandu dua hala (BGA), yang dicadangkan dalam BiSeNet v2, dan memperhalusinya untuk meningkatkan ketepatan pembahagian tanpa meningkatkan kerumitan pengiraan. Melalui eksperimen ablasi dan perbandingan dengan algoritma arus perdana, kami telah menunjukkan keberkesanan dan kebolehlaksanaan skim penambahbaikan yang dicadangkan untuk BiSeNet v2. Selain itu, keputusan kami telah mengesahkan bahawa algoritma BiConvNet mengatasi algoritma pembahagian imej pemanduan autonomi yang biasa digunakan dari segi ketepatan dan saiz model.
Sumbangan utama kertas itu adalah seperti berikut:
satu. Kertas kerja ini memperkenalkan modul konvolusi PCSD untuk meningkatkan cawangan terperinci BiSeNet v2 untuk pengekstrakan maklumat butiran spatial yang lebih baik. Cabang semantik menjalani pembinaan semula melalui konvolusi yang boleh dipisahkan secara mendalam dan modul ConvNeXt untuk meningkatkan pengekodan ciri semantik peringkat dalam. Penalaan halus modul BGA meningkatkan lagi keuntungan ketepatan segmentasi, melengkapkan pembinaan BiConvNet.
dua. Artikel ini mengkaji kesan lilitan jalur dan lilitan diluaskan pelbagai saiz pada ketepatan pembahagian imej. Keputusan eksperimen menunjukkan bahawa modul konvolusi PCSD yang dicadangkan mengatasi prestasi konvensional, mencapai ketepatan yang lebih tinggi pada set data pembahagian. BiConvNet menunjukkan kelebihan daya saing yang lebih kukuh berbanding dengan algoritma segmentasi yang biasa digunakan baru-baru ini.
Susun atur kandungan seterusnya adalah seperti berikut. Kerja berkaitan skim pembinaan rangkaian ringan diperkenalkan dalam Sek. 2. Pembinaan rangkaian BiConvNet (Sek. 3) pertama kali diperkenalkan secara keseluruhannya, termasuk keseluruhan seni bina dan parameter contoh, diikuti dengan pembinaan cawangan terperinci (Sek. 3.1), cawangan semantik (Sek. 3.2), dan lapisan pengagregatan (Sek. 3.3). Dalam kajian eksperimen (Sect. 4), set data Cityscapes [10], BDD100K [11] dan persekitaran eksperimen diperkenalkan (Sect. 4.1), dan keberkesanan penambahbaikan pada cawangan terperinci, cawangan semantik dan lapisan pengagregatan untuk BiSeNet v2 disahkan melalui eksperimen ablasi (Sek. 4.2). Kemudian, keunggulan BiConvNet disahkan melalui eksperimen perbandingan dengan algoritma pembahagian imej pemanduan automatik sedia ada (Sek. 4.3). Akhirnya, keseluruhan kerja diringkaskan, dan prospek masa depan dicadangkan (Sek. 5).
2. Kerja Berkaitan
Memandangkan pembahagian imej berasaskan pembelajaran mendalam mendapat daya tarikan dalam aplikasi praktikal, penyelidik mencari penyelesaian rangkaian berketepatan tinggi yang ringan. Konvolusi yang boleh dipisahkan secara mendalam, dikenali dengan saiz yang lebih kecil dan kos pengiraan yang lebih rendah, adalah penting dalam reka bentuk rangkaian saraf yang cekap [12], [13]. MobileNets [14], tulang belakang yang digunakan secara meluas, menggabungkan lilitan yang boleh dipisahkan secara mendalam dan biasa untuk kelajuan dalam sistem terbenam. MobileNets v2 [15] mengesahkan pengurangan saiz 8-9 kali dengan lilitan boleh dipisahkan secara mendalam, menawarkan pengganti kepada lilitan standard. Memperkenalkan modul yang menggabungkan struktur sisa kesesakan terbalik dengan lilitan boleh dipisahkan secara mendalam, ia mengimbangi ketepatan dan kelajuan, digunakan dalam rangkaian seperti Fast-SCNN [22] dan ContextNet [20]. Dalam CGNet [16], menangani had konvolusi biasa, modul dwi-laluan menggabungkan konvolusi biasa dan diluaskan, mengekstrak ciri kontekstual setempat dan sekitarnya.
Selain menggunakan modul lilitan ringan untuk pembinaan rangkaian, pendekatan lazim melibatkan pemikiran semula reka bentuk kernel konvolusi. ERFNet [17] mencabar keberkesanan menyusun konvolusi konvensional untuk meningkatkan kedalaman, memetik kos pengiraan yang ketara dengan keuntungan ketepatan yang minimum. Ia memperkenalkan modul "Non-bottleneck-1D", lilitan jalur satu dimensi, mengurangkan parameter sebanyak 33% berbanding konvensional 3\(\times\)3 lilitan. Ini mencapai kekompakan model dan kecekapan pengiraan dengan meminimumkan lebihan melalui lilitan berjalur satu dimensi. Begitu juga, SegNeXt [18] menggunakan modul perhatian konvolusi berbilang cawangan, menggabungkan pelbagai saiz lilitan berjalur satu dimensi untuk menangkap maklumat kontekstual berbilang skala daripada skala tempatan hingga global. Ini menyerlahkan sifat ringan lilitan berjalur, terutamanya bermanfaat untuk mengekstrak ciri objek seperti jalur dalam senario pembahagian, seperti orang dan tiang utiliti. CCNet [19] memperkenalkan Modul Korelasi Silang, mendapatkan maklumat kontekstual di sepanjang laluan silang dan secara berulang mencapai kebergantungan imej penuh untuk semua piksel. Kaedah ini mengurangkan penggunaan memori GPU sebanyak 11 kali, meningkatkan kecekapan pengiraan dan menghasilkan hasil yang menjanjikan pada set data pemanduan autonomi.
Selain mengoptimumkan modul konvolusi dan membina semula kernel pada tahap mikroskopik, penyelidik sedang meneroka seni bina rangkaian berbilang cawangan. ContextNet [20] mengesahkan keberkesanan menggabungkan cawangan rangkaian dalam dengan yang beresolusi rendah untuk mengagregatkan maklumat kontekstual daripada pelbagai resolusi. Ini menangkap butiran pembahagian resolusi tinggi sambil menggabungkan maklumat kontekstual global. Rangkaian Cascade Imej (ICNet) [21] memperkenalkan rangkaian cawangan berbilang resolusi yang menjana peta ramalan kasar daripada imej resolusi rendah melalui persepsi semantik. Unit gabungan ciri lata dan strategi berpandukan label menyepadukan ciri peleraian pertengahan dan tinggi, secara beransur-ansur memperhalusi peta semantik kasar. Sebaliknya, Fast-SCNN [22] menurunkan sampel imej input tunggal sebelum membina rangkaian dwi-cawangan untuk perincian spatial dan pengekstrakan maklumat semantik yang lebih mendalam dengan medan penerimaan yang lebih tinggi.
Artikel ini mencadangkan rangkaian pembahagian imej BiConvNet yang dipertingkatkan berdasarkan BiSeNet v2, yang terdiri daripada cabang perincian dan semantik. Melalui eksperimen perbandingan dengan Fast-SCNN dan BiSeNet v2, BiConvNet menunjukkan ketepatan pembahagian yang lebih tinggi.
3. Pembinaan Rangkaian BiConvNet
Rangka kerja rangkaian BiConvNet, yang digambarkan dalam Rajah 1, terdiri daripada tiga komponen utama: batang cawangan terperinci, yang mengekstrak maklumat terperinci spatial; batang cabang semantik, yang mengekstrak semantik peringkat dalam lanjutan; dan lapisan pengagregatan, yang menyepadukan peta ciri dwi-cawangan. Cawangan terperinci yang dibina semula terdiri daripada tiga peringkat, dengan setiap peringkat menggunakan 3\(\times\)3 lilitan biasa kepada sampel turun dan modul lilitan PCSD untuk pengekstrakan ciri. Saiz imej dibelah dua pada setiap peringkat, dan nisbah saluran ciri output ialah (64:64:128), manakala nisbah kuantiti lilitan PCSD ialah (1:2:2). Cawangan semantik yang dibina semula terdiri daripada lima peringkat, dengan setiap peringkat menggunakan lilitan boleh dipisahkan secara mendalam yang ringan untuk pensampelan bawah dan modul konvolusi kesesakan terbalik ConvNeXt untuk menjana maklumat ciri semantik padat. Nisbah kuantiti modul konvolusi ConvNeXt berbeza antara peringkat (3:3:9:6:3), dan saluran ciri output ialah (16:32:96:128:128). Lapisan pengagregatan diperhalusi berdasarkan lapisan pengagregatan bimbingan dua hala BiseNet v2. Ia mendarabkan peta ciri sampel naik dan turun bagi kedua-dua cabang mengikut piksel selepas pengaktifan sigmoid dan melakukan konvolusi tetap pada penambahan mengikut piksel bagi dua peta ciri untuk melengkapkan gabungan peta ciri.
Jadual 1 menunjukkan parameter untuk setiap peringkat cawangan terperinci dan semantik rangkaian BiConvNet. Setiap peringkat S mengandungi satu atau lebih operasi, seperti PCSD Sekat, lilitan biasa dengan Penukaran2d, Blok ConvNeXt, dan DSConv lilitan boleh dipisahkan secara mendalam. Setiap operasi mempunyai saluran keluaran c, serta parameter lain seperti bilangan ulangan r.
3.1 Pembinaan Cawangan Terperinci
Cawangan terperinci rangkaian BiConvNet bertanggungjawab untuk memproses butiran spatial ciri semantik peringkat rendah dan cetek. Butiran spatial ini penting untuk mengekalkan sempadan objek dalam imej. Oleh itu, cawangan ini memerlukan kapasiti saluran yang banyak, serta modul lilitan yang lebih cekap, untuk mengekod butiran spatial yang kaya dalam konteks rangkaian yang cetek.
BiSeNet v2 menggunakan lilitan 2D tradisional dengan 3\(\times\)3 kernel untuk mengekstrak butiran spatial daripada cawangan butiran halus, tetapi prestasi 3\(\times\)3 lilitan dalam mengekstrak maklumat terperinci halus adalah lemah. Walau bagaimanapun, sebarang lilitan 2D boleh diwakili oleh gabungan lilitan 1D [23]. Non-bottleneck-1D [17] menggunakan Conv1d convolution strip dengan 1\(\times\)3 dan 3\(\times\)1 biji bukannya 3\(\times\)3 kernel lilitan untuk mengekstrak ciri tempatan sasaran, seperti yang ditunjukkan dalam Rajah 2 (a). Eksperimen telah menunjukkan bahawa kaedah ini mengurangkan 33% parameter berbanding dengan menggunakan 3\(\times\)3 konvolusi kernel, meningkatkan lagi kecekapan pengiraan. takrifannya \({W_{2D}} \in {\Re ^{C \times {d^h} \times {d^v} \times F}}\) ialah berat lapisan lilitan 2D, di mana \({W_{1D}} \in {\Re ^{C \times d \times F}}\) mewakili berat lilitan satu dimensi, \(C\) adalah saluran input, \(F\) ialah saluran keluaran, dan \(d^h\times d^v\) ialah saiz isirong konvolusi, biasanya \(d^h\equiv d^v\equiv d\). Hasil keluaran peta ciri konvolusi modul sisa 2D asal boleh dinyatakan sebagai:
\[\begin{equation*} y=F(x,{W_{2D}})+I_x, \tag{1} \end{equation*}\] |
\(I_x\) mewakili pemetaan identiti dalam rangkaian sisa, \(F(x,{W_i})\) mewakili pemetaan sisa untuk dipelajari, dan output modul sisa yang menggunakan lilitan berjajak 1D boleh dinyatakan sebagai:
\[\begin{equation*} y=F(x,{W_{1\times3},W_{3\times1}})+I_{x}, \tag{2} \end{equation*}\] |
di mana \(W_{1\times3}\) and \(W_{3\times1}\) mewakili berat 1\(\times\)3 dan 3\(\times\)1 lilitan langkah, masing-masing.
Rajah 2 Struktur modul Non-bottleneck-1D dan PCSD convolution dibandingkan. (a) Non-bottleneck-1D. (b) blok PCSD |
Modul lilitan PCSD yang dicadangkan dalam kertas ini menggunakan modul lilitan Non-bottleneck-1D sebagai cawangan pengekodan ciri tempatan. Ia menumpukan pada maklumat ciri tempatan dalam medan penerimaan dan menambahkan penormalan BN pada kernel lilitan kedua dan keempat untuk mengurangkan pengiraan dan mengelakkan overfitting. Cawangan oren dalam Rajah 2 (b) menggambarkan modul ini. Di samping itu, tiga cawangan pengekodan konteks sekitar direka bentuk berdasarkan modul konvolusi PCSD. Cawangan ini menggunakan lilitan dilation (DConv) dengan saiz kernel 3\(\times\)3, 5\(\times\)5 dan 7\(\times\)7 dan kadar pelebaran 2 untuk mengekodkan ciri konteks sekeliling sasaran daripada tiga perspektif berbeza. Ini meningkatkan pembelajaran butiran spatial dan meningkatkan medan penerimaan model rangkaian.
Konvolusi diluaskan ialah teknik untuk meningkatkan medan penerimaan yang berkesan bagi rangkaian saraf konvolusi dengan memasukkan jurang antara unsur-unsur kernel. Ini membolehkan rangkaian menangkap lebih banyak maklumat kontekstual daripada peta ciri input. Keluaran operasi lilitan diluaskan boleh ditakrifkan seperti berikut:
\[\begin{equation*} {D=\sum_{h=1}^H\sum_{w=1}^W x\big(i+ar\times h,j+ar\times w\big)\times W_d,} \tag{3} \end{equation*}\] |
\(H\) and \(W\) mewakili ketinggian dan lebar imej input, \(x(i,j)\) menandakan \((i,j)\) nilai ciri pada imej, ar mewakili kadar dilation, dan kadar dilation yang digunakan oleh PCSD untuk convolution dilation ialah 2. \(D\) mewakili hasil keluaran lilitan dilation, dan \({W_{d}} \in {\Re ^{C \times {d^h} \times {d^v} \times F}}\) mewakili berat lilitan dilation. Selepas mendapatkan peta ciri daripada tiga cawangan pengekodan konteks sekeliling, ia digabungkan di sepanjang dimensi saluran:
\[\begin{equation*} P=\sigma(y+F_{1\times 1}(Z_{\mathrm{c}})), \tag{4} \end{equation*}\] |
di mana \(\sigma\) ialah fungsi pengaktifan ReLU, fungsi \(F_{1\times1}\) menggunakan lilitan dengan kernel 1x1. \(Z_{c}\) adalah hasil penggabungan peta ciri daripada tiga cabang lilitan yang diluaskan.
Perbandingan cawangan terperinci sebelum dan selepas pembinaan semula dibentangkan dalam Jadual 2, di mana objek rujukan adalah cawangan terperinci rangkaian BiSeNet v2, dan Conv2d mewakili 3 konvensional.\(\times\)3 lilitan. Cawangan terperinci yang dibina semula telah menjajarkan nombor saluran keluaran dan modul konvolusi dengan cawangan terperinci BiSeNet v2, iaitu (64:64:128) dan (2:3:3), masing-masing. Untuk meningkatkan cawangan terperinci, strategi telah digunakan di mana modul konvolusi PCSD menggantikan modul konvolusi konvensional kedua dalam setiap peringkat cawangan terperinci asal. Cawangan terperinci yang dibina semula mencapai ketepatan mIoU sebanyak 63.98%, iaitu 4.62% lebih tinggi daripada ketepatan mIoU cawangan terperinci asal sebanyak 59.36%. Selain itu, saiz model hanya meningkat sedikit sebanyak 0.18M, memberikan bukti lanjut tentang keberkesanan pembinaan semula cawangan terperinci.
Pada penghujung percubaan, keuntungan ketepatan yang dibawa oleh setiap cawangan pengekodan konteks disiasat, dan gabungan pautan tunggal, pautan dwi dan lilitan dikembangkan tiga pautan terakhir dengan cawangan pengekodan ciri tempatan dibincangkan. Perbandingan percubaan pada set data Cityscapes dijalankan. Selain itu, eksperimen membandingkan ketepatan modul konvolusi PCSD dengan 3 konvensional\(\times\)3 konvolusi [8], modul konvolusi MSCA [18], modul konvolusi CCA [19], dan modul konvolusi CG [16] dilakukan. Perbandingan ini mengesahkan bahawa modul konvolusi PCSD mempamerkan ketepatan tinggi dan prestasi unggul.
3.2 Pembinaan Cawangan Semantik
Cabang semantik menggunakan kaedah pengekstrakan semantik klasifikasi peringkat dalam dengan saluran sempit untuk menangkap semantik yang lebih mendalam dan lebih maju. Oleh kerana cawangan terperinci hadir, cawangan semantik tidak memerlukan penggunaan saluran yang berlebihan atau pensampelan bawah kompleks untuk pengekstrakan ciri dalam lapisan cetek untuk mengelakkan pengiraan model meningkat. Sebaliknya, ia memberi tumpuan semata-mata pada ciri peringkat dalam dan peringkat tinggi. Kapasiti saluran bagi setiap peringkat cabang semantik ialah (16:32:96:128:128). Peringkat cetek resolusi tinggi menggunakan kapasiti saluran yang lebih rendah untuk pengekodan ciri awal, dan lebih banyak sumber saluran diperuntukkan untuk mempelajari ciri semantik peringkat dalam resolusi rendah.
Cawangan terperinci bertujuan untuk mengurangkan kehilangan ciri semasa pensampelan rendah, manakala cabang semantik memfokuskan pada ciri semantik yang lebih mendalam. Untuk mengurangkan kos pengiraan semasa pensampelan turun, cabang semantik menggunakan konvolusi boleh dipisahkan secara mendalam [14] dan bukannya 3 konvensional.\(\times\)3 lilitan digunakan dalam cawangan terperinci. Konvolusi boleh dipisahkan secara mendalam menguraikan lilitan piawai kepada lilitan mendalam untuk penapisan dan 1\(\times\)1 lilitan arah mata untuk gabungan. Dalam cabang semantik, sebagai contoh, konvolusi pensampelan rendah mempunyai langkah 2, padding imej 1, dan saiz kernel 3. Apabila peta ciri input \(T\) mempunyai panjang, lebar dan saiz saluran input sebanyak \(D_i \times D_i \times M\) dan peta ciri keluaran \(G\) mempunyai panjang, lebar dan saiz saluran keluaran sasaran sebanyak \(D_o \times D_o \times N\), dan peta ciri output \(G\) mempunyai panjang, lebar dan saiz saluran keluaran sasaran sebanyak \(D_o \times D_o \times N\), kos pengiraan lilitan biasa ialah \(C_n\):
\[\begin{equation*} C_n=D_o^2\cdot{D_k}^2\cdot M\cdot N, \tag{5} \end{equation*}\] |
di mana \(D_k\) ialah saiz kernel. Manakala untuk lilitan boleh dipisahkan secara mendalam, kos pengiraan \(C_d\) ialah:
\[\begin{equation*} C_d=D_o^2\cdot D_k^2\cdot M+D_o^2\cdot N\cdot M, \tag{6} \end{equation*}\] |
kos pengiraan lilitan boleh dipisahkan secara mendalam adalah bersamaan dengan lilitan piawai:
\[\begin{equation*} \frac{{D_{o}}^{2}\cdot{D_{k}}^{2}\cdot M+{D_{o}}^{2}\cdot N\cdot M,}{{D_{o}}^{2}\cdot{D_{k}}^{2}\cdot M\cdot N,}=\frac{1}{N}+\frac{1}{{D_{k}}^{2}},\quad \tag{7} \end{equation*}\] |
Konvolusi yang boleh dipisahkan secara mendalam yang digunakan dalam pensampelan rendah cawangan semantik mempunyai saiz kernel 3, yang mengurangkan kos pengiraan sebanyak 8 hingga 9 kali berbanding dengan lilitan standard yang digunakan dalam BiSeNet v2.
Struktur modul konvolusi yang digunakan oleh cabang semantik untuk pengekstrakan maklumat semantik dibandingkan dalam Rajah 3. \(d_n \times n\) mewakili lilitan piawai dengan saiz kernel n, DS mewakili lilitan boleh dipisahkan secara mendalam, dan C ialah bilangan saluran dalam peta ciri. Dalam setiap peringkat cabang semantik, selepas pensampelan rendah, modul ConvNeXt convolution [9] digunakan untuk menjana maklumat semantik kontekstual yang padat. Modul ini terdiri daripada lilitan sisa kesesakan terbalik dengan satu 7\(\times\)7 dan dua 1\(\times\)1 biji lilitan dan mengatasi lilitan konvensional [9]. Untuk menyusun semula cabang semantik asal BiSeNet v2, kertas kerja ini menggabungkan modul konvolusi ConvNeXt yang mudah dan cekap dengan konvolusi boleh dipisahkan secara mendalam.
Rajah 3 Gambar rajah skema struktur modul lilitan GE dan ConvNeXt. (a) Blok GE BiSeNet v2. (b) blok ConvNeXt |
Jadual 3 menyediakan perbandingan parameter sebelum dan selepas pembinaan semula cabang semantik asal dalam BiSeNet v2. Pada setiap peringkat, lilitan boleh dipisahkan secara mendalam (DSConv) digunakan untuk pensampelan rendah, diikuti dengan pengekodan ciri semantik padat menggunakan konvolusi Blok ConvNeXt. Bilangan lilitan untuk ConvNeXt dalam setiap peringkat ialah (3:3:9:6:3) selepas mengimbangi antara ketepatan dan prestasi model. Pembinaan semula cabang semantik yang dicadangkan mencapai peningkatan 2.94% dalam ketepatan mIoU berbanding cabang semantik asal BiSeNet v2 pada dataset Cityscapes sambil meningkatkan parameter model sebanyak 0.44M sahaja. Percubaan ini mengesahkan keberkesanan pembinaan semula cabang semantik yang dicadangkan dalam BiSeNet v2.
3.3 Pengoptimuman Lapisan Pengagregatan Dua Hala
Perwakilan ciri bagi cawangan dua hala adalah saling melengkapi, dengan setiap cawangan tidak mengetahui maklumat yang lain, dan output kedua-dua cawangan mempunyai tahap perwakilan ciri yang berbeza. Oleh itu, lapisan pengagregatan bertujuan untuk menggabungkan kedua-dua jenis perwakilan ciri ini. Algoritma BiSeNet v2 mereka bentuk lapisan Pengagregatan Berpandu Dua Hala (BGA), yang mencapai prestasi yang baik. Kertas ini membuat pelarasan kecil pada lapisan pengagregatan berdasarkan BGA. Rajah 4 menunjukkan pengubahsuaian yang dibuat pada lapisan BGA. Bahagian merah menunjukkan bahagian yang dipadam berdasarkan BGA, manakala bahagian hijau menunjukkan bahagian yang ditambah dan diubah suai berdasarkannya. Teks hitam kekal konsisten dengan BGA asal. Struktur asal BGA menggunakan ciri-ciri cawangan semantik untuk mengaktifkan fungsi sigmoid untuk memenuhi ciri-ciri cawangan terperinci. Pendekatan yang dicadangkan menggunakan fungsi pengaktifan sigmoid pada hasil pensampelan naik dan turun kedua-dua cawangan sebelum mendarabkannya piksel dengan piksel untuk memulihkan saiz asal peta ciri. Selain itu, peta ciri saiz asal cawangan terperinci, yang sebelum ini diproses oleh lilitan boleh dipisahkan secara mendalam, kini diproses oleh 3 konvensional\(\times\)3 lilitan untuk mengurangkan kesan pada ciri perincian asal. Lapisan pengagregatan yang dipertingkatkan mencapai peningkatan 1.83% dalam ketepatan mIoU berbanding modul BGA asal, dan bilangan parameter kekal tidak berubah.
4. Kajian Eksperimen
Dalam bahagian ini, set data dan butiran pelaksanaan pertama kali diperkenalkan. Seterusnya, kesan setiap cawangan pengekodan konteks sekeliling dalam modul konvolusi PCSD terhadap ketepatan dikaji lebih lanjut, dan kebolehpercayaan dan kebolehlaksanaan PCSD yang dicadangkan disahkan dengan perbandingan dengan modul konvolusi yang biasa digunakan. Kemudian, melalui eksperimen ablasi keseluruhan, kami menunjukkan kesan setiap komponen cawangan semantik yang dicadangkan, cawangan terperinci dan kaedah penambahbaikan lapisan pengagregatan kami terhadap ketepatan set pengesahan Cityscapes. Akhir sekali, kami melaporkan ketepatan akhir berbanding dengan algoritma lain untuk mengesahkan kemajuan BiConvNet yang dicadangkan dan keberkesanan penambahbaikan pada BiSeNet v2.
4.1 Set Data dan Persekitaran Eksperimen
Dataset Cityscapes memfokuskan pada pemahaman semantik pemandangan jalan bandar dari perspektif kereta dan mengandungi satu set imej resolusi tinggi dari 50 bandar berbeza di Eropah. Set data dibahagikan kepada set latihan, set pengesahan dan set ujian, masing-masing dengan 2,975, 500 dan 1,525 imej. Dalam percubaan kami, kami hanya menggunakan imej beranotasi halus untuk mengesahkan keberkesanan kaedah yang dicadangkan kami, yang merangkumi 19 kelas pembahagian untuk tugas pembahagian semantik. Dataset pembahagian imej BDD100K ialah set data video pemanduan berskala besar dan pelbagai yang direka untuk penyelidikan pemanduan autonomi. Set data pembahagian imej ini termasuk 10,000 bingkai imej, meliputi pelbagai keadaan cuaca, masa dan lokasi geografi. Setiap imej diberi penjelasan halus pada tahap piksel, termasuk 19 kategori utama seperti penanda lorong, tanda lalu lintas, pejalan kaki dan kenderaan. Antara imej ini, 7,000 digunakan untuk latihan, 1,000 untuk pengesahan dan 2,000 untuk ujian. Saiz kelompok semasa latihan ialah 2, dan saiz imej input sebenar ialah (512\(\times\)512\(\times\)3). Turun naik ralat dihapuskan melalui 400 lelaran, dan ketepatan tertinggi yang dicapai semasa proses lelaran dianggap sebagai ketepatan akhir. Metrik ketepatan pembahagian yang digunakan ialah ukuran piawai Purata Persilangan Kesatuan (mIoU). Python dalam PyTorch 1.13 dan rangka kerja MMsegmentasi digunakan untuk eksperimen. Inferens dilakukan menggunakan GPU dengan memori 12GB (NVIDIA GeForce RTX 3060) dan persekitaran CUDA 11.6. Proses pembinaan algoritma menggunakan pengoptimum AdamW [24], dengan pereputan berat 0.05. Diilhamkan oleh MobileNet [14], BiConvNet menggunakan kadar pembelajaran poli, dengan asas 0.045 dan kuasa 1. Dalam penambahan data, BiConvNet menggunakan operasi seperti saiz semula rawak antara 0.5 dan 2, pemangkasan rawak, flip mendatar, peningkatan imej optik , normalisasi, dsb. semasa latihan. Model menggunakan kehilangan entropi silang sebagai kehilangan lapisan kepala semasa latihan, dengan berat kehilangan 1.0.
4.2 Eksperimen Ablasi Modul Konvolusi PCSD
Bahagian ini memperkenalkan eksperimen ablasi modul konvolusi PCSD untuk mengesahkan keberkesanan setiap cawangan pengekodan konteks sekitar PCSD yang dicadangkan. Reka bentuk eksperimen adalah seperti berikut: Non-bottleneck-1D digunakan sebagai cawangan terperinci untuk mengekstrak maklumat butiran spatial di bawah rangka kerja rangkaian BiConvNet yang dibina, dan lilitan diluaskan diperkenalkan secara beransur-ansur. Sebagai contoh, kumpulan eksperimen 0 dalam Jadual 4 menunjukkan bahawa hanya modul lilitan Non-bottleneck-1D digunakan dalam cawangan terperinci rangkaian BiConvNet yang dicadangkan. Kumpulan eksperimen 1 mewakili pengembangan saiz kernel lilitan diluaskan di sekeliling cawangan pengekodan konteks berdasarkan modul lilitan Non-bottleneck-1D, dengan saiz 3\(\times\)3 dan selang 1. Kumpulan eksperimen 4 mewakili memperkenalkan dua konvolusi diluaskan mengelilingi cawangan pengekodan konteks dengan saiz kernel 3\(\times\)3 dan 5\(\times\)5 dan selang 1, masing-masing, berdasarkan modul lilitan Non-bottleneck-1D. Akhir sekali, kumpulan eksperimen 7 ialah modul konvolusi PCSD yang terdiri daripada tiga jenis konvolusi diluaskan dan modul Konvolusi Non-bottleneck-1D. Eksperimen ini bertujuan untuk menunjukkan keberkesanan setiap cawangan pengekodan konteks sekeliling modul konvolusi PCSD yang dicadangkan.
Berdasarkan eksperimen, adalah jelas bahawa hanya menggunakan konvolusi padat tempatan untuk mengekstrak ciri butiran spatial tidak mencukupi, dan pengekodan maklumat kontekstual di sekeliling menyumbang secara positif kepada ketepatan akhir. Dari segi menggunakan hanya satu cawangan pengekodan konteks digabungkan dengan Non-bottleNeck-1D, 3 yang lebih kecil\(\times\)3 lilitan diluaskan dengan medan penerimaan yang lebih kecil mempunyai ketepatan yang lebih tinggi. Walau bagaimanapun, dalam kes menggunakan dua cawangan pengekodan konteks, gabungan belitan diluaskan 5x5 dan 7x7 mempunyai ketepatan yang lebih tinggi. Modul konvolusi PCSD menggabungkan tiga konvolusi diluaskan ini dengan medan penerimaan yang berbeza untuk mengekod maklumat kontekstual di sekeliling, dan mencapai ketepatan tertinggi, yang mengesahkan kebolehpercayaan dan kebolehlaksanaan modul konvolusi PCSD yang dicadangkan.
4.3 Eksperimen Perbandingan Modul Konvolusi
Inspirasi reka bentuk untuk modul konvolusi PCSD datang daripada pelbagai modul konvolusi lain, seperti 3 biasa\(\times\)3 konvolusi [8], Non-bottleneck-1d [17], MSCA [18], CCA [19] dan CG [16]. Bahagian ini membandingkan prestasi modul konvolusi PCSD dengan modul konvolusi lain apabila digunakan dalam cawangan terperinci BiConvNet pada set pengesahan Cityscapes. Eksperimen dijalankan dengan menggantikan modul konvolusi pengekodan butiran spatial dalam cawangan terperinci BiConvNet dengan modul konvolusi yang disebutkan di atas, dan prestasinya dibandingkan.
Keputusan eksperimen yang dibentangkan dalam Jadual 5 menunjukkan bahawa berbanding dengan 3 konvensional\(\times\)3 lilitan, skim penambahbaikan seperti lilitan jalur Non-bottleneck-1D dan lilitan silang CCA adalah berkesan. Walaupun Non-bottleneck-1D mempunyai peningkatan ketepatan yang terhad berbanding dengan konvolusi Conv2d konvensional, dan masih terdapat jurang yang ketara berbanding dengan tiga modul konvolusi yang lain. Walau bagaimanapun, modul lilitan PCSD yang dicadangkan dalam kertas ini, yang menggabungkan lilitan jalur dan lilitan diluaskan berdasarkan Non-bottleneck-1D, mencapai peningkatan ketepatan 8.09%, ia mengekalkan ketepatan tertinggi dalam pembahagian merentas semua kategori. Ini sekali lagi mengesahkan bahawa lilitan jalur adalah lebih cekap daripada lilitan konvensional, dan pengekodan maklumat kontekstual di sekeliling memainkan peranan penting dalam mengekalkan maklumat terperinci spatial. Ia juga menunjukkan ketepatan tinggi dan sifat lanjutan modul konvolusi PCSD yang dicadangkan.
4.4 Eksperimen Ablasi Rangkaian BiConvNet
Dalam bahagian ini, kami membentangkan eksperimen ablasi untuk mengesahkan keberkesanan setiap komponen algoritma BiConvNet kami yang dicadangkan. Pelan percubaan adalah untuk menambah baik cawangan terperinci, cawangan semantik dan lapisan pengagregatan BiSeNet v2, yang berfungsi sebagai model rujukan, sehingga ia menjadi rangkaian BiConvNet yang dicadangkan dalam kertas kerja ini. Seperti yang ditunjukkan dalam Jadual 6, "Baseline" mewakili butiran asal dan cawangan semantik dalam algoritma BiSeNet v2, "BGA" mewakili pengagregatan berpandu dua hala yang dicadangkan dalam BiSeNet v2, dan "Diperbaiki" mewakili skim penambahbaikan dan pembinaan semula cawangan terperinci , cabang semantik dan lapisan pengagregatan yang dicadangkan dalam kertas ini.
Keputusan menunjukkan bahawa menggantikan konvolusi Conv2d biasa dalam BiSeNetv2 dengan modul konvolusi PCSD membawa kepada peningkatan kiraan parameter hanya 0.18M tetapi peningkatan ketepatan sebanyak 4.62% (Kumpulan Eksperimen 2). Peningkatan lagi dalam ketepatan sebanyak 2.94% dicapai dengan menambah baik laluan semantik menggunakan ConvNeXt dan konvolusi boleh dipisahkan secara mendalam (Kumpulan Eksperimen 3) dengan sedikit peningkatan kiraan parameter hanya 0.44M. Selepas memperhalusi lapisan pengagregatan BGA (Kumpulan Eksperimen 4), ketepatan akhir rangkaian BiConvNet meningkat sebanyak 9.39 mata peratusan berbanding BiSeNet v2, mencapai 68.75%, dengan hanya sedikit peningkatan kiraan parameter, yang memenuhi prinsip reka bentuk ringan. . Eksperimen ablasi ini mengesahkan kepentingan laluan perincian PCSD yang dicadangkan, laluan semantik yang terdiri daripada konvolusi boleh dipisahkan secara mendalam dan modul konvolusi ConvNeXt, dan penalaan halus lapisan pengagregatan BGA dalam algoritma BiConvNet. Seperti yang ditunjukkan dalam Rajah 5, BiConvNet mempunyai peningkatan yang hebat pada pengekalan butiran tepi berbanding dengan BiSeNet v2, dan hasil yang dipertingkatkan adalah lebih baik.
4.5 Eksperimen Perbandingan Algoritma
Bahagian ini memperkenalkan percubaan yang dijalankan untuk membandingkan ketepatan BiConvNet dengan algoritma pembahagian imej berbilang cawangan lain, serta algoritma pembahagian imej konvolusi tulen biasa dan beberapa algoritma pembahagian imej berasaskan pengubah, pada set data Cityscapes dan BDD100K. Algoritma yang berbeza mungkin mencapai ketepatan tinggi dalam kertas asal masing-masing kerana pengarangnya menggabungkan lapisan rangkaian tambahan dan strategi latihan yang lebih maju. Artikel ini tertumpu terutamanya pada membandingkan rangkaian tulang belakang, menonjolkan keunggulan rangkaian tulang belakang yang berbeza. Tujuan eksperimen adalah untuk menilai ketepatan rangka kerja algoritma yang berbeza di bawah keadaan dan parameter percubaan yang sama, sambil juga membandingkan parameter model mereka. Menurut Jadual 7, keputusan eksperimen menunjukkan bahawa BiSeNet v2 mempunyai ketepatan 59.36%, iaitu 5.35% lebih tinggi daripada rangkaian pembahagian imej cawangan dua hala yang serupa, Fast-Scnn [22]. Walau bagaimanapun, algoritma pembahagian imej cawangan dua hala seperti BiSeNet v2 dan Fast-Scnn biasanya mempunyai keupayaan pembahagian jalan bandar yang lebih lemah berbanding dengan algoritma rangkaian cawangan tunggal biasa seperti ConvNeXt [9], SegNeXt [18], Segformer [25], CGNet [16] , dan STDC [25]. Walau bagaimanapun, kertas kerja ini, menggunakan algoritma BiConvNet yang dicadangkan berdasarkan BiSeNetv2, mengekalkan kedudukan pertama dalam majoriti ketepatan IoU pada set data Cityscapes. Selain itu, dengan mencapai mIoU sebanyak 68.75%, ini mengesahkan keberkesanan dan prestasi lanjutan algoritma pembahagian imej cawangan dua hala BiConvNet. Daripada Jadual 8, dapat diperhatikan bahawa algoritma BiConvNet yang dicadangkan juga mengatasi prestasi algoritma seperti BiSeNet v2, Fast-Scnn, dan Segformer dari segi ketepatan pada set data BDD100K.
5. Kesimpulan
Projek ini bertujuan untuk meningkatkan prestasi algoritma pembahagian imej cawangan dua hala BiSeNet v2 dan mencadangkan model segmentasi semantik masa nyata baru yang dipanggil BiConvNet. Pendekatan ini menggabungkan kekuatan lilitan jalur dan lilitan diluaskan untuk mencipta modul lilitan Pixel-Contextual Similarity Dilated (PCSD), yang direka bentuk untuk menangkap butiran spatial tempatan dan maklumat kontekstual di sekeliling dalam cawangan terperinci model. Meneroka sumbangan lilitan diluaskan dan lilitan jalur kepada ketepatan pembahagian imej, dan membandingkannya dengan lilitan biasa, mengesahkan keunggulan modul lilitan PCSD.
Untuk meningkatkan lagi keupayaan model untuk mengekstrak maklumat semantik peringkat tinggi, cabang semantik dibina semula menggunakan konvolusi boleh dipisahkan secara mendalam dan modul konvolusi ConvNeXt. Konvolusi boleh dipisahkan secara mendalam membantu mengurangkan bilangan parameter model, menjadikannya lebih cekap dari segi pengiraan, manakala modul ConvNeXt convolution membantu meningkatkan perwakilan ciri dengan mengeksploitasi saling bergantung antara saluran. Akhir sekali, kami memperhalusi lapisan pengagregatan BGA BiSeNet v2 untuk mencapai peningkatan ketepatan tambahan.
Keberkesanan modul konvolusi PCSD yang dicadangkan dan skema peningkatan keseluruhan BiSeNet v2 disahkan melalui eksperimen ablasi dan eksperimen perbandingan, menunjukkan sifat lanjutan BiConvNet. Khususnya, eksperimen kami menunjukkan bahawa ketepatan BiConvNet jauh lebih tinggi daripada BiSeNet v2 dan Fast-Scnn, dua rangkaian pembahagian imej dwi-cawangan yang serupa. Percubaan juga mengesahkan penambahbaikan yang diperkenalkan oleh cawangan perincian yang dicadangkan, cawangan semantik dan lapisan pengagregatan, membawa keuntungan ketepatan yang besar dalam pembahagian imej merentas semua kategori dalam set data Cityscapes.
Kerja masa depan termasuk menyiasat lebih lanjut fungsi cawangan terperinci dan semantik, dengan matlamat untuk meningkatkan keupayaan mereka untuk mengekstrak maklumat terperinci spatial dan maklumat semantik yang mendalam di bawah reka bentuk yang berbeza. Selain itu, tugasan pembelajaran mendalam berbilang tugas seperti anggaran kedalaman imej akan diperkenalkan untuk meluaskan skop kebolehgunaan model kepada masalah dunia sebenar dalam bidang pemanduan autonomi.
Rujukan
[1] S. Grewal and C. Rama Krishna, “Dimensionality reduction for face recognition using principal component analysis based big bang big crunch optimization algorithm,” 2nd International Conference on Electrical and Electronics Engineering, pp.949-955, Jan 2021.
CrossRef
[2] K. He, F. Wen, and J. Sun, “K-Means Hashing: An Affinity-Preserving Quantization Method for Learning Binary Compact Codes,” 26th IEEE Conference on Computer Vision and Pattern Recognition, pp.2938-2945, June 2013.
CrossRef
[3] K.H. Memon, S. Memon, M.A. Qureshi, M.B. Alvi, D. Kumar, and R.A. Shah, “Kernel Possibilistic Fuzzy c-Means Clustering with Local Information for Image Segmentation,” International Journal of Fuzzy Systems, vol.21, no.1, pp.321-332, 2018.
CrossRef
[4] E. Shelhamer, J. Long, and T. Darrell, “Fully Convolutional Networks for Semantic Segmentation,” IEEE Trans. Pattern Anal. Mach. Intell., vol.39, no.4, pp.640-651, 2015.
CrossRef
[5] Z.G. Wu and Y. Z, “SWformer-VO: A monocular visual odometry model based on swin transformer,” IEEE Robot. Autom. Lett., vol.9, no.5, pp.4766-4773, 2024.
[6] J. Fu, J. Liu, H. Tian, Y. Li, Y. Bao, Z. Fang, and H. Lu, “Dual attention network for scene segmentation,” Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp.3141-3149, June 2019.
[7] M. Yin, Z. Yao, Y. Cao, X. Li, Z. Zhang, S. Lin, and H. Hu, “Disentangled Non-local Neural Networks,” 16th European Conference on Computer Vision, pp.191-207, Aug. 2020.
CrossRef
[8] C. Yu, C. Gao, J. Wang, G. Yu, C. Shen, and N. Sang, “BiSeNet V2: Bilateral Network with Guided Aggregation for Real-Time Semantic Segmentation,” International Journal of Computer Vision, vol.128, no.11, pp.3051-3068, 2021.
CrossRef
[9] Z. Liu, H. Mao, C.-Y. Wu, C. Feichtenhofer, T. Darrell, and S. Xie, “A ConvNet for the 2020s,” IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.11966-11976, June 2022.
CrossRef
[10] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele, “The Cityscapes dataset for semantic urban scene understanding,” 29th IEEE Conference on Computer Vision and Pattern Recognition, pp.3213-3223, June 2016.
CrossRef
[11] F. Yu, H. Chen, X. Wang, W. Xian, Y. Chen, F. Liu, V. Madhavan, and T. Darrell, “Bdd100k: A diverse driving dataset for heterogeneous multitask learning,” Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.2636-2645, 2020.
[12] F. Chollet, “Xception: Deep learning with depthwise separable convolutions,” 30th IEEE Conference on Computer Vision and Pattern Recognition, pp.1800-1807, July 2017.
CrossRef
[13] X. Zhang, X. Zhou, M. Lin, and J. Sun, “ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices,” 31st Meeting of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.6848-6856, June 2018.
CrossRef
[14] A.G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, “MobileNets: Efficient convolutional neural networks for mobile vision applications,” arXiv: 1074.04861, https://arxiv.org/abs/1704.04861, April 2017.
[15] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.-C. Chen, “MobileNetV2: Inverted Residuals and Linear Bottlenecks,” Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp.4510-4520, Dec. 2018.
CrossRef
[16] T. Wu, “CGNet: A light-weight context guided network for semantic segmentation,” IEEE Trans. Image Process., vol.30, no.1, pp.1169-1179, 2018.
[17] E. Romera, J.M. Alvarez, L.M. Bergasa, and R. Arroyo, “ERFNet: Efficient Residual Factorized ConvNet for Real-Time Semantic Segmentation,” IEEE Trans. Intell. Transp. Syst., vol.19, no.1, pp.263-272, 2018.
CrossRef
[18] MengHao G, ChengZe L, et al., “SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation,” arXiv. doi:10.48550/arXiv.2209.08575. (preprint)
CrossRef
[19] Z. Huang, X. Wang, L. Huang, C. Huang, Y. Wei, and W. Liu, “CCNet: Criss-Cross Attention for Semantic Segmentation,” IEEE/CVF International Conference on Computer Vision, pp.603-612, Oct. 2019.
CrossRef
[20] R.K. Poudel, B. Ujwal, et al., “ContextNet: Exploring context and detail for semantic segmentation in real-time,” British Machine Vision Conference, pp.1-12, Sept. 2018.
[21] Zhao H, Qi X, et al., “ICNet for Real-Time Semantic Segmentation on High-Resolution Images,” 15th European Conference on Computer Vision, pp.418-434, Sept. 2018.
CrossRef
[22] R.K. Poudel, L. Stephan, et al., “Fast-SCNN: Fast semantic segmentation network,” 30th British Machine Vision Conference, pp.1-9, Sept. 2019.
[23] J. Alvarez and L. Petersson, “DecomposeMe: Simplifying ConvNets for end-to-end learning, arXiv:1606.05426, 2016. https://arxiv.org/abs/1606.05426, June 2016.
[24] I. Loshchilov and F. Hutter, “Decoupled weight decay regularization,” arXiv:1711.05101, https://arxiv.org/abs/1711.05101, Jan. 2019.
[25] E. Xie, W. WenHai, et al., “SegFormer: Simple and efficient design for semantic segmentation with transformers,” 35th Conference on Neural Information Processing Systems, pp.12077-12090, Dec. 2021.
[26] M. Fan, S. Lai, J. Huang, X. Wei, Z. Chai, J. Luo, and X. Wei, “Rethinking BiSeNet For Real-Time Semantic Segmentation,” IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.9711-9720, April 2021.
CrossRef