1. Pengenalan
Dalam bidang bioperubatan [1], monyet adalah objek eksperimen yang penting, dan kita perlu memerhatikan tindakan monyet sebelum dan selepas mengambil dadah untuk menilai kesannya. Bagi monyet pula, kekerapan hayunan kepala adalah salah satu faktor terpenting. Oleh itu, mengira bilangan kali monyet menghayunkan kepala adalah sangat penting untuk menilai tingkah laku monyet yang tidak normal selepas mengambil dadah. Pengiraan hayunan kepala yang tepat ialah penunjuk penting untuk mengesahkan keputusan eksperimen. Dahulu, bilangan hayunan kepala monyet biasanya dikira secara manual. Kaedah ini sangat tepat, tetapi apabila panjang video sangat panjang atau terdapat banyak video, ia perlu mengambil masa yang hampir sama dengan tempoh video. Selain itu, pengiraan manual menggunakan banyak tenaga kerja. Memandangkan percanggahan ini, makalah ini berharap untuk mencadangkan satu kaedah berdasarkan pembelajaran mendalam, yang secara automatik dapat mengesan monyet dalam video, mencari mereka, dan kemudian mengira bilangan kali monyet menghayunkan kepala mereka dalam video [2].
Dalam tahun-tahun kebelakangan ini, sebagai salah satu daripada tiga tugas utama penglihatan komputer, pengesanan objek telah berkembang dengan pesat, dan sejumlah besar karya cemerlang telah muncul, seperti R-CNN [3], SSD [4], R-CNN Lebih pantas [ 5] dan YOLO [6]. R-CNN menggunakan dua bahagian, satu mengekstrak kira-kira 2000 wilayah melalui modul RPN, satu lagi menilai sama ada kawasan ini mengandungi sasaran melalui pengelas. YOLO dan SSD mengeluarkan semua maklumat melalui rangkaian, termasuk bingkai sasaran dan kebarangkalian sasaran tersebut tergolong dalam kategori yang berbeza. Hasil pengesanan algoritma R-CNN adalah lebih tepat, tetapi proses latihan membawa kepada kerumitan latihan yang lebih tinggi. Algoritma YOLO cukup mudah dan mempunyai kos latihan yang rendah, yang digemari oleh industri, tetapi ketepatan pengesanan adalah lebih rendah daripada R-CNN. Memandangkan keperluan aplikasi projek ini, kami terutamanya menggunakan YOLO sebagai algoritma pengesanan.
Dalam Surat ini, algoritma pengiraan ayunan monyet dilaksanakan dengan memanjangkan YOLO. Memandangkan projek ini hanya mengira bilangan kali monyet menggelengkan kepala mereka, kami melatih model dengan satu set gambar monyet dengan kepala berlabel. Pertama, kepala monyet dikesan oleh YOLO, dan koordinat kotak sempadan diperolehi [6]. Kemudian, mengikut kotak sempadan kepala monyet, kita mendapat kedudukan kepala monyet dalam gambar. Melalui eksperimen berterusan, kita mendapat faktor yang mempengaruhi bilangan ayunan. Akhirnya, kami memperoleh asas untuk menilai hayunan kepala monyet dan parameter untuk menggambarkan hayunan kepala monyet dengan tepat. Sumbangan utama kerja kami adalah seperti berikut: Pertama, kami menggabungkan pengesanan sasaran dengan pengecaman tindakan biologi untuk merealisasikan pengiraan hayunan kepala monyet. Kedua, kami meneroka pergerakan monyet dalam hayunan kepala mereka untuk mengemukakan piawaian tingkah laku untuk menggambarkan hayunan kepala monyet dengan tepat. Ketiga, kerja kami boleh diperluaskan ke medan pengecaman tindakan biometrik yang lain.
Baki Surat ini disusun seperti berikut. Bahagian 2 menerangkan algoritma berkaitan pengiraan hayunan monyet. Bahagian 3 terutamanya memperkenalkan kaedah pengiraan hayunan monyet. Bahagian 4 menunjukkan keputusan eksperimen. Bahagian 5 menyimpulkan keseluruhan Surat.
2. Kerja Berkaitan
2.1 Algoritma Pengesanan Monyet
Sejak 2020, banyak pasukan telah menumpukan perhatian untuk bekerja pada pengesanan monyet [1]. Strategi itu hanya digunakan dalam pertanian pada masa itu memandangkan persimpangan akademik tidak begitu hebat. Walaupun pasukan telah mula menggunakan pembelajaran mendalam untuk mengenal pasti monyet, penggunaannya masih terhad kepada itu sahaja dan tidak menyelidiki secara mendalam perihalan tindakan sasaran. Pengiktirafan perkara utama manusia telah berkembang bersama dengan pembelajaran mendalam, dan beberapa penyelidik telah menerima pakai pengesanan titik utama kepada monyet [7]-[11]. Melalui pengesanan titik utama monyet, kami telah dapat menangkap pergerakan monyet, tetapi masih tiada penunjuk kuantitatif yang tepat. Perlu diingat bahawa [16] mengenal pasti 14 tindakan monyet yang berbeza, yang mencapai prestasi penjejakan monyet yang hebat. Berbeza, kerja kami tertumpu pada hayunan kepala monyet dan seterusnya menjangkau kepada mengira hayunan monyet dalam pemandangan yang lebih sukar. Dalam Surat ini, kami menggabungkan pengesanan monyet dan morfologi, dan memberikan asas untuk menerangkan hayunan kepala monyet dengan tepat.
2.2 Algoritma Pengesanan Objek
Sebagai salah satu daripada tiga tugas utama dalam pembelajaran mendalam, pengesanan objek sentiasa menarik perhatian ramai. Dengan kemunculan ResNet [12], pembelajaran mendalam telah berkembang dengan pesat. Kami mula-mula mempertimbangkan model R-CNN [3] yang berfungsi dengan baik dalam pengesanan objek. Model ini masih mempengaruhi dua tugas penting dalam pembelajaran mendalam, pengesanan objek dan segmentasi. Walau bagaimanapun, model perlu dilatih dua kali, yang sangat meningkatkan kerumitan model. Untuk memudahkan lagi kerumitan latihan model, SSD [4] dan YOLO [6] telah keluar satu demi satu. Mereka mendapat semua maklumat termasuk kotak sempadan sasaran dan kebarangkalian sasaran itu tergolong dalam kelas yang berbeza melalui satu model. Disebabkan ketepatan dan kecekapannya yang tinggi, model YOLO [6], [13], [14] telah diiktiraf secara meluas oleh industri, dan berbilang versi telah diperolehi. Dalam beberapa tahun kebelakangan ini, untuk menggambarkan pose manusia, pengesanan titik utama telah menjadi lebih dan lebih popular [15]. Walau bagaimanapun, teknologi berkaitan tidak cukup matang untuk menangani senario kompleks dalam projek ini. Oleh itu, kami akhirnya menggunakan YOLO sebagai algoritma teras.
3. Kaedah
3.1 Pengesanan Monyet
Surat ini menggunakan YOLO untuk mengesan kepala monyet seperti yang ditunjukkan dalam Rajah 1. YOLO ialah algoritma pengesanan sasaran satu peringkat klasik. Ia sangat berbeza daripada R-CNN. R-CNN memerlukan dua langkah dalam latihan. Model mendapat banyak cadangan dalam langkah pertama dan mendapat hasil pengesanan dalam langkah kedua. YOLO, sebaliknya, menggunakan kategori dan kotak sempadan secara keseluruhan untuk regresi. Oleh itu, YOLO lebih mudah daripada R-CNN.
YOLO menggunakan darknet53 sebagai tulang belakang untuk mengekstrak ciri input. DarkNet53 adalah berdasarkan ResNet, yang boleh mengekalkan kecerunan yang stabil berdasarkan bilangan lapisan model boleh diperdalam secara berterusan. Untuk mengurangkan dimensi spatial ciri data dan mempercepatkan proses latihan, YOLO menggunakan ResNet sebagai hambatan untuk mengurangkan bilangan saluran dan mengurangkan beban model. Memandangkan ciri berskala besar lebih kondusif untuk tugas pengesanan sasaran, YOLO ialah model berbilang skala untuk pengesanan berbilang saluran. Ciri peringkat rendah melengkapkan maklumat yang hilang semasa latihan. Model pelbagai skala juga memperkayakan gabungan ciri model dalam latihan.
Sumbangan utama YOLO ialah fungsi kerugian. Model mempertimbangkan kerugian klasifikasi dan kehilangan regresi bersama-sama. YOLO menggunakan fungsi regresi L2 untuk mengira fungsi kehilangan BBox dan menggunakan entropi silang untuk mengira kehilangan klasifikasi, termasuk latar depan dan latar belakang. Ketepatan algoritma pengesanan sasaran menentukan ketepatan pengiraan hayunan kepala monyet.
3.2 Pengiktirafan Buaian Monyet
Situasi ideal projek ini adalah untuk memindahkan standard pengiraan manual terus ke dalam algoritma. Walau bagaimanapun, pertimbangan subjektif manusia selalunya sukar untuk membentuk kriteria algoritma yang berkesan. Ini menambah banyak kesukaran kepada algoritma. Projek ini menggunakan beberapa dimensi berbeza untuk menentukan sama ada monyet itu menghayunkan kepalanya. Kriteria yang paling langsung digunakan oleh manusia apabila menilai sama ada seekor monyet menghayunkan kepalanya ialah kelajuan menghayunkan kepalanya. Hanya apabila kelajuannya cukup pantas, kita boleh menganggapnya sebagai hayunan kepala yang berkesan. Pada masa yang sama, hayunan kepala berlaku dalam tempoh yang kecil, dan hanya masa apabila tindakan itu berlaku cukup singkat boleh kita menganggapnya sebagai hayunan kepala yang berkesan. Di samping itu, untuk mengecualikan gangguan gangguan kecil, kami juga memperkenalkan amplitud sebagai kriteria untuk model. Gambarajah blok skema kami diberikan dalam Rajah 1. Idea utama adalah untuk membandingkan perubahan kedudukan kepala monyet sebelum dan selepas 50 bingkai untuk menentukan sama ada monyet menghayunkan kepalanya.
Oleh itu, kami menggunakan kelajuan, masa, dan jarak sebagai kriteria. Hanya dalam tempoh masa tertentu, hayunan dengan kelajuan yang cukup pantas dan hayunan yang cukup besar boleh dianggap sebagai hayunan yang berkesan.
4. Eksperimen
4.1 Set Data dan Kriteria
Kami mengumpul video aktiviti monyet yang diambil dalam tempoh satu bulan sebagai set data. Kami membahagikan video kepada bingkai dan menapis bingkai dengan tindakan yang berbeza sebanyak mungkin, membentuk set data sebanyak 50,000 gambar dan secara rawak memilih 5,000 daripadanya sebagai data ujian. Kami praproses set data mengikut YOLO. Video yang dikumpul dalam projek itu adalah di rumah monyet tanpa cahaya (untuk mengelakkan gangguan cahaya kepada monyet). Dalam persekitaran yang gelap, kulit dan warna latar belakang monyet sangat serupa, yang meningkatkan kesukaran pengesanan.
Data ujian kami termasuk dua set video. Salah seorang daripadanya dikumpul daripada video aktiviti monyet tempoh hari. Kami menggunakan masa aktiviti harian monyet untuk merakam video 1 minit setiap 10 minit, dan 50 video pada selang waktu yang sama. Satu set lagi dikumpulkan dalam masa tiga hari. Dengan mengambil video 1 minit setiap 10 minit, kami mengambil 320 video pada selang masa yang sama. Set ujian dengan 50 video mengandungi aktiviti monyet yang kerap, manakala set ujian dengan 320 video mengandungi sejumlah besar video monyet dalam fasa senyap. Set data latihan dan ujian terdiri daripada data yang dikumpul daripada tiga monyet. Set latihan terdiri daripada 50,000 imej yang ditangkap daripada seekor monyet, manakala set ujian terdiri daripada 50 video daripada monyet lain dan 320 video daripada monyet yang berbeza.
Untuk meningkatkan ketepatan keputusan kami, kami memperhalusi beberapa penunjuk sebagai parameter hiper. Hiper-parameter ini diperoleh daripada ukuran berasaskan piksel dalam imej. Khususnya, kami menggunakan 'Kelajuan Kepala' dan 'Kelajuan Badan' untuk mewakili halaju hayunan kepala dan badan dalam selang masa tertentu. Selain itu, kami menggunakan 'Jarak' dan 'Masa' sebagai ambang untuk menentukan jarak piksel dan tempoh hayunan, masing-masing, untuk pengenalpastian tepat kejadian hayunan monyet.
Kami telah mereka bentuk algoritma untuk mengira ketepatan pengiraan algoritma. Jumlah hayunan kepala sebenar ialah \(m\), dan kiraan algoritma ialah \(n\). Jika \(\vert m-n\vert \leq2\), ia dianggap sebagai kiraan yang tepat, dan jika melebihi 2, ia dianggap sebagai kiraan ralat. Untuk video dengan hayunan kepala dalam masa 12 kali, \(\vert m-n\vert -2\leq10\) (bilangan toleransi kesalahan ialah 10), bilangan kiraan ralat dibahagikan dengan 10 ialah kadar ralat. Untuk video dengan lebih daripada 12 hayunan kepala, \(\vert m-n\vert -2>10\), bilangan kiraan ralat dibahagikan dengan jumlah toleransi kesalahan ialah kadar ralat.
\[\begin{equation*} \mathrm{score=}\left\{ {\begin{array}{cl} 1 & ,\vert m-n\vert \leq2 \\ 1-\frac{(\vert m-n\vert -2)}{10} & ,\vert m-n\vert -2\leq10 \\ 1-\frac{\left( \left| m-n \right|-2 \right)}{\left| m-2 \right|} & ,\vert m-n\vert -2>10 \\ \end{array}} \right. \tag{1} \end{equation*}\] |
4.2 Ketepatan Algoritma Pengesanan Objek
Kami menguji prestasi tiga algoritma untuk pengesanan monyet, termasuk SSD, R-CNN yang lebih pantas dan YOLO. Memandangkan populariti keluarga YOLO dalam bidang pengesanan objek, kami menguji prestasi YOLOv3, YOLOv4 dan YOLOv5.
Daripada hasil pengesanan, algoritma YOLOv5 terkini mempunyai ketepatan pengesanan tertinggi untuk kepala dan badan monyet, dan tiada perbezaan yang jelas dalam siri YOLOv5. Selepas analisis komprehensif, kami memilih YOLOv5s6 ringan sebagai algoritma utama model ini.
4.3 Keputusan Algoritma Pengiraan Ayunan
Seperti yang ditunjukkan dalam Jadual 2, model kami masing-masing mencapai ketepatan 94.23% dan 84.92% pada 50 video dan 320 video. Terutama, model kami mengatasi kaedah penjejakan video klasik, SiamRPN [18], dengan margin 4.80% dalam 50 video dan 6.28% dalam 320 video. Selain itu, kami menjalankan analisis yang meluas tentang ketepatan pengiraan algoritma merentas pelbagai adegan, bertujuan untuk mewujudkan kriteria piawai untuk hayunan monyet berdasarkan kelajuan, amplitud dan jarak merentas tiga dimensi.
Jadual 2 Ketepatan mengira untuk kedua-dua dua set data ujian. '50' dan '320' ujian menandakan set data ujian dengan 50 video dan 320 video. |
Kelajuan adalah indeks penting untuk menilai sama ada monyet menghayunkan kepala mereka. Hanya apabila kelajuan kepala cukup pantas boleh dianggap sebagai hayunan kepala yang berkesan. Kelajuan dinyatakan dengan membahagikan jarak antara sepuluh bingkai sebelum dan selepas ayunan monyet dengan bilangan bingkai, dan kelajuan \(=\) jarak\(/\)10. Memandangkan pengaruh monyet berjalan pada kiraan hayunan kepala, kami juga mengambil kelajuan badan sebagai penunjuk. Keputusan dalam Jadual 3 dan 4 menunjukkan bahawa apabila monyet bergerak 50 piksel dalam 10 bingkai, ia adalah asas penting untuk menilai sama ada monyet mengayunkan kepalanya. Memandangkan pergerakan badan, jarak maksimum yang dibenarkan untuk pergerakan badan ialah 8 piksel.
Untuk lebih mematuhi pertimbangan pengiraan manual, kami juga mengambil masa dan jarak sebagai kriteria untuk menilai sama ada kepala berayun. Hanya dalam 2s, jika amplitud ayunan kepala melebihi 50 piksel, bolehkah ia dianggap sebagai ayunan kepala yang berkesan, dan keputusan eksperimen dalam Jadual 5 dan 6 juga menyokong ini.
4.4 Kajian Ablasi tentang Pengiraan Skor
Untuk menilai lagi keberkesanan pendekatan kami, kami telah menggunakan pelbagai kaedah pengiraan skor untuk menilai model kami. Seperti yang digambarkan dalam Jadual 7, kami membandingkan tiga kaedah pengiraan merentas dua set data. Istilah 'Ketepatan Biasa' merujuk kepada pengiraan ujian menggunakan ralat regresi mudah. Apabila ralat yang dibenarkan ditetapkan kepada 0, ketepatan pengiraan berkurangan dengan ketara kepada 85.93% dan 77.81% dalam 50 video dan 320 video, masing-masing. Sebaliknya, apabila menggunakan kaedah pengiraan ketepatan biasa, keputusan percubaan masing-masing menghasilkan 87.32% dan 79.67% dalam 50 video dan 320 video. Penemuan ini jelas menunjukkan bahawa kaedah kami secara konsisten mencapai keputusan kompetitif merentas tetapan yang berbeza.
4.5 Berbanding dengan Kaedah Berasaskan Rangka
Kami telah memasukkan DeepLabCut [17] sebagai sebahagian daripada metodologi kami; namun, keputusan eksperimen yang diperolehi agak tidak mencukupi. Hasil eksperimen kami berkait rapat dengan ketepatan algoritma pengesanan yang digunakan. Pengesanan pose monyet menimbulkan cabaran yang ketara kerana banyaknya dan kerumitannya, yang memerlukan keteguhan algoritma dalam menangkap pose ini. Penemuan percubaan kami menunjukkan bahawa DeepLabCut berprestasi baik dalam adegan dengan kontras yang berbeza antara latar depan dan latar belakang. Walau bagaimanapun, memandangkan kedua-dua monyet dan latar belakang dalam set data kami mempamerkan tahap pencahayaan yang rendah, kaedah berasaskan rangka mempamerkan prestasi yang lemah. Tambahan pula, pemerhatian kami mendedahkan bahawa algoritma YOLO menunjukkan keteguhan unggul dalam mengesan monyet berbanding kaedah novel yang digunakan.
4.6 Visualisasi
Seperti yang ditunjukkan dalam Rajah 2, kami menggambarkan proses hayunan monyet dalam dua set data ujian yang berbeza, masing-masing terdiri daripada 50 video dan 320 video. Berdasarkan penemuan kami, kami membuat kesimpulan bahawa algoritma kami mengenal pasti kepala dan badan monyet dengan cekap, membolehkan pengiraan tepat bilangan hayunan monyet.
5. Kesimpulan
Surat ini adalah kertas berorientasikan aplikasi tentang pengiraan hayunan kepala monyet. Kami cuba mereka bentuk algoritma berdasarkan pengesanan objek untuk mengesan hayunan kepala monyet tanpa penyertaan manusia. Akhirnya, kami mencapai ketepatan 94% pada 50 video. Masih terdapat ralat tertentu dalam kedudukan monyet menggunakan pengesanan sasaran. Jadi kami cuba mencari monyet itu dengan cara yang lebih baik. Sebagai contoh, pengesanan titik utama boleh terus mendapatkan koordinat monyet. Walau bagaimanapun, mengambil kira keperluan ketepatan algoritma ini, algoritma dengan kestabilan terbaik mungkin mempunyai kesan pengesanan terbaik.
Penghargaan
Kerja ini disokong oleh Projek Utama Sains dan Teknologi Perbandaran Shanghai, Geran No. 2018SHZDZX05.
Rujukan
[1] P. Kumar and M. Shingala, “Native monkey detection using deep convolution neural network,” In: A. Hassanien, R. Bhatnagar, A. Darwish (eds), Advanced Machine Learning Technologies and Applications (AMLTA 2020), Advances in Intelligent Systems and Computing, vol.1141, pp.373-383, Springer, Singapore, 2020.
CrossRef
[2] H. Zhu, H. Wei, B. Li, X. Yuan, and N. Kehtarnavaz, “A review of video object detection: datasets, metrics and methods,” Applied Sciences, vol.10, no.21, Article no.7834, 2020.
CrossRef
[3] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” Proc. IEEE Conference on Computer Vision and Pattern Recognition, pp.580-587, 2014.
[4] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, and A.C. Berg, “SSD: Single Shot MultiBox Detector,” ECCV 2016, Part I, vol.9905, pp.21-37, in B. Leibe, J. Matas, N. Sebe, and M. Welling, Eds., LNCS, Cham: Springer, 2016.
CrossRef
[5] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,” IEEE Trans. Pattern Anal. Mach. Intell., vol.39, no.6, pp.1137-1149, 2017.
CrossRef
[6] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” IEEE CVPR, Las Vegas, NV, USA, pp.779-788, 2016.
CrossRef
[7] S. Agezo and G.J. Berman, “Tracking together: estimating social poses,” Nature Methods, vol.19, pp.410-411, 2022.
CrossRef
[8] J.M. Graving, D. Chae, H. Naik, L. Li, B. Koger, B.R. Costelloe, and I.D. Couzin. DeepPoseKit, a software toolkit for fast and robust animal pose estimation using deep learning, Elife, 8:e47994, 2019.
CrossRef
[9] T.D. Pereira, D.E. Aldarondo, L. Willmore, M. Kislin, S.S.-H. Wang, M. Murthy, and J.W. Shaevitz, “Fast animal pose estimation using deep neural networks,” Nature Methods, vol.16, pp.117-125, 2019.
CrossRef
[10] A. Mathis, P. Mamidanna, K.M. Cury, T. Abe, V.N. Murthy, M.W. Mathis, and M. Bethge, “DeepLabCut: markerless pose estimation of user-defined body parts with deep learning,” Nature Neuroscience, vol.21, pp.1281-1289, 2018.
CrossRef
[11] P.C. Bala, B.R. Eisenreich, S.B.M. Yoo, B.Y. Hayden, H.S. Park, and J. Zimmermann, “Automated markerless pose estimation in freely moving macaques with OpenMonkeyStudio,” Nature Communications, vol.11, Article no.4560, 2020.
CrossRef
[12] K. He, X. Zhang, S. Ren, and J. Sun “Deep residual learning for image recognition,” IEEE CVPR, Las Vegas, NV, USA, pp.770-778, 2016.
CrossRef
[13] C. Hao and Z.-M. Lu, “Contraband detection based on deep learning,” Journal of Information Hiding and Multimedia Signal Processing, vol.13. no.3, pp.165-177, 2022.
[14] H. Chen and Z.-M. Lu. “Dynamic Smoke Detection by Eliminating Static Targets in Video,” International Journal of Innovative Computing, Information and Control, vol.19, no.2, 2023, doi: 10.24507/ijicic.19.02.355.
CrossRef
[15] A.S. Eltanany, M.S. Elwan, and A.S. Amein, “Key point detection techniques,” International Conference on Advanced Intelligent Systems and Informatics, Springer, Cham, pp.901-911, 2019.
CrossRef
[16] Li, Chuxi, et al. “Deep learning-based activity recognition and fine motor identification using 2D skeletons of cynomolgus monkeys,” Zoological Research, vol.44, no.5, p.967, 2023.
[17] A. Mathis, P. Mamidanna, K.M. Cury, T. Abe, V.N. Murthy, M.W. Mathis, and M. Bethge, “DeepLabCut: markerless pose estimation of user-defined body parts with deep learning,” Nature neuroscience, vol.21, no.9, pp.1281-1289, 2018.
CrossRef
[18] B. Li, W. Wu, Q. Wang, F. Zhang, J. Xing, and J. Yan, “Siamrpn++: Evolution of siamese visual tracking with very deep networks,” Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019.