Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Implementation of Fully-Pipelined CNN Inference Accelerator on FPGA and HBM2 Platform Pelaksanaan Pemecut Inferens CNN Paip Sepenuhnya pada Platform FPGA dan HBM2

Van-Cam NGUYEN, Yasuhiko NAKASHIMA

  • pandangan teks lengkap

    1

  • Petikan Ini

Ringkasan:

Banyak pemecut inferens rangkaian neural konvolusi dalam (CNN) pada platform tatasusunan gerbang boleh atur cara lapangan (FPGA) telah diterima pakai secara meluas kerana penggunaan kuasa yang rendah dan prestasi tinggi. Dalam kertas ini, kami membangunkan perkara berikut untuk meningkatkan prestasi dan kecekapan kuasa. Pertama, kami menggunakan memori lebar jalur tinggi (HBM) untuk mengembangkan lebar jalur penghantaran data antara memori luar cip dan pemecut. Kedua, cara saluran paip sepenuhnya, yang terdiri daripada pengiraan antara lapisan saluran paip dan enjin pengiraan saluran paip, dilaksanakan untuk mengurangkan masa melahu antara lapisan. Ketiga, seni bina berbilang teras dengan penimbal dwi-kongsi direka untuk mengurangkan akses memori luar cip dan memaksimumkan daya pemprosesan. Kami mereka bentuk pemecut yang dicadangkan pada platform Xilinx Alveo U280 dengan Verilog HDL yang mendalam dan bukannya sintesis tahap tinggi seperti yang dilakukan sebelum ini dan meneroka model VGG-16 untuk mengesahkan sistem semasa percubaan kami. Dengan seni bina pemecut yang serupa, keputusan eksperimen menunjukkan bahawa lebar jalur memori HBM adalah 13.2× lebih baik daripada DDR4. Berbanding dengan pemecut lain dari segi daya pemprosesan, pemecut kami adalah 1.9×/1.65×/11.9× lebih baik daripada FPGA+HBM2 berasaskan/saiz kelompok rendah (4) GPGPU/saiz kelompok rendah (4) CPU. Berbanding dengan pemecut berasaskan DDR+FPGA/DDR+GPGPU/DDR+CPU sebelumnya dari segi kecekapan kuasa, sistem cadangan kami menyediakan peningkatan 1.4-1.7×/1.7-12.6×/6.6-37.1× dengan model CNN berskala besar.

Jawatankuasa
IEICE TRANSACTIONS on Information Vol.E106-D No.6 pp.1117-1129
Tarikh penerbitan
2023/06/01
Diumumkan
2023/03/17
ISSN dalam talian
1745-1361
DOI
10.1587/transinf.2022EDP7155
Jenis Manuskrip
PAPER
kategori
Sistem komputer

Pengarang

Van-Cam NGUYEN
  Nara Institute of Science and Technology
Yasuhiko NAKASHIMA
  Nara Institute of Science and Technology

Kata kunci

Contents [show]