Fungsi carian sedang dalam pembinaan.
Fungsi carian sedang dalam pembinaan.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

A Highly Configurable 7.62GOP/s Hardware Implementation for LSTM Pelaksanaan Perkakasan 7.62GOP/s Sangat Boleh Dikonfigurasikan untuk LSTM

Yibo FAN, Leilei HUANG, Kewei CHEN, Xiaoyang ZENG

  • pandangan teks lengkap

    0

  • Petikan Ini

Ringkasan:

Rangkaian saraf telah menjadi salah satu teknik yang paling berguna dalam bidang pengecaman pertuturan, terjemahan bahasa dan analisis imej dalam beberapa tahun kebelakangan ini. Memori Jangka Pendek Panjang (LSTM), sejenis rangkaian neural berulang (RNN) yang popular, telah dilaksanakan secara meluas pada CPU dan GPU. Walau bagaimanapun, pelaksanaan perisian tersebut menawarkan keselarian yang lemah manakala pelaksanaan perkakasan sedia ada tidak mempunyai kebolehkonfigurasian. Untuk mengimbangi jurang ini, pelaksanaan perkakasan 7.62 GOP/s yang sangat boleh dikonfigurasikan untuk LSTM dicadangkan dalam kertas ini. Untuk mencapai matlamat, aliran kerja disusun dengan teliti untuk menjadikan reka bentuk padat dan daya pemprosesan tinggi; struktur disusun dengan teliti untuk membuat reka bentuk boleh dikonfigurasikan; strategi penimbalan dan pemampatan data dipilih dengan teliti untuk menurunkan lebar jalur tanpa meningkatkan kerumitan struktur; jenis data, fungsi sigmoid logistik (σ) dan fungsi tangen hiperbolik (tanh) dioptimumkan dengan teliti untuk mengimbangi kos dan ketepatan perkakasan. Kerja ini mencapai prestasi 7.62 GOP/s @ 238 MHz pada XCZU6EG FPGA, yang hanya memerlukan jadual carian 3K (LUT). Berbanding dengan pelaksanaan pada Intel Xeon E5-2620 CPU @ 2.10GHz, kerja ini mencapai kira-kira 90x kelajuan untuk rangkaian kecil dan 25x kelajuan untuk yang besar. Penggunaan sumber juga jauh lebih rendah daripada kerja-kerja terkini.

Jawatankuasa
IEICE TRANSACTIONS on Electronics Vol.E103-C No.5 pp.263-273
Tarikh penerbitan
2020/05/01
Diumumkan
2019/11/27
ISSN dalam talian
1745-1353
DOI
10.1587/transele.2019ECP5008
Jenis Manuskrip
PAPER
kategori
Elektronik Bersepadu

Pengarang

Yibo FAN
  Fudan University
Leilei HUANG
  Fudan University
Kewei CHEN
  Fudan University
Xiaoyang ZENG
  Fudan University

Kata kunci

Contents [show]