un procesamiento - Grupo de contador de dinero de Nantong

Scientific Reports volumen 12, número de artículo: 14396 (2022) Citar este artículo

3220 Accesos

4 citas

5 altmétrico

Detalles de métricas

La demanda de procesar grandes cantidades de datos generados a partir de cámaras de alta resolución de última generación ha motivado nuevas soluciones de inteligencia artificial en los dispositivos que ahorran energía. Los datos visuales en este tipo de cámaras generalmente se capturan en voltajes analógicos mediante una matriz de píxeles de sensor y luego se convierten al dominio digital para el procesamiento posterior de IA mediante convertidores de analógico a digital (ADC). Investigaciones recientes han intentado aprovechar la computación analógica/digital masivamente paralela de baja potencia en forma de procesamiento cercano e interno al sensor, en el que el cálculo de la IA se realiza en parte en la periferia de la matriz de píxeles y en parte en un lugar separado. -placa CPU/acelerador. Desafortunadamente, las imágenes de entrada de alta resolución aún deben transmitirse entre la cámara y la unidad de procesamiento de IA, cuadro por cuadro, lo que genera cuellos de botella de energía, ancho de banda y seguridad. Para mitigar este problema, proponemos un nuevo paradigma de procesamiento en píxeles en memoria (P2M), que personaliza la matriz de píxeles agregando soporte para multicanal analógico, convolución de múltiples bits, normalización por lotes y unidades lineales rectificadas ( ReLU). Nuestra solución incluye un enfoque holístico de codiseño de circuito de algoritmo y el paradigma P2M resultante se puede utilizar como un reemplazo directo para incorporar las primeras capas de modelos de redes neuronales convolucionales (CNN) con uso intensivo de memoria dentro de plataformas de sensores de imagen CMOS fabricables en fundición. . Nuestros resultados experimentales indican que P2M reduce el ancho de banda de transferencia de datos desde sensores y conversiones analógicas a digitales en \({\sim }\,21\times\), y el producto de retardo de energía (EDP) incurrido al procesar un modelo MobileNetV2 en un TinyML. caso de uso para el conjunto de datos de palabras de activación visual (VWW) en hasta \(\mathord {\sim }\,11\times\) en comparación con las implementaciones estándar de procesamiento cercano o en el sensor, sin ninguna caída significativa en la precisión de la prueba.

Las aplicaciones generalizadas actuales de la visión por computadora que abarcan la vigilancia1, la gestión de desastres2, las cámaras trampa para el monitoreo de la vida silvestre3, la conducción autónoma, los teléfonos inteligentes, etc., están impulsadas por los notables avances tecnológicos en las plataformas de detección de imágenes4 y el campo cada vez mejor de los algoritmos de aprendizaje profundo5. Sin embargo, las implementaciones de hardware de plataformas de procesamiento y detección de visión tradicionalmente han estado físicamente segregadas. Por ejemplo, las plataformas actuales de sensores de visión basadas en tecnología CMOS actúan como entidades de transducción que convierten las intensidades de la luz incidente en valores de píxeles digitalizados, a través de una matriz bidimensional de fotodiodos6. Los datos de visión generados a partir de dichos sensores de imagen CMOS (CIS) a menudo se procesan en otro lugar en un entorno de nube que consta de CPU y GPU7. Esta segregación física genera cuellos de botella en el rendimiento, el ancho de banda y la eficiencia energética para aplicaciones que requieren transferir grandes cantidades de datos desde el sensor de imagen al procesador back-end, como la detección y el seguimiento de objetos a partir de imágenes/vídeos de alta resolución.

Para abordar estos cuellos de botella, muchos investigadores están tratando de acercar el procesamiento de datos inteligente a la fuente de los datos de visión, es decir, más cerca del CIS, adoptando uno de tres enfoques amplios: procesamiento cerca del sensor8,9, procesamiento en el sensor10 y procesamiento en píxeles11,12,13. El procesamiento de sensores cercanos tiene como objetivo incorporar un chip acelerador de aprendizaje automático dedicado en la misma placa de circuito impreso8, o incluso apilado en 3D con el chip CIS9. Aunque esto permite el procesamiento de datos CIS más cerca del sensor que en la nube, todavía sufre los costos de transferencia de datos entre el CIS y el chip de procesamiento. Por otro lado, las soluciones de procesamiento en el sensor10 integran circuitos digitales o analógicos dentro de la periferia del chip del sensor CIS, lo que reduce la transferencia de datos entre el sensor CIS y los chips de procesamiento. Sin embargo, estos enfoques todavía requieren a menudo que los datos se transmitan (o lean en paralelo) a través de un bus desde conjuntos de fotodiodos CIS hasta los circuitos de procesamiento periférico10. Por el contrario, las soluciones de procesamiento en píxeles, como 11,12,13,14,15, tienen como objetivo incorporar capacidades de procesamiento dentro de los píxeles CIS individuales. Los esfuerzos iniciales se han centrado en la operación de convolución analógica en píxeles14,15, pero muchos11,14,15,16 requieren el uso de memorias no volátiles emergentes o materiales 2D. Desafortunadamente, estas tecnologías aún no están maduras y, por lo tanto, no se adaptan a las fundiciones existentes en la CEI. Además, estos trabajos no admiten operaciones de convolución multibit y multicanal, normalización por lotes (BN) y unidades lineales rectificadas (ReLU) necesarias para la mayoría de las aplicaciones prácticas de aprendizaje profundo. Además, los trabajos dirigidos a hardware digital en píxeles basado en CMOS, organizado como conjuntos de procesadores de datos múltiples de instrucción única (SIMD) paralelos a píxeles12, no admiten operaciones de convolución y, por lo tanto, se limitan a cargas de trabajo de juguete, como el reconocimiento de dígitos. Muchos de estos trabajos se basan en el procesamiento digital, que normalmente produce niveles más bajos de paralelismo en comparación con sus alternativas analógicas en píxeles. Por el contrario, el trabajo en13 aprovecha la computación analógica paralela en píxeles, en la que los pesos de una red neuronal se representan como el tiempo de exposición de píxeles individuales. Su enfoque requiere que haya pesos disponibles para manipular el tiempo de exposición de los píxeles a través de pulsos de control, lo que genera un cuello de botella en la transferencia de datos entre las memorias de peso y la matriz de sensores. Por lo tanto, sigue siendo difícil encontrar una solución de procesamiento CIS in situ donde tanto los pesos como las activaciones de entrada estén disponibles dentro de píxeles individuales que implemente de manera eficiente operaciones críticas de aprendizaje profundo, como operaciones multibit, convolución multicanal, BN y ReLU. Además, todas las soluciones informáticas en píxeles existentes tienen conjuntos de datos específicos que no representan aplicaciones realistas de inteligencia artificial mapeadas en CIS de última generación. Específicamente, la mayoría de los trabajos existentes se centran en conjuntos de datos simplistas como MNIST12, mientras que pocos13 utilizan el conjunto de datos CIFAR-10 que tiene imágenes de entrada con una resolución significativamente baja (\(32\times 32\)), que no representa imágenes capturadas por CIS de alta resolución de última generación.

Con ese fin, proponemos un nuevo paradigma de computación in situ en los nodos sensores llamado Procesamiento en píxeles en memoria (P2M), ilustrado en la Fig. 1, que incorpora tanto los pesos como las activaciones de la red para permitir un paralelo masivo. Computación inteligente de alto rendimiento dentro de los SIC. En particular, nuestra arquitectura de circuito no solo permite la aceleración analógica de producto punto multibit, multicanal in situ necesaria para la convolución, sino que reutiliza el circuito de muestreo doble correlacionado digital (CDS) en el chip y el ADC de pendiente única (SS). -ADC) normalmente disponible en CIS convencional para implementar todos los aspectos computacionales necesarios para las primeras capas de una red de aprendizaje profundo de última generación. Además, la arquitectura propuesta se combina con un paradigma de codiseño de algoritmo de circuito que captura las no linealidades, las limitaciones y los objetivos de reducción del ancho de banda del circuito para mejorar la latencia y la eficiencia energética. El paradigma resultante es el primero en demostrar la viabilidad de habilitar aplicaciones de procesamiento de imágenes complejas e inteligentes (más allá de los conjuntos de datos de juguetes), en imágenes de alta resolución del conjunto de datos Visual Wake Words (VWW), que atienden a una aplicación TinyML de la vida real. Elegimos evaluar la eficacia de P2M en aplicaciones TinyML, ya que imponen presupuestos de computación y memoria ajustados, que de otro modo serían difíciles de cumplir con las soluciones actuales de procesamiento dentro y cerca del sensor, particularmente para imágenes de entrada de alta resolución. Los aspectos más destacados del trabajo presentado son los siguientes:

Soluciones existentes y propuestas para aliviar los cuellos de botella de energía, rendimiento y ancho de banda causados por la segregación de Sensing y Compute.

Proponemos un nuevo paradigma de procesamiento en píxeles en memoria (P2M) para aplicaciones de inteligencia de sensores con recursos limitados, en el que nuevos píxeles integrados en memoria permiten una aceleración masiva del producto escalar en paralelo utilizando activaciones de entrada in situ (corrientes de fotodiodo) y pesos situ todos disponibles dentro de píxeles individuales.

Proponemos reutilizar los píxeles integrados en la memoria del chip, los circuitos CDS y los SS-ADC para implementar pesos positivos y negativos, BN y funcionalidad ReLU digital dentro del chip CIS, mapeando así todos los aspectos computacionales para las primeras capas de una compleja red de aprendizaje profundo de última generación dentro de CIS.

Además, desarrollamos un modelo compacto basado en MobileNet-V2 optimizado específicamente para las limitaciones de hardware implementadas por P2M y comparamos su precisión y producto de retardo de energía (EDP) en el conjunto de datos VWW, que representa un caso de uso común de TinyML visual.

El resto del artículo está organizado de la siguiente manera. La sección "Desafíos y oportunidades en P2M" analiza los desafíos y oportunidades para P2M. La sección "Implementación del circuito P2M" explica nuestra propuesta de implementación del circuito P2M utilizando tecnologías de memoria fabricables. Entonces, la Secta. "Codiseño de circuito de algoritmo restringido por P2M" analiza nuestro enfoque para el codiseño de circuito de algoritmo restringido por P2M. La sección "Resultados experimentales" presenta nuestro conjunto de datos de evaluación comparativa de TinyML, arquitecturas de modelos, precisión de las pruebas y resultados de EDP. Finalmente, se proporcionan algunas conclusiones en la Sección. "Conclusiones".

La presencia omnipresente de sensores de visión basados en CIS ha impulsado la necesidad de permitir cálculos de aprendizaje automático más cerca de los nodos sensores. Sin embargo, dada la complejidad informática de las CNN modernas, como Resnet-1817 y SqueezeNet18, no es factible ejecutar toda la red de aprendizaje profundo, incluidas todas las capas dentro del chip CIS. Como resultado, los sensores de visión inteligentes recientes, por ejemplo, los de Sony9, que están equipados con una funcionalidad básica de procesamiento de IA (por ejemplo, metadatos de imágenes computacionales), presentan una configuración multiapilada que consta de chips lógicos y de píxeles separados que deben depender de datos altos y ancho de banda de comunicación entre chips relativamente costoso en energía.

Alternativamente, afirmamos que incorporar parte de la red de aprendizaje profundo dentro de matrices de píxeles de manera in situ puede conducir a una reducción significativa en el ancho de banda de datos (y por lo tanto en el consumo de energía) entre el chip sensor y el procesamiento posterior para el resto de las capas convolucionales. Esto se debe a que las primeras capas de CNN cuidadosamente diseñadas, como se explica en la sección "Codiseño de circuito de algoritmo restringido por P2M", pueden tener una propiedad de compresión significativa, es decir, los mapas de características de salida tienen un ancho de banda/dimensionalidad reducido en comparación con la entrada. marcos de imagen. En particular, nuestro paradigma P2M propuesto nos permite mapear todos los cálculos de las primeras capas de una CNN en la matriz de píxeles. El paradigma incluye un marco holístico de codiseño de algoritmo de hardware que captura el comportamiento específico del circuito, incluidas las no idealidades del circuito y las limitaciones del hardware, durante el diseño, la optimización y el entrenamiento de las redes de aprendizaje automático propuestas. Los pesos entrenados para las primeras capas de la red luego se asignan a tamaños de transistores específicos en la matriz de píxeles. Debido a que los anchos de los transistores se fijan durante la fabricación, los pesos CNN correspondientes carecen de programabilidad. Afortunadamente, es común utilizar las versiones previamente entrenadas de las primeras capas de las CNN modernas, ya que los extractores de características de alto nivel son comunes en muchas tareas de visión19. Por lo tanto, los pesos fijos en las primeras capas de CNN no limitan el uso de nuestro esquema propuesto para una amplia clase de aplicaciones de visión. Además, nos gustaría enfatizar que el píxel incorporado en la memoria también funciona perfectamente al reemplazar los transistores fijos con memorias no volátiles emergentes, como se describe en la sección "Integración de procesos CIS y consideraciones de área". Finalmente, el paradigma P2M presentado se puede utilizar junto con enfoques de procesamiento de sensores cercanos existentes para obtener beneficios adicionales, como mejorar la eficiencia energética de las capas convolucionales restantes.

Esta sección describe innovaciones de circuitos clave que nos permiten integrar todos los aspectos computacionales para las primeras capas de una arquitectura CNN compleja dentro del CIS. En la Fig. 2 se muestra una descripción general de nuestra matriz de píxeles propuesta que permite la disponibilidad de pesos y activaciones dentro de píxeles individuales con circuitos periféricos apropiados.

Técnicas de circuito propuestas basadas en el esquema P2M presentado capaz de mapear todos los aspectos computacionales para las primeras capas de una capa CNN moderna dentro de matrices de píxeles CIS.

Nuestro circuito de píxeles modificado se basa en el píxel estándar de tres transistores al incorporar transistores \(W_i\) adicionales que representan pesos de la capa CNN, como se muestra en la Fig. 2. Cada transistor de peso \(W_i\) está conectado en serie con el transistor seguidor de fuente \(G_s\). Cuando se activa un transistor de peso particular \(W_i\) (al llevar el voltaje de su puerta a \(V_{DD}\)), la salida de píxeles se modula tanto por la fuerza impulsora del transistor \(W_i\) como por el voltaje. en la puerta del transistor seguidor de fuente \(G_s\). Una corriente de fotodiodo más alta implica que el seguidor de fuente PMOS está fuertemente ENCENDIDO, lo que resulta en un aumento en el voltaje del píxel de salida. De manera similar, un ancho mayor del transistor de peso \(W_i\) da como resultado una menor resistencia del transistor y, por lo tanto, una menor degeneración de la fuente para el transistor seguidor de fuente, lo que resulta en un voltaje de salida de píxel más alto. La Figura 3a, obtenida a partir de simulaciones SPICE utilizando la tecnología GlobalFoundries de 22 nm, muestra la dependencia deseada del ancho del transistor y la corriente del fotodiodo de entrada. Por lo tanto, la salida de píxeles realiza una multiplicación aproximada de la intensidad de la luz de entrada (voltaje en la puerta del transistor \(G_s\)) y el peso (o fuerza impulsora) del transistor \(W_i\), como se muestra en el gráfico de Figura 3b. La aproximación surge del hecho de que los transistores son inherentemente no lineales. En la sección "Codiseño de circuito de algoritmo restringido por P2M", aprovechamos nuestro marco de codiseño de algoritmo de hardware para incorporar las no linealidades del circuito dentro del marco de entrenamiento de CNN, manteniendo así una precisión de clasificación cercana a la más moderna. . Se incorporan múltiples transistores de peso \(W_i\) dentro del mismo píxel y se controlan mediante señales de control de puerta independientes. Cada transistor de peso implementa un canal diferente en el mapa de características de salida de la capa. Por lo tanto, las señales de puerta representan líneas seleccionadas para canales específicos en el mapa de características de salida. Tenga en cuenta que es deseable reducir el número de canales de salida para reducir el número total de transistores de peso integrados dentro de cada píxel y al mismo tiempo garantizar una alta precisión de prueba para VWW. Para nuestro trabajo, utilizando un marco holístico de codiseño de algoritmo de hardware (sección "Precisión de clasificación"), pudimos reducir el número de canales en la primera capa de 16 a 8, esto implica que el circuito propuesto requiere 8 transistores de peso por píxel, que se puede implementar razonablemente.

El circuito presentado puede admitir pasos superpuestos y no superpuestos dependiendo del número de transistores de peso \(W_i\)s por píxel. Específicamente, cada paso de un núcleo particular se puede asignar a un conjunto diferente de transistores de peso sobre los píxeles (activaciones de entrada). Los transistores \(W_i\)s representan pesos de varios bits, ya que la fuerza de conducción de los transistores se puede controlar en un amplio rango según el ancho, la longitud y el voltaje umbral del transistor.

Para lograr la operación de convolución, activamos simultáneamente varios píxeles. En el caso específico de VWW, activamos \(X\times Y\times 3\) píxeles al mismo tiempo, donde X e Y denotan las dimensiones espaciales y 3 corresponde a los canales RGB (rojo, azul, verde) en el capa de activación de entrada. Para cada píxel activado, la salida del píxel se modula mediante la corriente del fotodiodo y el peso del transistor \(W_i\) activado asociado con el píxel, de acuerdo con la Fig. 3a,b. Para una operación de convolución determinada, solo se activa un transistor de peso por píxel, correspondiente a un canal específico en la primera capa de la CNN. Los transistores de peso \(W_i\) representan pesos de varios bits a través de su fuerza motriz. Como se detalla en la sección "Píxeles incrustados de peso de múltiples bits y canales múltiples", para cada píxel, el voltaje de salida se aproxima a la multiplicación de la intensidad de la luz y el peso. Para cada línea de bits, que se muestra como líneas azules verticales en la Fig. 2, la fuerza de extracción acumulada de los píxeles activados conectados a esa línea la eleva. El aumento en los voltajes de salida de píxeles se acumula en las líneas de bits que implementan una operación de suma analógica. En consecuencia, el voltaje a la salida de las líneas de bits representa la operación de convolución entre las activaciones de entrada y el peso almacenado dentro del píxel.

La Figura 3c representa el voltaje de salida (en el nodo Salida de convolución analógica en la Fig. 2) en función de la operación de convolución ideal normalizada. El gráfico de la figura se generó considerando que 75 píxeles están activados simultáneamente. Para cada línea en la Fig. 3c, los transistores de peso activados \(W_i\) se eligen para que tengan el mismo ancho y el conjunto de líneas de colores representa el rango de anchos. Para cada línea, la entrada I se barre desde su valor mínimo a máximo y el producto escalar ideal se normaliza y se traza en el eje x. El eje y traza la salida real del circuito SPICE. La naturaleza en gran medida lineal del gráfico indica que los circuitos funcionan como se esperaba y la pequeña cantidad de no linealidades se captura en nuestro marco de entrenamiento descrito en la sección "Convolución personalizada para las no idealidades del circuito de modelado de la primera capa".

Tenga en cuenta que para generar múltiples mapas de características de salida, la operación de convolución debe repetirse para cada canal en el mapa de características de salida. El peso correspondiente para cada canal se almacena en un transistor de peso separado integrado dentro de cada píxel. Por lo tanto, hay tantos transistores de peso integrados dentro de un píxel como canales en el mapa de características de salida. Tenga en cuenta que aunque podemos reducir el número de filtros a 8 sin ninguna caída significativa en la precisión del conjunto de datos VWW, si es necesario, es posible aumentar el número de filtros a 64 (muchas arquitecturas SOTA CNN tienen hasta 64 canales en su primera capa), sin un aumento significativo en el área utilizando la integración 3D avanzada, como se describe en la sección “Integración de procesos CIS y consideraciones de área”.

En resumen, el esquema presentado puede realizar una operación de convolución analógica multicanal y multibit in situ dentro de la matriz de píxeles, en la que tanto las activaciones de entrada como los pesos de red están presentes dentro de píxeles individuales.

(a) Voltaje de salida de píxel en función del peso (ancho del transistor) y activación de entrada (corriente de fotodiodo normalizada) simulada en el nodo FD-SOI de 22 nm de GlobalFoundries. Como se esperaba, la salida de píxeles aumenta tanto en función de los pesos como de la activación de entrada. (b) Un diagrama de dispersión que compara el voltaje de salida de píxeles con el valor de multiplicación ideal de Pesos\(\times\)Activación de entrada (normalizado \(W\times I\)). (c) Voltaje de salida de convolución analógica versus valor de convolución normalizado ideal cuando se activan 75 píxeles simultáneamente.

Los pesos en una capa CNN abarcan valores positivos y negativos. Como se analizó en la subsección anterior, los pesos se asignan según la fuerza impulsora (o ancho) de los transistores \(W_i\)s. Como el ancho de los transistores no puede ser negativo, los propios transistores \(W_i\) no pueden representar pesos negativos. Curiosamente, evitamos este problema reutilizando el circuito CDS digital en chip presente en muchos CIS comerciales de última generación20,21. Un CDS digital generalmente se implementa junto con ADC de pendiente única (SS-ADC) paralelos a columnas. Un ADC de pendiente única consta de un generador de rampa, un comparador y un contador (ver Fig. 2). Un voltaje analógico de entrada se compara a través del comparador con un voltaje de rampa con una pendiente fija, generado por el generador de rampa. Un contador que inicialmente se reinicia y se suministra con un reloj apropiado, sigue contando hasta que el voltaje de rampa cruza el voltaje de entrada analógica. En este punto, la salida del contador se bloquea y representa el valor digital convertido para el voltaje analógico de entrada. Un circuito CDS digital tradicional CIS toma como entrada dos muestras correlacionadas en dos instantes de tiempo diferentes. La primera muestra corresponde al ruido de reinicio del píxel y la segunda muestra a la señal real superpuesta con el ruido de reinicio. Luego, un circuito CIS CDS digital toma la diferencia entre las dos muestras, eliminando así el ruido de reinicio durante la conversión de ADC. En un SS-ADC, la diferencia se toma simplemente haciendo que el contador cuente "ascendente" para una muestra y "regresivo" para la segunda.

(a) Una forma de onda de sincronización típica, que muestra pesos de muestreo doble (uno para positivo y otro para negativo). Las etiquetas numéricas en la figura corresponden a la etiqueta numérica en el circuito que se muestra en la Fig. 2. (b) Forma de onda de sincronización típica para el SS-ADC que muestra la salida del comparador (Comp), la habilitación del contador (disparador), la salida del generador de rampa y el contador. reloj (Contador).

Utilizamos el comportamiento de diferenciación y cancelación de ruido del circuito CDS digital CIS ya disponible en chips CIS comerciales para implementar pesos positivos y negativos e implementar ReLU. Primero, cada transistor de peso incrustado dentro de un píxel se 'etiqueta' como positivo o 'peso negativo' conectándolo a 'líneas rojas' (marcadas como VDD para pesos positivos en la Fig. 2) y 'líneas verdes' (marcadas como VDD para pesos negativos en la Fig. 2). Para cada canal, activamos varios píxeles para realizar un producto interno y leer dos muestras. La primera muestra corresponde a un alto voltaje VDD aplicado en las 'líneas rojas' (marcadas como VDD para pesos positivos en la Fig. 2) mientras que las 'líneas verdes' (marcadas como VDD para pesos negativos en la Fig. 2) se mantienen en tierra. . El resultado acumulado del producto escalar de múltiples bits es digitalizado por el SS-ADC, mientras el contador cuenta "ascendente". La segunda muestra, por otro lado, corresponde a un alto voltaje VDD aplicado en las 'líneas verdes' (marcadas como VDD para pesos negativos en la Fig. 2), mientras que las 'líneas rojas' (marcadas como VDD para pesos positivos en la Fig. 2) se mantienen en el suelo. El resultado acumulado del producto escalar de múltiples bits se digitaliza nuevamente y el SS-ADC también lo resta de la primera muestra, mientras el contador realiza una cuenta "regresiva". Por lo tanto, el circuito CDS digital primero acumula la salida de convolución para todos los pesos positivos y luego resta la salida de convolución para todos los pesos negativos para cada canal, controlado por las respectivas líneas de selección para canales individuales. Tenga en cuenta que las posibles corrientes furtivas que fluyen entre transistores de peso que representan pesos positivos y negativos se pueden evitar integrando un diodo en serie con transistores de peso o simplemente dividiendo cada transistor de peso en dos transistores conectados en serie, donde las líneas de selección de canal controlan uno de los transistores conectados en serie. transistor, mientras que el otro transistor está controlado por una línea de selección que representa pesos positivos/negativos.

Curiosamente, reutilizar el CDS en el chip para implementar pesos positivos y negativos también nos permite implementar fácilmente una operación ReLU cuantificada dentro del SS-ADC. ReLU recorta los valores negativos a cero. Esto se puede lograr asegurando que el valor de conteo final obtenido del contador (después de la operación CDS que consiste en un conteo ascendente y luego un conteo descendente) sea positivo o cero. Curiosamente, antes de realizar la operación del producto escalar, el contador se puede restablecer a un valor distinto de cero que represente el factor de escala de la capa BN como se describe en la sección "Codiseño de circuito de algoritmo restringido por P2M". Por lo tanto, al incorporar la operación de convolución de múltiples píxeles y reutilizar el circuito CDS y SS-ADC en el chip para implementar pesos positivos/negativos, normalización por lotes y operación ReLU, nuestro esquema P2M propuesto puede implementar todos los aspectos computacionales para los primeros capas de una CNN compleja dentro de la matriz de píxeles que permiten cálculos in situ masivamente paralelos.

Al reunir estas características, nuestro circuito P2M propuesto calcula un canal a la vez y tiene tres fases de operación:

Fase de reinicio: Primero, el voltaje en el nodo del fotodiodo M (ver Fig. 2) se precarga o se reinicia activando el transistor de reinicio \(G_r\). Tenga en cuenta que, dado que nuestro objetivo es realizar una convolución de varios píxeles, el conjunto de píxeles \(X\times Y\times 3\) se restablece simultáneamente.

Fase de convolución de múltiples píxeles: A continuación, descargamos la puerta del transistor de reinicio \(G_r\) que desactiva \(G_r\). Posteriormente, se activan \(X\times Y\times 3\) píxeles tirando de la puerta de los respectivos transistores \(G_H\) a VDD. Dentro del conjunto de píxeles activados, se activa un transistor de peso único correspondiente a un canal particular en el mapa de características de salida, elevando el voltaje de su puerta a través de las líneas de selección (etiquetadas como líneas de selección para múltiples canales en la Fig. 2). Como el fotodiodo es sensible a la luz incidente, se genera una fotocorriente a medida que la luz incide sobre el diodo (durante un tiempo igual al tiempo de exposición) y el voltaje en la puerta de \(G_s\) se modula de acuerdo con la corriente del fotodiodo. que es proporcional a la intensidad de la luz incidente. El voltaje de salida del píxel es función de la luz incidente (voltaje en el nodo M) y la fuerza impulsora del transistor de peso activado dentro de cada píxel. La salida de píxeles de varios píxeles se acumula en las líneas de columna y representa la salida de convolución analógica de varios píxeles. El SS-ADC en la periferia convierte la salida analógica en un valor digital. Tenga en cuenta que toda la operación se repite dos veces, una para pesos positivos (conteo ascendente) y otra para pesos negativos (conteo descendente).

Operación ReLU: finalmente, la salida del contador se bloquea y representa una salida ReLU cuantificada. Se garantiza que la salida bloqueada sea positiva o cero, imitando así la funcionalidad ReLU dentro del SS-ADC.

Todo el circuito P2M se simula utilizando la tecnología comercial GlobalFoundries FD-SOI (silicio sobre aislante completamente empobrecido) de 22 nm, los SS-ADC se implementan utilizando un generador de rampa de arranque y comparadores dinámicos. Suponiendo que la salida del contador que representa la función ReLU es un entero de N bits, necesita \(2^N\) ciclos para una sola conversión. El ADC se suministra con un reloj de 2 GHz para el circuito contador. En las figuras 3a, b se muestran simulaciones de SPICE que muestran la naturaleza multiplicativa de los píxeles integrados del transistor de peso con respecto a la corriente del fotodiodo. El comportamiento funcional del circuito para la operación de convolución analógica se muestra en la Fig. 3c. En la Fig. 4 se muestra una forma de onda de temporización típica que muestra el funcionamiento de los píxeles junto con el funcionamiento SS-ADC simulado en el nodo tecnológico GlobalFoundries de 22 nm.

También puede ser importante tener en cuenta que lo más destacado de nuestra propuesta es que reutilizamos varias funciones de circuito que ya están disponibles en las cámaras comerciales. Esto garantiza que la mayoría de los periféricos existentes y los bloques de control de temporización correspondientes requerirían sólo modificaciones menores para admitir nuestros cálculos P2M propuestos. Específicamente, en lugar de activar una fila a la vez a modo de persiana enrollable, P2M requiere la activación de un grupo de filas, simultáneamente, correspondiente al tamaño de los granos en las primeras capas. Luego se activarían varios grupos de filas en un formato típico de persiana enrollable. En general, la secuenciación de la activación de píxeles (excepto por el hecho de que se debe activar un grupo de filas en lugar de una sola fila), el funcionamiento del CDS, el ADC y la lectura del bus serían similares a las de las cámaras típicas22.

En esta sección, nos gustaría resaltar la viabilidad del paradigma P2M propuesto que presenta píxeles integrados en memoria con respecto a su capacidad de fabricación utilizando procesos de fundición existentes. En la Fig. 5 se muestra una ilustración representativa de un sistema heterogéneamente integrado que satisface las necesidades del paradigma P2M propuesto. La figura consta de dos elementos clave: (i) un sensor de imagen CMOS con iluminación trasera (Bi-CIS), que consta de foto- diodos, circuitos de lectura y transistores de píxeles (reinicio, seguidor de fuente y transistores seleccionados), y (ii) una matriz que consta de múltiples transistores de peso por píxel (consulte la Figura 2). En la Fig. 2, se puede ver que cada píxel consta de múltiples transistores de peso que darían lugar a una sobrecarga de área excepcionalmente alta. Sin embargo, con el esquema de integración heterogéneo presentado en la Fig. 5, los transistores de peso están alineados verticalmente debajo de un píxel estándar, por lo que no generan ningún aumento (o mínimo) en la huella. Específicamente, cada chip Bi-CIS se puede implementar en un nodo tecnológico líder o rezagado. La matriz que consta de transistores de peso se puede construir en un nodo de tecnología plana o no plana avanzada, de modo que los múltiples transistores de peso puedan acomodarse en el mismo espacio ocupado por un solo píxel (suponiendo que los tamaños de los píxeles sean mayores que el circuito de memoria integrado del transistor de peso). configuración). El chip/matriz del sensor de imagen Bi-CIS se integra de forma heterogénea mediante un proceso de unión (matriz a matriz o matriz a oblea) integrándolo en la matriz compuesta por transistores de peso. Preferiblemente, una fusión de metal a metal a baja temperatura de matriz a oblea con un proceso híbrido de enlace directo de dieléctrico a dieléctrico puede lograr un escalado de paso submicrónico de alto rendimiento con una alineación vertical precisa23. Una de las ventajas de adaptar esta tecnología de integración heterogénea es que se pueden fabricar chips de diferentes tamaños en distintas fuentes de fundición, nodos tecnológicos y funciones y luego integrarlos entre sí. En caso de que existan limitaciones debido al mayor número de transistores en la matriz que consta de pesos, se puede utilizar un esquema de integración a nivel de píxeles convencional, como las conexiones de nivel de píxeles apiladas (SPLC), que protegen la capa lógica CMOS de la luz incidente a través de la región del chip Bi-CIS también proporcionaría una alta densidad de píxeles y un amplio rango dinámico24. Alternativamente, también se podría adoptar la técnica de integración a través de silicio (TSV) para el sensor de imagen CMOS iluminado frontal (Fi-CIS), en la que el sensor de imagen CMOS se une a la matriz que consta de elementos de memoria a través de un proceso TSV. Sin embargo, en el Bi-CIS, el cableado se aleja del camino de luz iluminado, lo que permite que llegue más luz al sensor, lo que proporciona un mejor rendimiento con poca luz25.

Ilustración representativa de un sistema heterogéneamente integrado que presenta el paradigma P2M, construido sobre un sensor de imagen CMOS iluminado en la parte posterior (Bi-CIS). \(\textcircled {1}\) Microlente, \(\textcircled {2}\) Protector de luz, \(\textcircled {3}\) Sensor de imagen CMOS con iluminación trasera (Bi-CIS), \(\textcircled {4 }\) Parte trasera de la línea Bi-CIS, \(\textcircled {5}\) Troquel que consta de transistores de peso, \(\textcircled {6}\) puntos de soldadura para el bus de entrada/salida (E/S).

Ventajosamente, el esquema de integración heterogéneo se puede utilizar para fabricar sistemas de sensores P2M en tecnologías existentes y emergentes. Específicamente, la matriz que consta de transistores de peso podría usar una estructura basada en ROM como se muestra en la sección "Implementación del circuito P2M" u otras tecnologías emergentes de memoria no volátil programable como PCM26, RRAM27, MRAM28, transistores de efecto de campo ferroeléctrico (FeFET)29, etc. , fabricado en distintas fundiciones y posteriormente integrado de forma heterogénea con la matriz CIS. Por lo tanto, la integración heterogénea propuesta nos permite lograr una menor sobrecarga de área y, al mismo tiempo, permitir una convolución fluida y masivamente paralela. Específicamente, según los números de paso de poli y metal contactados30, estimamos que se pueden incrustar más de 100 transistores de peso en una matriz integrada 3D utilizando una tecnología de 22 nm, asumiendo que el área de píxeles subyacente (dominada por el fotodiodo) es 10 \(\ upmu\)m \(\times\) 10 \(\upmu\)m. La disponibilidad de dispositivos de memoria no volátil de dos terminales integrados monolíticamente al final de la línea podría permitir una integración más densa de pesos dentro de cada píxel. Dichos píxeles integrados de peso permiten que los píxeles individuales tengan acceso in situ tanto a la activación como a los pesos según lo necesite el paradigma P2M, lo que evita la necesidad de transferir pesos o activación de una ubicación física a otra a través de un bus con ancho de banda limitado. Por lo tanto, a diferencia de otras soluciones de múltiples chips9, nuestro enfoque no genera cuellos de botella de energía.

Marco de codiseño de circuitos de algoritmos para permitir que nuestro enfoque P2M propuesto optimice tanto el rendimiento como la eficiencia energética de las cargas de trabajo de visión. Proponemos el uso de ① avances grandes, ② tamaños de kernel grandes, ③ número reducido de canales, ④ convolución personalizada P2M y ⑤ operación ReLU desplazada para incorporar el término de desplazamiento de la capa de normalización por lotes, para emular el comportamiento preciso del circuito P2M.

En esta sección, presentamos nuestras optimizaciones algorítmicas para redes troncales CNN estándar que se guían por (1) restricciones del circuito P2M que surgen debido a la naturaleza informática analógica de la matriz de píxeles propuesta y la precisión de conversión limitada de los SS-ADC en chip, (2) la necesidad de lograr una precisión de prueba de última generación y (3) maximizar las métricas de hardware deseadas de alta reducción de ancho de banda, eficiencia energética y baja latencia de la computación P2M, y cumplir con el presupuesto de memoria y computación de la aplicación VWW. La mejora reportada en las métricas de hardware (ilustrada en la sección “Estimación de EDP”) es, por lo tanto, el resultado de una intrincada cooptimización de algoritmos de circuitos.

Desde una perspectiva algorítmica, la primera capa de una CNN es una operación de convolución lineal seguida de BN y activación no lineal (ReLU). El esquema del circuito P2M, explicado en la sección "Implementación del circuito P2M", implementa la operación de convolución en el dominio analógico utilizando píxeles incorporados en memoria modificados. Las entidades constituyentes de estos píxeles son transistores, que son dispositivos inherentemente no lineales. Como tal, en general, cualquier circuito de convolución analógico que consista en dispositivos transistorizados exhibirá un comportamiento no lineal no ideal con respecto a la operación de convolución. Muchos trabajos existentes, específicamente en el dominio de la operación memristiva de productos escalares analógicos, ignoran las no idealidades que surgen de los dispositivos de transistores no lineales31,32. Por el contrario, para capturar estas no linealidades, realizamos simulaciones extensas del circuito P2M presentado que abarca una amplia gama de parámetros del circuito, como el ancho de los transistores de peso y la corriente del fotodiodo basado en el nodo de tecnología de transistores comercial Globafoundries de 22 nm. Los resultados resultantes de SPICE, es decir, los voltajes de salida de píxeles correspondientes a un rango de pesos y corrientes de fotodiodos, se modelaron utilizando una función de ajuste de curvas de comportamiento. Luego, la función generada se incluyó en nuestro marco algorítmico, reemplazando la operación de convolución en la primera capa de la red. En particular, acumulamos la salida de la función de ajuste de curvas, una para cada píxel en el campo receptivo (tenemos 3 canales de entrada y un tamaño de núcleo de \(5\times 5\), y por lo tanto, nuestro tamaño de campo receptivo es 75), para modelar cada producto interno generado por la capa convolucional en píxeles. Luego, este marco algorítmico se utilizó para optimizar el entrenamiento de CNN para el conjunto de datos VWW.

Como se explica en la sección "Píxeles integrados de peso de múltiples bits y canales múltiples", el esquema del circuito P2M maximiza el paralelismo y la reducción del ancho de banda de datos activando múltiples píxeles y leyendo múltiples operaciones de convolución analógica paralelas para un canal determinado en el mapa de características de salida. La operación de convolución analógica se repite en serie para cada canal en el mapa de características de salida. Por tanto, la convolución paralela en el circuito tiende a mejorar el paralelismo, la reducción del ancho de banda, la eficiencia energética y la velocidad. Pero aumentar el número de canales en la primera capa aumenta el aspecto serial de la convolución y degrada el paralelismo, la reducción del ancho de banda, la eficiencia energética y la velocidad. Esto crea una intrincada compensación circuito-algoritmo, en la que la red troncal CNN debe optimizarse para tener tamaños de núcleo más grandes (lo que aumenta la activación simultánea de más píxeles, ayudando al paralelismo) y avances no superpuestos (para reducir la dimensionalidad en el flujo descendente). capas CNN, reduciendo así el número de multiplicaciones y sumas y el uso máximo de memoria), un número menor de canales (para reducir la operación en serie para cada canal), manteniendo al mismo tiempo una precisión de clasificación cercana a la más moderna y teniendo en cuenta las no idealidades asociadas con la operación de convolución analógica. Además, la disminución del número de canales disminuye la cantidad de transistores de peso integrados dentro de cada píxel (cada píxel tiene transistores de peso igual a la cantidad de canales en el mapa de características de salida), lo que mejora el área y el consumo de energía. Además, el mapa de activación de salida más pequeño resultante (debido a la reducción del número de canales y a tamaños de núcleo más grandes con pasos que no se superponen) reduce la energía incurrida en la transmisión de datos desde el CIS a la unidad de procesamiento CNN posterior y el número de operaciones de punto flotante. (y en consecuencia, el consumo de energía) en las capas aguas abajo.

Además, proponemos fusionar la capa BN, en parte en la capa convolucional anterior y en parte en la capa ReLU siguiente para permitir su implementación a través de P2M. Consideremos una capa BN con \(\gamma\) y \(\beta\) como parámetros entrenables, que permanecen fijos durante la inferencia. Durante la fase de entrenamiento, la capa BN normaliza los mapas de características con una media corriente \(\mu\) y una varianza corriente \(\sigma\), que se guardan y se utilizan para la inferencia. Como resultado, la capa BN implementa una función lineal, como se muestra a continuación.

Proponemos fusionar el término de escala A en los pesos (el valor del tensor de peso incrustado del píxel es \(A\cdot \theta\), donde \(\theta\) es el tensor de peso final obtenido mediante nuestro entrenamiento) que están incrustados como los anchos del transistor en la matriz de píxeles. Además, proponemos utilizar una función de activación ReLU desplazada, siguiendo la capa covolucional, como se muestra en la Fig. 6 para incorporar el término de desplazamiento B. Utilizamos la implementación de ADC basada en contador ilustrada en “Reutilización del circuito de muestreo doble correlacionado digital y Sección ADC de pendiente única como neuronas ReLU ”para implementar la activación ReLU desplazada. Esto se puede lograr fácilmente restableciendo el contador a un valor distinto de cero correspondiente al término B al inicio de la operación de convolución, en lugar de restablecer el contador a cero.

Además, para minimizar el costo de energía de la conversión de analógico a digital en nuestro enfoque P2M, también debemos cuantificar la salida de la capa a la menor cantidad de bits posible, sujeto a lograr la precisión deseada. Entrenamos un modelo de punto flotante con una precisión cercana al estado de precisión y luego realizamos la cuantificación en la primera capa convolucional para obtener pesos y activaciones de baja precisión durante la inferencia33. También cuantificamos la media, la varianza y los parámetros entrenables de la capa BN, ya que todos estos afectan el término de desplazamiento B (consulte la ecuación 1), que debe cuantificarse para la implementación de ADC desplazado de baja precisión. Evitamos el entrenamiento consciente de la cuantificación34 porque aumenta significativamente el costo de entrenamiento sin reducir la precisión de bits para nuestro modelo con isoprecisión. Tenga en cuenta que la falta de mejora en la precisión de bits de QAT probablemente se debe a que una pequeña mejora en la cuantificación solo de la primera capa puede tener poco impacto en la precisión de la prueba de toda la red.

Con la reducción del ancho de banda obtenida por todos estos enfoques, el mapa de características de salida de las capas implementadas por P2M se puede implementar más fácilmente en microcontroladores con una huella de memoria extremadamente baja, mientras que el propio P2M mejora en gran medida la eficiencia energética de la primera capa. Por lo tanto, nuestro enfoque puede habilitar aplicaciones TinyML que generalmente tienen un presupuesto de cómputo y memoria ajustado, como se ilustra en la sección "Evaluación comparativa de conjuntos de datos y modelos".

Para cuantificar la reducción del ancho de banda (BR) después de la primera capa obtenida por P2M (las capas BN y ReLU no producen ningún BR), sea I el número de elementos en la imagen de entrada RGB y en el mapa de activación de salida después de la capa de activación ReLU. ser O. Entonces, BR se puede estimar como

Aquí, el factor \(\left( \frac{4}{3}\right)\) representa la compresión del patrón de píxeles RGGB de Bayer a píxeles RGB porque podemos ignorar el píxel verde adicional o diseñar el circuito para tomar efectivamente el promedio de las corrientes del fotodiodo de los dos píxeles verdes. El factor \(\frac{12}{N_b}\) representa la relación de la precisión de bits entre los píxeles de la imagen capturados por el sensor (los píxeles suelen tener una profundidad de bits de 1235) y la salida cuantificada de nuestra capa convolucional denotada como \(N_b\). Sustituyamos ahora

en la ecuación. (2), donde i denota la dimensión espacial de la imagen de entrada, k, p, s denota el tamaño del núcleo, el relleno y el paso de la capa convolucional en píxeles, respectivamente, y \(c_o\) denota el número de canales de salida de la capa convolucional en píxeles. Estos hiperparámetros, junto con \(N_b\), se obtienen mediante una exhaustiva exploración del espacio de diseño algorítmico con el objetivo de lograr la mayor precisión, sujeto al cumplimiento de las limitaciones de hardware y el presupuesto de memoria y computación de nuestro punto de referencia TinyML. Mostramos sus valores en la Tabla 1 y los sustituimos en la ecuación. (2) para obtener un BR de \(21\times\).

Este artículo se centra en el potencial de P2M para aplicaciones TinyML, es decir, con modelos que pueden implementarse en dispositivos IoT de bajo consumo con sólo unos pocos kilobytes de memoria en el chip36,37,38. En particular, el conjunto de datos Visual Wake Words (VWW)39 presenta un caso de uso relevante para TinyML visual. Consiste en imágenes de alta resolución que incluyen señales visuales para "despertar" dispositivos de asistencia doméstica impulsados por IA, como el Astro40 de Amazon, que requiere inferencia en tiempo real en entornos con recursos limitados. El objetivo del desafío VWW es detectar la presencia de un ser humano en el cuadro con muy pocos recursos: cerca de 250 KB de uso máximo de RAM y tamaño de modelo39. Para cumplir con estas limitaciones, las soluciones actuales implican reducir la resolución de la imagen de entrada a una resolución media (\(224\times 224\)), lo que cuesta cierta precisión33.

En este trabajo, utilizamos las imágenes del conjunto de datos COCO201441 y la división tren-val especificada en el artículo fundamental39 que introdujo el conjunto de datos VWW. Esta división garantiza que las etiquetas de capacitación y validación estén aproximadamente equilibradas entre las dos clases, "persona" y "antecedentes"; El 47% de las imágenes en el conjunto de datos de entrenamiento de 115.000 imágenes tienen la etiqueta "persona" y, de manera similar, el 47% de las imágenes en el conjunto de datos de validación están etiquetadas con la categoría "persona". Los autores también se aseguran de que la distribución del área de los cuadros delimitadores de la etiqueta 'persona' permanezca similar en todo el conjunto train y val. Por lo tanto, el conjunto de datos VWW con dicha división tren-val actúa como punto de referencia principal de los modelos tinyML42 que se ejecutan en microcontroladores de bajo consumo. Elegimos MobileNetV243 como nuestra arquitectura CNN de referencia con 32 y 320 canales para la primera y la última capa convolucional respectivamente que admite imágenes de resolución completa (\(560\times 560\)). Para evitar el sobreajuste a solo dos clases en el conjunto de datos VWW, disminuimos el número de canales en el último bloque convolucional separable en profundidad en \(3\times\). MobileNetV2, similar a otros modelos de la clase MobileNet, es muy compacto43 con un tamaño inferior al máximo permitido en el desafío VWW. Funciona bien en conjuntos de datos complejos como ImageNet44 y, como se muestra en la sección "Resultados experimentales", funciona muy bien en VWW.

Para evaluar P2M en MobileNetV2, creamos un modelo personalizado que reemplaza la primera capa convolucional con nuestra capa personalizada P2M que captura las no idealidades sistemáticas de los circuitos analógicos, el número reducido de canales de salida y la limitación de pasos no superpuestos, como discutido en la sección “Codiseño de circuito de algoritmo restringido por P2M”.

Entrenamos tanto el modelo básico como el personalizado P2M en PyTorch utilizando el optimizador SGD con un impulso igual a 0,9 durante 100 épocas. El modelo de referencia tiene una tasa de aprendizaje inicial (LR) de 0,03, mientras que la contraparte personalizada tiene una LR inicial de 0,003. Ambas tasas de aprendizaje disminuyen en un factor de 0,2 cada 35 y 45 épocas. Después de entrenar un modelo de punto flotante con la mejor precisión de validación, realizamos la cuantificación para obtener pesos enteros de 8 bits, activaciones y parámetros (incluidas la media y la varianza) de la capa BN. Todos los experimentos se realizan en una GPU Nvidia 2080Ti con 11 GB de memoria.

Comparación entre los modelos de referencia y personalizados P2M: Evaluamos el rendimiento de los modelos MobileNet-V2 de referencia y P2M personalizados en el conjunto de datos VWW en la Tabla 2. Tenga en cuenta que ambos modelos se entrenan desde cero. Nuestro modelo de referencia actualmente produce la mejor precisión de prueba en el conjunto de datos VWW entre los modelos disponibles en la literatura que no aprovecha ningún entrenamiento previo o aumento adicional. Tenga en cuenta que nuestro modelo de referencia requiere una cantidad significativa de memoria máxima y MAds (\({\sim }30\times\) más de lo permitido en el desafío VWW), sin embargo, sirve como un buen punto de referencia para comparar la precisión. Observamos que el modelo personalizado habilitado para P2M puede reducir el número de MAds en \({\sim }7.15\times\) y el uso máximo de memoria en \({\sim }25.1\times\) con \(1.47\% \) caída en la precisión de la prueba en comparación con el modelo de referencia sin comprimir para una resolución de imagen de \(560\veces 560\). Con la reducción de memoria, nuestro modelo P2M puede ejecutarse en pequeños microcontroladores con sólo 270 KB de SRAM en el chip. Tenga en cuenta que el uso máximo de memoria se calcula utilizando la misma convención que 39. Observe también que tanto la precisión del modelo básico como el personalizado disminuyen (aunque la caída es significativamente mayor para el modelo personalizado) a medida que reducimos la resolución de la imagen, lo que resalta la necesidad de imágenes de alta resolución y la eficacia de P2M para aliviar el cuello de botella del ancho de banda. entre detección y procesamiento, y reducir la cantidad de MAds para el procesamiento de CNN posterior.

Comparación con modelos SOTA: la Tabla 3 proporciona una comparación del rendimiento de los modelos generados a través de nuestro marco de cosimulación de circuito de algoritmo con modelos SOTA TinyML para VWW. Nuestros modelos personalizados P2M arrojan precisiones de prueba dentro del \(0,37\%\) del modelo con mejor rendimiento en la literatura45. Tenga en cuenta que hemos entrenado nuestros modelos únicamente en función de los datos de entrenamiento proporcionados, mientras que ProxylessNAS45, que ganó el desafío VWW de 2019, aprovechó un entrenamiento previo adicional con ImageNet. Por lo tanto, para mantener la coherencia, informamos la precisión de la prueba de ProxylessNAS con configuraciones de entrenamiento idénticas en la red final proporcionada por los autores, similar a 33. Tenga en cuenta que46 aprovechó la computación en memoria analógica de eficiencia energética masivamente paralela para implementar MobileNet-V2 para VWW, pero incurre en una caída de precisión de \(5,67\%\) y \(4,43\%\) en comparación con nuestra línea base y el estado anterior. Modelos de última generación45. Esto probablemente implica la necesidad de un intrincado codiseño algoritmo-hardware y un modelado preciso de las no idealidades del hardware en el marco algorítmico, como se muestra en nuestro trabajo.

(a) Efecto de la cuantificación de las activaciones de salida en píxeles y (b) efecto del número de canales en la primera capa convolucional para diferentes tamaños de núcleo y avances, en la precisión de la prueba de nuestro modelo personalizado P2M.

Efecto de la cuantificación de la capa en píxeles: como se analiza en la sección "Codiseño de circuito de algoritmo restringido por P2M", cuantificamos la salida de la primera capa convolucional de nuestro modelo propuesto después del entrenamiento para reducir el consumo de energía debido al sensor. ADC y comprime la salida como se describe en la ecuación. (2). Analizamos las precisiones de bits de salida de {4,6,8,16,32} para explorar el equilibrio entre precisión y compresión/eficiencia, como se muestra en la Fig. 7a. Elegimos un ancho de bits de 8, ya que es la precisión más baja que no produce ninguna caída de precisión en comparación con los modelos de precisión total. Como se muestra en la Fig. 7, los pesos en la capa de píxeles también se pueden cuantificar a 8 bits con un mapa de activación de salida de 8 bits, con una caída de precisión inferior a \(0,1\%\).

Estudio de ablación: también estudiamos la caída de precisión incurrida debido a cada una de las tres modificaciones (zancadas no superpuestas, canales reducidos y función personalizada) en el modelo personalizado habilitado para P2M. La incorporación de zancadas no superpuestas (zancada de 5 para \(5\times 5\) núcleos de una zancada de 2 para \(3\times 3\) en el modelo de referencia) conduce a una caída de precisión de \(0,58\). %\). Reducir el número de canales de salida de la convolución en píxeles en \(4\times\) (8 canales de 32 canales en el modelo de referencia), además de las zancadas no superpuestas, reduce la precisión de la prueba en \(0,33\). %\). Además, reemplazar la multiplicación de elementos con la función P2M personalizada en la operación de convolución reduce la precisión de la prueba en un total de \(0,56\%\) en comparación con el modelo de referencia. Tenga en cuenta que podemos comprimir aún más la salida en píxeles aumentando el valor de zancada (cambiando el tamaño del núcleo proporcionalmente para zancadas que no se superponen) o disminuyendo el número de canales. Pero ambos enfoques reducen significativamente la precisión de la prueba VWW, como se muestra en la Fig. 7b.

Comparación con trabajos anteriores: la Tabla 4 compara diferentes trabajos de computación en el sensor y cerca del sensor10,11,12,13 en la literatura con nuestro enfoque P2M propuesto. Sin embargo, la mayoría de estas comparaciones son de naturaleza cualitativa. Esto se debe a que casi todos estos trabajos han utilizado conjuntos de datos de juguetes como MNIST, mientras que algunos han utilizado conjuntos de datos de baja resolución como CIFAR-10. Se debe realizar una evaluación justa de la computación en píxeles en imágenes de alta resolución capturadas por sensores de cámaras modernas. Hasta donde sabemos, este es el primer artículo que muestra la computación en píxeles en un conjunto de datos de alta resolución, como VWW, con el codiseño de algoritmo de hardware asociado. Además, en comparación con trabajos anteriores, implementamos operaciones informáticas más complejas que incluyen convolución analógica, norma por lotes y ReLU dentro de la matriz de píxeles. Además, la mayoría de los trabajos anteriores utilizan nodos de tecnología más antigua (como 180 nm). Por lo tanto, debido a la gran discrepancia en el uso de nodos tecnológicos, conjuntos de datos poco realistas para la computación en píxeles y solo un subconjunto de cálculos implementados en trabajos anteriores, no es factible hacer una comparación cuantitativa justa entre el trabajo actual y los anteriores. obras en la literatura. Sin embargo, la Tabla 4 enumera las diferencias clave y compara los aspectos más destacados de cada trabajo, lo que puede ayudar a desarrollar una buena comprensión comparativa de la capacidad de computación en píxeles de nuestro trabajo en comparación con trabajos anteriores.

Desarrollamos un marco de cosimulación de algoritmo de circuito para caracterizar la energía y el retraso de nuestros modelos VWW de referencia y implementados con P2M. El consumo total de energía para ambos modelos se puede dividir en tres componentes principales: sensor (\(E_{sens}\)), comunicación de sensor a SoC (\(E_{com}\)) y energía de SoC (\ (E_{soc}\)). La energía del sensor se puede descomponer aún más en lectura de píxeles (\(E_{pix}\)) y costo de conversión de analógico a digital (ADC) (\(E_{adc}\)). \(E_{soc}\), por otro lado, se compone principalmente de las operaciones MAd (\(E_{mac}\)) y el costo de lectura de parámetros (\(E_{read}\)). Por tanto, la energía total se puede aproximar como:

Aquí, \(e_{sens}\) y \(e_{com}\) representan la energía de comunicación y detección por píxel, respectivamente. \(e_{mac}\) es la energía incurrida en una operación MAC, \(e_{read}\) representa la energía de lectura de un parámetro y \(N_{pix}\) denota el número de píxeles comunicados desde el sensor al SoC . Para una capa convolucional que toma una entrada \(\mathbf {I} \in R^{h_i\times w_i\times c_i}\) y un tensor de peso \(\mathbf {\theta } \in R^{k\times k \times c_i\times c_o}\) para producir la salida \(\mathbf {O} \in R^{h_o\times w_o\times c_o}\), el \(N_{mac}\)49 y \(N_{ read}\) se puede calcular como,

Los valores de energía que hemos utilizado para evaluar \(E_{tot}\) se presentan en la Tabla 5. Mientras que \(e_{pix}\) y \(e_{adc}\) se obtienen de nuestras simulaciones de circuitos, \(e_ {com}\) se obtiene de50. Ignoramos el valor de \(E_{read}\) ya que corresponde solo a una pequeña fracción (\(<10^{-4}\)) de la energía total, similar a 51,52,53,54. La Figura 8a muestra la comparación de los costos de energía para los modelos estándar versus los implementados por P2M. En particular, P2M puede producir una reducción de energía de hasta \(7,81\veces\). Además, el ahorro de energía es mayor cuando el mapa de características debe transferirse desde un dispositivo perimetral a la nube para su posterior procesamiento, debido a los altos costos de comunicación. Tenga en cuenta que aquí asumimos dos escenarios de referencia, uno con compresión y otro sin compresión. La primera línea de base es MobileNetV2, que reduce agresivamente el muestreo de la entrada de manera similar a P2M (\(h_i/w_i: 560 \longrightarrow h_o/w_o: 112\)). Para el segundo modelo de referencia, asumimos núcleos de convolución de primera capa estándar que causan una reducción de muestreo de características estándar (\(h_i/w_i: 560 \longrightarrow h_o/w_o: 279\)).

Para evaluar el retraso de los modelos asumimos la ejecución secuencial de las operaciones de capa48,55,56 y calculamos un retraso de capa convolucional única como48

donde las notaciones de los parámetros y sus valores se muestran en la Tabla 6. Con base en esta suposición secuencial, el retraso de cálculo aproximado para un solo paso directo para nuestro modelo P2M puede estar dado por

Aquí, \(T_{sens}\) y \(T_{adc}\) corresponden al retraso asociado a la lectura del sensor y al funcionamiento del ADC, respectivamente. \(T_{conv}\) corresponde al retraso asociado con todas las capas convolucionales donde el retraso de cada capa se calcula mediante la ecuación. (7). La Figura 8b muestra la comparación del retraso entre P2M y las líneas de base correspondientes donde el retraso total se calcula con el supuesto de detección secuencial y operación de SoC. En particular, el enfoque P2M propuesto puede producir un retraso mejorado de hasta \(2,15\veces\). Por lo tanto, la ventaja EDP total de P2M puede ser de hasta \(16,76\veces\). Por otro lado, incluso con el supuesto conservador de que el retraso total se estima como max(\(T_{sens}\)+\(T_{adc}\), \(T_{conv}\)), la ventaja de EDP puede ser hasta \(\mathord {\sim }11\times\).

Dado que los canales se procesan en serie en nuestro enfoque P2M, la latencia de la operación de convolución aumenta linealmente con el número de canales. Con 64 canales de salida, la latencia de la operación de convolución en píxeles aumenta a 288,5 ms desde 36,1 ms con 8 canales. Por otro lado, la detección combinada y la latencia de convolución de la primera capa utilizando el enfoque clásico aumenta solo a 45,7 ms con 64 canales desde 44 ms con 8 canales. Esto se debe a que el retraso de convolución constituye una fracción muy pequeña del retraso total (detección+ADC+convolución) en el enfoque clásico. El punto de equilibrio (número de canales más allá del cual la convolución en píxeles es más lenta en comparación con la convolución clásica) se produce en 10 canales. Mientras que la energía de la convolución en píxeles aumenta de 0,13 mJ con 8 canales a 1,0 mJ con 32 canales, la energía de convolución clásica aumenta de 1,31 mJ con 8 canales a 1,39 mJ con 64 canales. Por lo tanto, nuestro enfoque P2M propuesto consume menos energía que el enfoque clásico, incluso cuando el número de canales aumenta a 64. Dicho esto, casi todas las arquitecturas de visión por computadora en dispositivos de última generación (por ejemplo, MobileNet y sus variantes) con presupuestos ajustados de computación y memoria (típicos de las aplicaciones de IoT) no tienen más de 8 canales de salida en la primera capa33,43, lo cual es similar a nuestros hallazgos algorítmicos.

Comparación del costo de energía total, de detección y de SoC normalizado (a) y (b) retraso entre las arquitecturas de los modelos P2M y de referencia (C comprimido y NC no comprimido). Tenga en cuenta que la normalización de cada componente se realizó sumergiendo el valor de energía (retraso) correspondiente con el valor de energía (retraso) total máximo de los tres componentes.

Con la mayor disponibilidad de sensores de imagen de alta resolución, ha habido una creciente demanda de soluciones de IA en los dispositivos energéticamente eficientes. Para mitigar la gran cantidad de transmisión de datos entre el sensor y el acelerador/procesador de IA del dispositivo, proponemos un paradigma novedoso llamado Procesamiento en píxeles en memoria (P2M), que aprovecha las tecnologías CMOS avanzadas para permitir que la matriz de píxeles realice una gama más amplia de operaciones complejas, incluidas muchas operaciones requeridas por las canalizaciones de redes neuronales convolucionales (CNN) modernas, como la activación multicanal, convolución de múltiples bits, BN y ReLU. En consecuencia, solo los datos significativos comprimidos, por ejemplo después de las primeras capas de procesamiento CNN personalizado, se transmiten en sentido descendente al procesador de IA, lo que reduce significativamente el consumo de energía asociado con el sensor ADC y el ancho de banda de transmisión de datos requerido. Nuestros resultados experimentales arrojan una reducción de las velocidades de datos después de los ADC del sensor hasta \({\sim }21\times\) en comparación con las soluciones estándar de procesamiento cercano al sensor, lo que reduce significativamente la complejidad del procesamiento posterior. De hecho, esto permite el uso de microcontroladores de costo relativamente bajo para muchas aplicaciones de visión integradas de bajo consumo y desbloquea una amplia gama de aplicaciones visuales TinyML que requieren imágenes de alta resolución para mayor precisión, pero que están limitadas por el uso de computación y memoria. También podemos aprovechar P2M para aplicaciones aún más complejas, donde el procesamiento posterior se puede implementar utilizando técnicas informáticas de sensores cercanos existentes que aprovechan tecnologías avanzadas de integración 2,5 y 3D57.

Los conjuntos de datos utilizados y/o analizados durante el estudio actual están disponibles del autor correspondiente previa solicitud razonable.

Xie, J. y col. Visión por ordenador basada en aprendizaje profundo para la vigilancia en su: Evaluación de métodos de última generación. Traducción IEEE. Veh. Tecnología. 70, 3027–3042 (2021).

Artículo de Google Scholar

Iqbal, U., Perez, P., Li, W. y Barthelemy, J. Cómo la visión por computadora puede facilitar la gestión de inundaciones: una revisión sistemática. En t. J. Reducción del riesgo de desastres. 53, 102030 (2021).

Artículo de Google Scholar

Gomez, A., Salazar, A. & Vargas, F. Hacia el monitoreo automático de animales salvajes: identificación de especies animales en imágenes de cámaras trampa utilizando redes neuronales convolucionales muy profundas. Preimpresión de arXiv arXiv:1603.06169 (2016).

Escalado de sensores de imagen CMOS. https://semiengineering.com/scaling-cmos-image-sensors/ (2020) (consultado el 20 de abril de 2020).

Sejnowski, TJ La eficacia irrazonable del aprendizaje profundo en inteligencia artificial. Proc. Nacional. Acad. Ciencia. 117, 30033–30038 (2020).

Artículo ADS CAS Google Scholar

Fossum, E. Sensores de imagen CMOS: cámara electrónica en un chip. Traducción IEEE. Dispositivos electrónicos 44, 1689–1698. https://doi.org/10.1109/16.628824 (1997).

ADS del artículo Google Scholar

Buckler, M., Jayasuriya, S. y Sampson, A. Reconfiguración del proceso de imágenes para la visión por computadora. En 2017, Conferencia Internacional IEEE sobre Visión por Computadora (ICCV) 975–984 (2017).

Pinkham, R., Berkovich, A. & Zhang, Z. Procesamiento dnn distribuido por sensor cercano para realidad virtual y aumentada. IEEE J. Emerg. Sel. Arriba. Sistema de circuitos. 11, 663–676. https://doi.org/10.1109/JETCAS.2021.3121259 (2021).

ADS del artículo Google Scholar

Sony lanzará los primeros sensores de visión inteligentes del mundo con funcionalidad de procesamiento de IA. https://www.sony.com/en/SonyInfo/News/Press/202005/20-037E/ (2020) (consultado el 1 de diciembre de 2022).

Chen, Z. y col. Procesamiento de arquitectura de sensor cercano en dominio de señal mixta con sensor de imagen CMOS del método de lectura de núcleo convolucional. Traducción IEEE. Sistema de circuitos. Yo regulo. Papilla. 67, 389–400 (2020).

Artículo de Google Scholar

Mennel, L. y col. Visión artificial ultrarrápida con sensores de imágenes de redes neuronales de materiales 2D. Naturaleza 579, 62–66 (2020).

Artículo ADS CAS Google Scholar

Bose, L., Dudek, P., Chen, J., Carey, SJ y Mayol-Cuevas, WW Integración total de redes convolucionales rápidas en matrices de procesadores de píxeles. En Computer Vision—ECCV 2020—16th European Conference, Glasgow, Reino Unido, 23 al 28 de agosto de 2020, Actas, Parte XXIX, vol. 12374 488–503 (Springer, 2020).

Song, R., Huang, K., Wang, Z. y Shen, H. Una arquitectura de sensor de imagen cmos de convolución en píxeles reconfigurable. Traducción IEEE. Sistema de circuitos. Tecnología de vídeo. https://doi.org/10.1109/TCSVT.2022.3179370 (2022).

Artículo de Google Scholar

Jaiswal, A. & Jacob, AP Píxel integrado y celda de memoria no volátil de dos terminales y una serie de celdas para computación profunda en el sensor y en la memoria. Patente de EE. UU. 11.195.580 (2021).

Jaiswal, A. & Jacob, AP Celda de memoria no volátil de tres terminales y píxeles integrados y una serie de celdas para computación profunda en memoria y sensor. Patente estadounidense 11.069.402 (2021).

Angizi, S., Tabrizchi, S. y Roohi, A. Pisa: un acelerador de procesamiento en sensor de peso binario para el procesamiento de imágenes de bordes. Preimpresión de arXiv arXiv:2202.09035 (2022).

He, K., Zhang, X., Ren, S. & Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes. Preimpresión de arXiv arXiv:1512.03385 (2015).

Iandola, FN et al. SqueezeNet: Precisión a nivel de AlexNet con 50 veces menos parámetros y un tamaño de modelo <0,5 MB. Preimpresión de arXiv arXiv:1602.07360 (2016).

Jogin, M. et al. Extracción de características mediante redes neuronales convolucionales (CNN) y aprendizaje profundo. En 2018, la Tercera Conferencia Internacional IEEE sobre Tendencias Recientes en Electrónica, Tecnología de la Información y la Comunicación (RTEICT), vol. 1 2319–2323 (2018).

Cho, K., Kim, D. & Song, M. Un CDS dual de baja potencia para un sensor de imagen CMOS de columna paralela. JSTS J. Semicond. Tecnología. Ciencia. 12, 388–396 (2012).

Artículo de Google Scholar

Ma, J., Masoodian, S., Starkey, DA y Fossum, ER Sensor de imagen de megapíxeles con resolución de números de fotones a temperatura ambiente sin ganancia de avalancha. Óptica 4, 1474-1481 (2017).

Artículo ADS CAS Google Scholar

Toyama, T. y col. Un sensor de imagen CMOS de 17,7 megapíxeles y 120 fps con lectura de 34,8 gb/s. En 2011, Conferencia Internacional de Circuitos de Estado Sólido IEEE 420–422 (IEEE, 2011).

Gao, G. y col. Enlace híbrido de chip a oblea con interconexión de Cu: estudio de compatibilidad de procesos de fabricación de gran volumen. En 2019, la Conferencia Internacional de Envasado a Nivel de Obleas (IWLPC), vol. 1 1–9 (2019).

Venezia, VC y cols. Sensor de imagen con iluminación trasera y ganancia de conversión dual de 1,5 μm que utiliza conexiones de nivel de píxeles apilados con capacitancia de pozo completo de 13ke y ruido de 0,8e. En la Reunión Internacional de Dispositivos Electrónicos (IEDM) de IEEE de 2018, vol. 1 10.1.1–10.1.4 (2018).

Sukegawa, S. y col. Un sensor de imagen CMOS apilado retroiluminado de 1/4 de pulgada y 8 megapíxeles. En 2013, Resumen de artículos técnicos de la Conferencia Internacional de Circuitos de Estado Sólido del IEEE, vol. 1 484–485 (2013).

Lee, BC y col. Tecnología de cambio de fase y el futuro de la memoria principal. IEEE Micro 30, 143–143. https://doi.org/10.1109/MM.2010.24 (2010).

Artículo de Google Scholar

Guo, K. y col. Diseño de búfer basado en RRAM para un acelerador CNN energéticamente eficiente. En el Simposio anual de IEEE Computer Society de 2018 sobre VLSI (ISVLSI) vol. 1435–440. https://doi.org/10.1109/ISVLSI.2018.00085 (2018).

Chih, Y.-D. et al. 13.3 una STT-MRAM integrada de 22 nm y 32 Mb con velocidad de lectura de 10 ns, resistencia de escritura en ciclo de 1 M, 10 años de retención en \(^{150circ}\)c y alta inmunidad a la interferencia del campo magnético. En la Conferencia Internacional de Circuitos de Estado Sólido del IEEE de 2020, (ISSCC) vol. 1 222–224 (2020).

Khan, A., Keshavarzi, A. y Datta, S. El futuro de la tecnología de transistores de efecto de campo ferroeléctrico. Nat. Electrón. 3, 588–597 (2020).

Artículo de Google Scholar

Gupta, M. y col. Tecnología SOT-MRAM de alta densidad y especificaciones de diseño para el dominio integrado en el nodo de 5 nm. En 2020, Reunión Internacional de Dispositivos Electrónicos (IEDM) 24–5 (IEEE, 2020).

Jain, S., Sengupta, A., Roy, K. y Raghunathan, A. RxNN: Un marco para evaluar redes neuronales profundas en barras transversales resistivas. Trans. Computadora. Des ayudado. Integral Sistema de circuitos. 40, 326–338 (2021).

Artículo de Google Scholar

Lammie, C. y Azghadi, MR Memtorch: un marco de simulación para arquitecturas de barras transversales memristivas profundas. En 2020, el Simposio internacional sobre circuitos y sistemas (ISCAS) vol. 1 1–5 (2020).

Saha, O., Kusupati, A., Simhadri, HV, Varma, M. y Jain, P. RNNPool: agrupación no lineal eficiente para inferencia limitada por RAM. En Avances en sistemas de procesamiento de información neuronal vol. 33 (eds Larochelle, H. et al.) 20473–20484 (Curran Associates, Inc., 2020).

Google Académico

Courbariaux, M., Hubara, I., Soudry, D., El-Yaniv, R. & Bengio, Y. Redes neuronales binarizadas: entrenamiento de redes neuronales profundas con pesos y activaciones restringidos a +1 o -1. Preimpresión de arXiv arXiv:1602.02830 (2016).

EN Semiconductores. Sensor de Imagen CMOS, 1,2 MP, Obturador Global (220). Rev. 10.

Ray, PP Una revisión de TinyML: estado del arte y perspectivas. Universidad J. Rey Saud. Computadora. inf. Ciencia. 34, 1595-1623 (2021).

Google Académico

Sudharsan, B. et al. Punto de referencia de TinyML: ejecución de redes neuronales completamente conectadas en microcontroladores básicos. En 2021, 7º Foro Mundial del IEEE sobre Internet de las Cosas (WF-IoT), vol. 1883–884 (2021).

Banbury, C. y col. Microredes: arquitecturas de redes neuronales para implementar aplicaciones TinyML en microcontroladores básicos. En Actas de sistemas y aprendizaje automático, vol. 3 (eds Smola, A. et al.) 517–532 (2021).

Chowdhery, A., Warden, P., Shlens, J., Howard, A. y Rhodes, R. Conjunto de datos de palabras de activación visual. Preimpresión de arXiv arXiv:1906.05721 (2019).

Conoce a Astro, un robot doméstico como ningún otro. https://www.aboutamazon.com/news/devices/meet-astro-a-home-robot-unlike-any-other (2021) (consultado el 28 de septiembre de 2021).

Lin, T.-Y. et al. Microsoft coco: objetos comunes en contexto. arXiv:1405.0312 (2014).

Banbury, CR y cols. Evaluación comparativa de sistemas tinyml: desafíos y dirección. Preimpresión de arXiv arXiv:2003.04821 (2020).

Howard, AG y cols. Mobilenets: Redes neuronales convolucionales eficientes para aplicaciones de visión móviles. Preimpresión de arXiv arXiv:1704.04861 (2017).

Russakovsky, O. y col. Reto de reconocimiento visual de imágenes a gran escala. Preimpresión de arXiv arXiv:1409.0575 (2015).

Han, S., Lin, J., Wang, K., Wang, T. y Wu, Z. Solución al Visual Wakeup Words Challenge'19 (primer lugar). https://github.com/mit-han-lab/VWW (2019).

Zhou, C. y col. Analognets: codiseño ML-HW de modelos TinyML resistentes al ruido y un acelerador de computación en memoria analógico siempre activo. Preimpresión de arXiv arXiv:2111.06503 (2021).

Stillmaker, A. & Baas, B. Ecuaciones de escala para la predicción precisa del rendimiento del dispositivo CMOS de 180 nm a 7 nm. Integración 58, 74–81 (2017).

Artículo de Google Scholar

Ali, M. y col. IMAC: Multiplicación y acumulación de varios bits en memoria en una matriz sram de 6T. Traducción IEEE. Sistema de circuitos. Yo regulo. Papilla. 67, 2521–2531 (2020).

Artículo de Google Scholar

Kundu, S., Nazemi, M., Pedram, M., Chugg, KM y Beerel, PA Escasez predefinida para redes neuronales convolucionales de baja complejidad. Traducción IEEE. Computadora. 69, 1045-1058 (2020).

MATEMÁTICAS Google Scholar

Kodukula, V. y col. Gestión dinámica de la temperatura del procesamiento cercano al sensor para obtener imágenes de alta fidelidad con eficiencia energética. Sensores 21, 926 (2021).

ADS del artículo Google Scholar

Kundu, S., Datta, G., Pedram, M. y Beerel, PA Spike-thrift: hacia redes neuronales de picos profundos energéticamente eficientes limitando la actividad de picos mediante compresión guiada por la atención. En actas de la conferencia de invierno IEEE/CVF sobre aplicaciones de visión por computadora (WACV) 3953–3962 (2021).

Datta, G., Kundu, S. & Beerel, PA Entrenamiento de redes neuronales de picos profundos energéticamente eficientes con codificación de entrada híbrida de un solo pico. En 2021, la Conferencia Internacional Conjunta sobre Redes Neuronales (IJCNN) vol. 1 1–8 (2021).

Datta, G. & Beerel, PA ¿Se pueden convertir las redes neuronales profundas en redes neuronales con picos de latencia ultrabaja? Preimpresión de arXiv arXiv:2112.12133 (2021).

Kundu, S., Pedram, M. y Beerel, PA Hire-snn: Aprovechar la solidez inherente de las redes neuronales de picos profundos energéticamente eficientes mediante el entrenamiento con ruido de entrada elaborado. En actas de la Conferencia internacional IEEE/CVF sobre visión por computadora 5209–5218 (2021).

Kang, M., Lim, S., Gonugondla, S. y Shanbhag, NR Una arquitectura VLSI en memoria para redes neuronales convolucionales. IEEE J. Emerg. Sel. Arriba. Sistema de circuitos. 8, 494–505 (2018).

ADS del artículo Google Scholar

Datta, G., Kundu, S., Jaiswal, A. & Beerel, PA HYPER-SNN: Hacia redes neuronales de picos profundos, cuantificadas y energéticamente eficientes para la clasificación de imágenes hiperespectrales. Preimpresión de arXiv arXiv:2107.11979 (2021).

Amir, MF y Mukhopadhyay, S. Sensor de imagen paralela de píxeles de alto rendimiento apilados en 3D con acelerador neuronal integrado basado en ReRAM. En 2018, IEEE SOI-3D-Subthreshold Microelectronics Technology Unified Conference (S3S) 1–3 (2018).

Descargar referencias

Nos gustaría agradecer el premio DARPA HR00112190120 por apoyar este trabajo. Las opiniones y conclusiones contenidas en este documento son las de los autores y no deben interpretarse como que representan necesariamente las políticas o respaldos oficiales, ya sean expresos o implícitos, de DARPA.

Estos autores contribuyeron igualmente: Gourav Datta, Souvik Kundu y Zihan Yin.

Ming Hsieh Departamento de Ingeniería Eléctrica e Informática, Universidad del Sur de California, Los Ángeles, EE. UU.

Gourav Datta, Souvik Kundu, Zihan Yin, Ravi Teja Lakkireddy, Peter A. Beerel y Akhilesh R. Jaiswal

Instituto de Ciencias de la Información, Universidad del Sur de California, Los Ángeles, EE.UU.

Joe Mathai, Ajey P. Jacob y Akhilesh R. Jaiswal

También puedes buscar este autor en PubMed Google Scholar.

GD y SK propusieron el uso de P2M para aplicaciones TinyML, desarrollaron los modelos de referencia y restringidos por P2M y analizaron sus precisiones. GD y SK analizaron las mejoras de EDP con respecto a otras implementaciones estándar con la ayuda de ARJ y ZYAPJ y ARJ propuso la idea de P2M y ZY y RL desarrollaron el marco de simulación de circuito correspondiente. JM ayudó a incorporar la no idealidad en la capa P2M en el marco de ML. GD y ARJ escribieron la mayor parte del artículo, mientras que SK, APJ y ZY escribieron las partes restantes. APJ ayudó en el análisis de viabilidad de fabricación y propuso el uso de un esquema de integración heterogéneo para P2M. PB supervisó la investigación y editó exhaustivamente el manuscrito. Todos los autores revisaron el manuscrito. Tenga en cuenta que AJ1 y AJ2 son APJ y ARJ respectivamente.

Correspondencia a Gourav Datta.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Datta, G., Kundu, S., Yin, Z. et al. Un paradigma de procesamiento en píxeles en memoria para aplicaciones TinyML con recursos limitados. Informe científico 12, 14396 (2022). https://doi.org/10.1038/s41598-022-17934-1

Descargar cita

Recibido: 16 de marzo de 2022

Aceptado: 03 de agosto de 2022

Publicado: 23 de agosto de 2022

DOI: https://doi.org/10.1038/s41598-022-17934-1

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.