Emitiendo ahora:

El hardware de la Inteligencia Artificial: perspectivas de futuro

Jesús del Álamo, Mario Lanza y Juncal Arbelaiz.

Cerrar / Close

Transcripción / Transcription

Espere un momento por favor. La aplicación tardará en torno a 30-60 segundos en cargar la transcripción automática.

Please wait a moment. The application will take about 30-60 seconds to load the automatic transcription.

Resumen

La Fundación Rafael del Pino, la Consejería de Educación Universidades, Ciencia y Portavocía de la Comunidad de Madrid, la Fundación Ramón Areces, la Oficina del Español, RAICEX y el Club de Científicos de la Asociación de Becarios de Excelencia Rafael del Pino organizaron, el 30 de noviembre, una nueva edición de los Diálogos de Ciencia en Español, dedicado a “El hardware de la inteligencia artificial: perspectivas de futuro”. En el acto participaron Jesús del Álamo, catedrático de Ingeniería eléctrica en el MIT, y Mario Lanza, catedrático asociado de Ciencia e Ingeniería de Materiales de la King Abdullah University of Science and Techonology.

El acto se inició con la conferencia de Jesús del Álamo, quien señaló que hay cuatro pilares sobre los que se basa la explosión reciente de la inteligencia artificial. Son los algoritmos, las enormes bases de datos que se han creado, el talento humano y la mejora en el hardware.

Hasta 2012, la capacidad de proceso de los ordenadores dedicados a la inteligencia artificial se duplicaba cada año. Es el progreso de la Ley de Moore, con el que se implementan todas estar tecnologías. Pero, desde 2012, el crecimiento se ha acelerado vertiginosamente y ahora la capacidad de procesamiento se duplica cada dos meses. Lo que pasó en 2012 es que se introdujo la GPU, o unidad de procesamiento gráfico, en los sistemas de computación de inteligencia artificial. Este punto de disrupción muestra la importancia de utilizar hardware que se ha diseñado específicamente para la inteligencia artificial.

Si vemos en más detalle estos últimos años, el coste en dólares de programar estos ordenadores, que es el coste de la energía que consumen, está llegando a los diez millones de dólares. Este coste también está creciendo de manera exponencial.

La programación del GPT-3, que es un modelo dedicado al procesamiento de lenguas, costó alrededor de diez millones de dólares. Alphago costó alrededor de un millón de dólares, en un gasto de electricidad durante 40 días, lo que equivale a la emisión a la atmósfera de 97 toneladas de CO2, al consumo de 23 hogares estadounidenses durante un año o a mil horas de viaje en avión.

El problema es que, para poder programar modelos tan complejos se necesita un procesador con gran capacidad de computación que consume mucha energía eléctrica. Hay una relación entre potencia de computación y energía consumida.

El Cerebras WSE-2 es un procesador con un tamaño enorme, con 2,6 billones de transistores y 40Gb de memoria. Es un chip extraordinario que se utiliza en superordenadores dedicados al entrenamiento de modelos de inteligencia artificial.

La tendencia es una trayectoria que va hacia la saturación, lo que implica que, para conseguir modelos más capaces, que puedan procesar muchos más datos, vamos a tener que estar dispuestos a consumir unas cantidades de energía que crecen de manera superlineal. Este es un gran problema que nos va a impedir ir más allá en un momento determinado. Este es el punto en el que va a hacer falta una nueva innovación. Este es uno de los grandes problemas que tenemos hoy. La inteligencia artificial puede hacer grandes cosas por el ser humano, pero tenemos que tener cuidado con el planeta.

Lo que todos estos sistemas tienen en común es que se basan en la misma tecnología convencional CMOS, basada en el silicio, lo que limita la eficiencia de la computación alrededor de diez elevado a la doce operaciones por vatio. Lo que deseamos es aumentar la potencia de computación disminuyendo la energía consumida, lo que requiere una verdadera revolución tecnológica. Hay dos caminos que se están investigando estos días para movernos en esa dirección. El primero es resolver el “cuello de botella” de la memoria; el segundo consiste en inventar nuevos modelos de computación.

El cuello de botella se refiere al hecho de que, en sistemas modernos de computación, los chips responsables de la computación y los responsables de la memoria son diferentes y están ensamblados en un mismo board a cierta distancia uno de los otros. La razón es que la tecnología para producir unos y otros es muy diferente, lo que quiere decir que los datos tienen que ser transferidos de memoria a procesador y de vuelta a la memoria. En aplicaciones de inteligencia artificial, en las que se utilizan grandes bases de datos y hay un gran trasiego de datos, se consume una gran cantidad de energía y se requiere mucho tiempo para hacer esta transferencia de datos. A esto es a lo que se refiere el cuello de botella. La solución es integrar memoria y computación de manera muy íntima, con conexiones muy cortas y muy finas, para poder transferir los datos muy rápidamente y con muy poco gasto de energía. El problema es que las tecnologías básicas detrás de la computación y la memoria son muy diferentes.

Una posibilidad que se está investigando estos días para resolver el problema es lo que se conoce como “embedded non-volatile memory”, que permitiría crear una gran densidad de bases de datos que se puedan comunicar rápidamente con la parte de computación. Una segunda línea, que está emergiendo estos días para integrar sistemas de manera más íntima, donde se reducen los efectos parásitos, es lo que se llama “heterogeneus integration of chiplets”, que son pequeños chips. Si lo queremos hacer ahora, las comunicaciones están forzadas a hacerlo con la misma tecnología porque todo está en un chip. Como la computación es la función prioritaria, esto obliga a coger una tecnología muy avanzada y todas las demás funciones terminan siendo implementadas con esa tecnología muy avanzada, que muchas veces no es necesaria ni deseable para implementar esas otras funciones. El resultado final es un chip muy caro y que tarda mucho tiempo en hacer las cosas.

El nuevo concepto es un chip integrado, que consiste en la integración de pequeños chips, o chiplets, dedicados a implementar cada uno una función específica de manera muy optimizada. Han sido diseñados y fabricados con la tecnología óptima para la función que tenga que desempeñar cada uno de ellos. Algunos de ellos ya están fabricados y se pueden escoger de un catálogo. Si se ensambla un sistema así de manera modular, el resultado es un diseño que llega al mercado mucho más rápidamente, que es más económico y que tiene un mejor rendimiento energético. El reto es encontrar la tecnología que nos permite conectar estos chips de manera muy íntima, con conexiones muy densas, con muy pocos parásitos que requieren muy poca energía.

En el mercado ya existe ese último tipo de chiplets, por ejemplo, el Apple M1 Ultra, que consiste en la unión de dos microcomputadores M1 Max. Al juntarlos, se obtiene el doble de capacidad de computación. Este chip contiene un total de 114 billones de transistores. La clave es la comunicación entre estos dos chips. La ventaja de hacerlo así es que el rendimiento es mucho más alto y el coste mucho más barato.

Otro ejemplo es Ponte Vecchio, que es un acelerador de inteligencia artificial de Intel, que consiste en un ensamblado de cuarenta y siete chips, que en total suman 110 billones de transistores.

Esta es una tecnología verdaderamente revolucionaria, que va a demandar una gran innovación en muchos campos, en los que hay grandes oportunidades en estas disciplinas, como materiales, herramientas de diseño, aspectos térmicos, …

La otra gran línea que se está investigando son los nuevos paradigmas de computación. Uno de ellos es la implementación de redes neuronales artificiales, pero en forma analógica, no digital. En el campo analógico, la ventaja es que las operaciones básicas que hay detrás de la multiplicación de matrices, que es la operación clave de las redes neuronales, consiste en una multiplicación y suma, que se pueden hacer explotando la Ley de Kirchoff y la Ley de Ohm. De esa manera se puede hacer de forma muy eficaz, con dispositivos que son pequeñísimos y con un consumo de energía mucho más bajo. El problema es que, hoy por hoy, ese dispositivo no existe.

Para tratar de resolver este problema, están siguiéndose varias líneas de investigación. Una de ellas consiste en intercalar iones de manera controlada en un canal de óxido metálico para controlar la conductividad. Otra es una aplicación que consiste en crear filamentos conductores dentro de una matriz de óxido metálico. Otras líneas son tratar de explotar el concepto de efecto ferroeléctrico, los materiales bidimensionales para implementar redes neuronales o la óptica linear pasiva.

A continuación, tuvo lugar un diálogo entre Jesús del Amo y Mario Lanza. En primer lugar, se refirieron a la computación neuromórfica. Según Jesús del Amo, consiste en imitar cómo funcionan las sinapsis, las conexiones entre las neuronas del cerebro, que se pueden reforzar o debilitar basadas en pulsos que llegan a los dos lados de la neurona. La gente que trabaja en esos temas tiene cierto escepticismo sobre si se puede hacer computación utilizando el sincronismo de pulsos que llegan a esas sinapsis.

Mario Lanza comento que en este campo existen dos vertientes. Una consiste en intentar copiar a la naturaleza, pero es una vertiente un poco compleja porque ni siquiera los biólogos entienden muy bien cómo funciona el cerebro. La otra vertiente es más pragmática y consiste en entender esta computación como un conjunto de algoritmos matemáticos. Aquí es donde entra todo el tema de la multiplicación de matrices, que es una operación clave para realizar estos algoritmos. Las ventajas que tienen van a ser bastantes en cuanto a velocidad y menor consumo. El mayor reto va a ser en el desarrollo de este tipo de circuitos, no en el funcionamiento en sí, sino en la robustez que ha tenido el transistor, que es un dispositivo que ha resistido la miniaturización, la introducción de nuevos materiales, … Hacer que esos circuitos sean tan fiables como el transistor va a ser lo más difícil.

Por lo que se refiere a la colaboración entre la industria y la universidad, Jesús del Amo ve muchas ventajas en ellas. Los ingenieros no solo quieren trabajar en algo nuevo, sino también en que eso sea relevante, mejore la sociedad, mejore el mundo. Ahí es donde la industria aporta una guía fundamental sobre qué problemas son relevantes. Hay que pensar en estas relaciones de manera internacional, no a nivel de país, especialmente en España, donde hay que pensar de manera europea y ser parte del ecosistema europeo de microelectrónica, pudiendo entrar en colaboración con otras universidades y con compañías.

En el caso de Mario Lanza, recordó que muchas universidades buscan esa colaboración, pero es más difícil de encontrar, sobre todo en el caso de los microchips modernos, que es el producto más sofisticado que se ha fabricado nunca. Por eso, hacer una escala y comercializar algo es más fácil con el software que con el hardware, donde se necesitan unos laboratorios especiales. Lo que se intenta hacer en la universidad es ir a hacer lo que la industria hará dentro de diez años. Aquí hay un nicho en el que un ingeniero puede tener posibilidades reales de crear un impacto. Es donde está la oportunidad. Pero es un terreno difícil porque nadie puede competir con la industria. Por eso, se trata de resolver cuestiones a las que la industria no puede llegar.

Sobre las oportunidades para España en el campo de la microelectrónica, Jesús del Amo ve muchas oportunidades, pero considera que el punto de mira debe ser Europa y no España, porque el mundo de la microelectrónica se ha partido en cuatro partes: Estados Unidos, Europa, China y Taiwán y Japón. Contribuir a nivel de país es muy difícil, pero si eres parte de un ecosistema europeo muy rico, hay oportunidades fantásticas de construir. Cuando se habla de relanzar la fabricación de microchips, uno de los grandes cuellos de botella es el número de graduados, de ingenieros cualificados que pueden empujar esta industria adelante. Hay una falta a nivel mundial. España tiene una educación muy fuerte en temas de ingeniería y puede hacer una contribución muy importante preparando ingenieros muy bien formados que puedan contribuir a todo el mundo a empujar esta industria hacia adelante. El pensar cómo reforzar la educación en ingeniería en España debería ser una gran prioridad. Todas las clases deberían ser en inglés, todos los profesores deberían tener experiencia internacional y en la industria y que haya muchos programas de colaboración con la industria. El otro punto de vista es que España es un país muy atractivo para atraer talento internacional. Hoy por hoy, hemos aprendido a trabajar online con equipos dispersos en todo el mundo. Eso quiere decir que hay posibilidades de montar centros de diseño y de investigación y, con ese atractivo especial que tiene España, puede traer actividades muy interesantes para España.

Mario Lanza recordó que, en Estados Unidos, se está poniendo muy serio lo de la enseñanza sobre semiconductores. Hay mucha gente con talento que hay que intentar atraer donde son útiles. En España hay mucho joven que no sabe lo que hay fuera. La experiencia de salir y progresar en el extranjero puede ir muy bien. Moverse abre muchas puertas para poder progresar más rápido.

La Fundación Rafael del Pino no se hace responsable de los comentarios, opiniones o manifestaciones realizados por las personas que participan en sus actividades y que son expresadas como resultado de su derecho inalienable a la libertad de expresión y bajo su entera responsabilidad. Los contenidos incluidos en el resumen de esta conferencia, realizado para la Fundación Rafael del Pino por el profesor Emilio González, son resultado de los debates mantenidos en el encuentro realizado al efecto en la Fundación y son responsabilidad de sus autores.

The Rafael del Pino Foundation is not responsible for any comments, opinions or statements made by third parties. In this respect, the FRP is not obliged to monitor the views expressed by such third parties who participate in its activities and which are expressed as a result of their inalienable right to freedom of expression and under their own responsibility. The contents included in the summary of this conference, written for the Rafael del Pino Foundation by Professor Emilio J. González, are the result of the discussions that took place during the conference organised for this purpose at the Foundation and are the sole responsibility of its authors.

Compartir