La compañía presenta su nuevo modelo con el aval de haber superado a sus rivales en prácticamente todas las pruebas. Es la primera vez en un año que alguien demuestra poder superar las capacidades de la empresa de Sam Altman.
Una vez la crisis de OpenAI parece haber sido cerrada con el regreso y la victoria de Altman, el gremio de la inteligencia artificial vuelve a dar que hablar por lo habitual, que no es otra cosa que la carrera armamentística que se vive desde hace meses por ver qué empresa es la que consigue llevarse el gato al agua y liderar esta tecnología. La última en mover pieza ha sido Google. La empresa dirigida por Sundar Pichai tiene una nueva IA llamada Gemini, la más poderosa y capaz que han desarrollado en los cuarteles generales del buscador, que ha sido presentada este miércoles. Todo esto pretende ser un punto de inflexión en la competición que mantiene la multinacional con Microsoft y OpenAI, ya que este lanzamiento llega con el aval de haber superado a todos sus rivales en la mayoría de las pruebas que se realizan para analizar las capacidades de los modelos de lenguaje que luego dan vida a todas estas IA.
La compañía ha presentado a Gemini como una inteligencia artificial multimodal. Esto significa que este sistema es capaz de “trabajar, combinar y entender distintos tipos y distintos formatos de información”, desde texto o imágenes hasta trabajar con audio, video o lenguajes de código.
¿En qué se traduce esa multimodalidad? Por ejemplo, que si la inteligencia artificial ve una foto de tomates y pasta, nos puede ofrecer una receta para cocinarlos; si ve una foto de dos ovillos de lana puede darnos consejos para hacer ganchillo y mientras analiza un video puede darnos canciones que pegan con esas imágenes. Que sea capaz de hacerlo, no significa que lo vaya a hacer desde el primer momento. Google vuelve a optar por la prudencia y en esta primera fase, Gemini solo responderá con texto o código.
El desarrollo, que ha estado liderado por el equipo de DeepMind, así como el de Google Research, está preparado para funcionar en cualquier dispositivo, desde un smartphone hasta un centro de datos. Para lograr esa flexibilidad y esa omnipresencia, la primera versión de Gemini llegará en tres tamaños diferentes, bautizados, de menor a mayor, como Nano, Pro y Ultra.
El primero está pensado para poder ejecutarse directamente en un teléfono móvil, mientras que los otros dos escalan en capacidades y potencia, pero necesitan una infraestructura mayor. El más poderoso, Gemini Ultra, no se empezará a desplegar hasta enero.
Google no ha escatimado en eso de darse golpes en el pecho. Y no lo ha hecho por los resultados que ha obtenido Gemini en los test de referencia (conocidos como benchmarks) que se suelen utilizar en el entorno académico para medir el músculo de las inteligencias artificiales y sus capacidades.
“Cuando llegamos a la fase final de su entrenamiento, empezamos a ver que era superior a cualquier otro modelo en los benchmarks“, dice Demis Hassabis, CEO de DeepMind, en el video de presentación. El ejecutivo además, asegura, que en el medio centenar de materias (historia, medicina, …) en las que se ha probado, Gemini ha demostrado ser “tan buena” como los “mejores expertos humanos” en dichas materias.
La prueba que mide esto se llama MMLU (comprensión masiva del lenguaje multitarea), un examen que ha superado con el 90,04% de la nota. GPT-4 consiguió un 86%. En GSM8K, un examen matemático de un nivel similar al escolar, ha obtenido un 94,4% frente al 92% del modelo de OpenAI. MATH, un test matemático que exige tener capacidades avanzadas de geometría o álgebra, se les ha atragantado un poco más.
Gemini obtuvo un 53,2% de puntuación, mientras que GPT-4 logró un 52,9%. En HumanEval, que mide el talento para escribir código en Python, la nueva IA de Google rascó una calificación de casi el 75%. Su gran rival, el 67%. Una de las novedades de Gemini es que también tendrá un nuevo sistema generación de código, AlphaCode 2.
Según se recoge en la memoria técnica, la versión Ultra ha mejorado los resultados y ha superado a todos sus rivales en 30 de las 32 pruebas de referencia. Cuando se habla de todos los rivales, se habla también de GPT-4, el desarrollo más avanzado que OpenAI ha puesto en circulación hasta la fecha. También hay que señalar que el modelo intermedio obtiene calificaciones más bajas, más en línea con las logradas por GPT-3.5. Ahora toca refrendar estas buenas cifras en entornos y usos reales, más allá de estos test de estrés.
Estos buenos resultados se deben, según han explicado sus responsables, a la forma en la que ha sido entrenada esta nueva inteligencia artificial. Sin entrar en demasiados vericuetos técnicos, cuando se quiere lograr eso que llaman multimodalidad, lo que se hace es coger dicha inteligencia artificial, entrenarla por partes en cada una de las tareas o fuentes y luego unirlas. Es una manera bastante efectiva que, tal y como ha explicado la compañía, puede fallar cuando se le pide razonamientos más conceptuales y complejos. En esta ocasión, Gemini ha sido entrenada desde el principio en diferentes modalidades en vez de hacerlo por separado.
La compañía no ha eludido uno de los temas más candentes del momento en la industria de la inteligencia artificial: la seguridad. Los responsables de Gemini han asegurado que se trata del modelo de lenguaje que tiene los controles más exhaustivos y detallados del momento. La compañía asegura que ha contado con revisores detectando contenido sensible, además de haber contado con expertos independientes para asegurarse de que no existen puntos ciegos, resultados no deseados o sesgos peligrosos. Aunque no han compartido detalles técnicos al respecto, los californianos también han afirmado que se trata del modelo de lenguaje con mayor ratio de eficiencia.
Es probable que el común de los usuarios se confunda con tanto baile de nombres. Gemini no viene a sustituir productos como Bard, el chatbot que la compañía presentó en mayo para competir con ChatGPT. Gemini viene a ser el cerebro de estos productos. El chatbot, por ejemplo, empezará a utilizar la versión Pro (la de tamaño intermedio) de este nuevo modelo de lenguaje. El cambio ya se ha realizado en la versión de habla inglesa y en los próximos meses ocurrirá con las versiones de esta herramienta en otros idiomas. Europa, como ya ocurriese tras el I/O, tendrá que esperar para poder acceder a estas novedades de forma oficial.
El Pixel 8 Pro, el último móvil de la compañía, también se beneficiará de algunos de estos avances, impulsando nuevas funciones como la elaboración de resúmenes de las grabaciones que se hagan con este smartphone o la elaboración de respuestas rápidas en GBoard, el teclado de Android. Los desarrolladores y las empresas también se podrán trabajar con estas actualizaciones en herramientas como AI Core, Google AI Studio o Vertex AI a partir de la próxima semana. En 2023, Gemini llegará a Duet AI o los productos publicitarios de Google. Además, la compañía licenciará el uso de Gemini a terceros, para que puedan utilizarlas en sus propias apps.
Con este nuevo producto, la compañía pretende dar un golpe de pedal y recortar distancias tanto con esa pareja de baile formada por OpenAI y por Microsoft, que son los que hasta ahora han liderado toda esta competición. La empresa dirigida por Sam Altman lo ha hecho en el plan más técnico, mientras que los padres de Windows lo han hecho en el plano más comercial. Para comprobar esto solo hace falta ver las últimas cuentas trimestrales presentadas por unos y otros a finales de octubre, la última vez que se citaron con los inversores.
La firma liderada por Satya Nadella anunció unos ingresos que superaron las expectativas, especialmente en su división de servicios en la nube, donde se agrupan Copilot y otros productos de inteligencia artificial. En el último trimestre completo, la compañía facturó 22.300 millones de dólares solo en el departamento de servidores y cloud. Eso supone un 21% de crecimiento frente al mismo periodo de 2022. Azure, la viga maestra de su oferta de IA, aumentó casi un 30%. GitHub, la herramienta para desarrolladores que recientemente fue hormonada con IA, facturó un 40% adicional.
Con Google, sin embargo, ocurrió lo contrario: no cumplió expectativas. Se esperaban crecimientos de más del 30% y se quedaron en torno al 20%. Es cierto que la división Cloud de Alphabet no es tan importante como lo es para Microsoft, pero aun así estos resultados indicaban quién estaba sabiendo exprimir más esta tecnología. Ahora habrá que esperar para ver si Gemini es capaz de cambiar este escenario. De momento, es la primera vez desde el lanzamiento de ChatGPT, algo que ocurrió hace poco más de un año, que alguien demuestra poder superar las capacidades de los productos de OpenAI.
Fuente: elconfidencial.com