Mientras que la industria tecnológica se volvía loca por la inteligencia artificial generativa, un gigante ha estado rezagado: Apple. La compañía aún no ha presentado ni siquiera un emoji generado por IA, y según un informe del New York Times de hoy y reportes anteriores de Bloomberg, está en conversaciones preliminares con Google para agregar el modelo de IA Gemini de la compañía de búsqueda a los iPhones. Sin embargo, un documento de investigación subido silenciosamente en línea el pasado viernes por ingenieros de Apple sugiere que la compañía está realizando nuevas inversiones significativas en IA que ya están dando frutos. Detalla el desarrollo de un nuevo modelo de IA generativa llamado MM1 capaz de trabajar con texto e imágenes. Los investigadores muestran cómo responde a preguntas sobre fotos y muestra habilidades de conocimiento general similares a las mostradas por chatbots como ChatGPT. El nombre del modelo no se explica pero podría referirse a MultiModal 1. MM1 parece ser similar en diseño y sofisticación a una variedad de modelos de IA recientes de otros gigantes tecnológicos, incluido el código abierto Llama 2 de Meta y el Gemini de Google.
El trabajo de los rivales y académicos de Apple muestra que modelos de este tipo pueden utilizarse para alimentar chatbots capaces o construir «agentes» que pueden resolver tareas escribiendo código y tomando acciones como utilizar interfaces informáticas o sitios web. Esto sugiere que MM1 podría llegar a los productos de Apple. «El hecho de que estén haciendo esto, muestra que tienen la capacidad de entender cómo entrenar y construir estos modelos», dice Ruslan Salakhutdinov, profesor de Carnegie Mellon que lideró la investigación de IA en Apple hace varios años. «Requiere cierta cantidad de experiencia». MM1 es un modelo de lenguaje grande multimodal, o MLLM, lo que significa que está entrenado en imágenes y texto. Esto permite que el modelo responda a indicaciones de texto y también responda preguntas complejas sobre imágenes particulares.
Cuando Google lanzó Gemini (el modelo que ahora alimenta su respuesta a ChatGPT) el pasado diciembre, la compañía elogió su naturaleza multimodal como el inicio de una nueva dirección importante en IA. MM1 es un modelo relativamente pequeño en comparación con el número de «parámetros», o las variables internas que se ajustan mientras se entrena un modelo. Kate Saenko, profesora de la Universidad de Boston especializada en visión por computadora y aprendizaje automático, dice que esto podría facilitar que los ingenieros de Apple experimenten con diferentes métodos de entrenamiento y refinamientos antes de escalar cuando encuentren algo prometedor. Saenko dice que el documento de MM1 proporciona una cantidad sorprendente de detalles sobre cómo se entrenó el modelo para una publicación corporativa. Por ejemplo, los ingenieros detrás de MM1 describen trucos para mejorar el rendimiento del modelo, incluido el aumento de la resolución de las imágenes y la mezcla de datos de texto e imagen.
Apple es conocida por su secreto, pero anteriormente ha mostrado una apertura inusual sobre la investigación de IA a medida que ha buscado atraer el talento necesario para competir en la tecnología crucial. «Esto es solo el comienzo. El equipo ya está trabajando duro en la próxima generación de modelos», dijo Brandon McKinzie, investigador de Apple. Con el lanzamiento de ChatGPT en noviembre de 2022, solo podía procesar y generar texto, pero recientemente su creador OpenAI y otros han trabajado para expandir la tecnología subyacente del gran modelo de lenguaje para trabajar con otros tipos de datos. Apunta a ser esencial en la siguiente generación de modelos de base.
Deja una respuesta