Seguinos en nuestras redes

Tecnología

ReALM, el nuevo modelo de IA de Apple que promete superar a ChatGPT

Se trata de una avanzada inteligencia artificial que fue diseñada para mejorar significativamente la interacción con Siri. ¿Cómo funciona?

El equipo de investigación de Apple logró un avance significativo en el ámbito de la inteligencia artificial con su nuevo modelo, ReALM (Reference Resolution As Language Modeling), diseñado para perfeccionar la forma en que los asistentes de voz, como Siri, comprenden y procesan las solicitudes ambiguas de los usuarios. 

A través de ReALM, la empresa de la manzana apunta a mejorar la interacción entre el asistente de voz y el usuario al proporcionar un contexto más rico y detallado para las peticiones, lo que facilita una experiencia más intuitiva y eficiente. Para ello, el algoritmo utiliza grandes modelos de lenguaje ajustados para resolver este tipo de referencias. 

Específicamente, este sistema está diseñado para analizar y entender no solo el contenido verbal o escrito de las peticiones sino también el contexto visual y no conversacional, como el contenido mostrado en la pantalla del dispositivo, elementos de fondo, y otros aspectos contextuales como lugares, objetos, eventos y conceptos. 

Así, al identificar la ubicación de estos elementos y generar una representación textual basada en el diseño visual, ReALM puede ampliar significativamente la cantidad y calidad de los datos que los asistentes de voz utilizan para interpretar solicitudes poco claras o incompletas.

Un aspecto innovador de ReALM es su capacidad para permitir a los usuarios hacer peticiones basadas en el contexto visual presente en la pantalla de su dispositivo, sin la necesidad de ofrecer detalles específicos. 

En la práctica, por ejemplo, una persona podría pedir a Siri “muéstrame farmacias cerca de mí” y el sistema mostraría en pantalla una lista con datos de contacto. A la petición “llama a la primera opción”, el asistente entendería la referencia sin tener más detalles. Incluso, sería posible solicitar “haz una llamada a la farmacia de abajo” y el recurso comprendería que la indicación se refiere a la segunda alternativa del listado.

“Ser capaz de comprender el contexto, incluidas las referencias, es esencial para un asistente conversacional. Permitir al usuario realizar consultas sobre lo que ve en su pantalla es un paso crucial para garantizar una verdadera experiencia de manos libres”, precisa el equipo de investigación de Apple.

La metodología detrás de ReALM, que implica el entrenamiento de grandes modelos de lenguaje para procesar referencias ambiguas en función de los elementos visuales en la pantalla, no es completamente nueva ya que comparte principios con otras tecnologías, como la serie GPT de OpenAI. 

Sin embargo, los ingenieros de Cupertino sostienen que su enfoque de codificación textual y la capacidad de integrar contexto visual en la interpretación de solicitudes son superiores a las soluciones existentes, incluyendo las ofrecidas por GPT-4.

A pesar de estos avances, los investigadores reconocen que aún existen desafíos, especialmente en el procesamiento de referencias más complejas que pueden requerir el desarrollo de técnicas avanzadas de visión por computadora y enfoques multimodales para una interpretación adecuada. 

La introducción de ReALM por parte de Apple refleja el compromiso continuo de la empresa con la innovación en inteligencia artificial, buscando mejorar la funcionalidad y la experiencia del usuario en sus dispositivos móviles a través de avances tecnológicos significativos.

La apuesta de Apple por el desarrollo de sistemas de IA

Gran parte de las propuestas de Apple en el sector se materializan en desarrollos que se ejecutan de manera local en sus dispositivos, sin depender totalmente de la infraestructura en la nube para procesar los datos. 

En este contexto, los analistas apuntan a que una gran actualización de Siri y otros servicios móviles de Apple generarían una evolución significativa en cómo los usuarios interactúan con sus dispositivos, potencialmente estableciendo nuevos estándares para la experiencia del usuario en tecnología móvil.

En las últimas semanas, este pronóstico fue confirmado por Tim Cook, CEO de Apple, quien reveló que la organización trabaja en diversas funciones de IA generativa. Según el ejecutivo, se trata de funciones que se lanzarán al mercado “más adelante este año”. 

“Seguiremos invirtiendo en estas y otras tecnologías que darán forma al futuro. Eso incluye la inteligencia artificial, donde dedicamos una enorme cantidad de tiempo y esfuerzo. Estamos entusiasmados de compartir los detalles de nuestro trabajo en curso en ese ámbito a finales de este año”, dijo en una llamada con inversionistas.

Asimismo, la posibilidad de que Apple esté considerando alianzas con gigantes tecnológicos como Google y OpenAI para licenciar modelos de IA avanzados, como el modelo Gemini de Google, vaticinan una apertura hacia colaboraciones estratégicas en el desarrollo de sus capacidades de IA.

TE PUEDE INTERESAR