A mais recente inovação da Apple em Inteligência Artificial (IA) visa competir com os produtos GPT da OpenAI e pode tornar suas interações com assistentes virtuais como a Siri mais intuitivas.
O sistema ReaLM, que significa “Reference Resolution As Language Modeling” (Resolução de Referência como Modelagem de Linguagem), compreende imagens e conteúdo ambíguos em tela e contexto conversacional, possibilitando interações mais naturais com a IA.
Segundo os investigadores que o criaram, o novo sistema da Apple supera outros grandes modelos de linguagem, como o GPT-4, ao determinar contextos e a quê as expressões linguísticas se referem. E, sendo um sistema menos complexo do que outros Modelos de Linguagem de Grande Escala, como a série GPT da OpenAI, os pesquisadores denominaram o ReaLM “uma escolha ideal” para um sistema de decifração de contexto “que pode existir no dispositivo sem comprometer o desempenho.”
Por exemplo, se você pedir à Siri para mostrar uma lista de farmácias locais e, ao ser apresentado com a lista, pedir para “Ligar para a da Estrada do Arco-Íris” ou “Ligar para a última.” Com o ReaLM, em vez de receber uma mensagem de erro solicitando mais informações, a Siri poderia decifrar o contexto necessário para realizar tal tarefa melhor do que o GPT-4, segundo os pesquisadores da Apple que criaram o sistema.
A fala humana contém, tipicamente, referências ambíguas como ‘eles’ ou ‘isso’, cujo significado é óbvio (para outros humanos) dado o contexto”, escreveram os pesquisadores sobre as capacidades do ReaLM. “Ser capaz de compreender o contexto, incluindo referências como estas, é essencial para um assistente conversacional que visa permitir a um usuário comunicar naturalmente suas necessidades a um agente, ou ter uma conversa com ele.”
O sistema ReaLM pode interpretar imagens embutidas no texto, o que, segundo os investigadores, pode ser usado para extrair informações como números de telefone ou receitas de imagens na página.
O GPT-3.5 da OpenAI aceita apenas entrada de texto, e o GPT-4, que também pode contextualizar imagens, é um sistema grande treinado principalmente em imagens naturais do mundo real, não capturas de tela — o que, segundo os pesquisadores da Apple, limita seu desempenho prático e torna o ReaLM a opção melhor para compreender informações na tela.
“A Apple há muito é vista como atrasada em relação à Microsoft, Google e Amazon no desenvolvimento de IA conversacional,” reportou The Information. “O fabricante do iPhone tem a reputação de ser um desenvolvedor cuidadoso e deliberado de novos produtos — uma tática que tem funcionado bem para ganhar a confiança dos consumidores, mas que pode vir a prejudicá-lo na corrida acelerada da IA.”