Um novo rei está no comando: Matt Shumer, cofundador e CEO da startup de escrita por IA HyperWrite, revelou hoje o Reflection 70B, um novo grande modelo de linguagem (LLM) baseado no Llama 3.1-70B Instruct de código aberto da Meta. Esse modelo utiliza uma nova técnica de autocorreção de erros e apresenta um desempenho superior em benchmarks de terceiros.
Como Shumer anunciou em uma postagem na rede social X, o Reflection 70B agora parece ser “o principal modelo de IA de código aberto do mundo”.
O Reflection 70B foi rigorosamente testado em diversos benchmarks, incluindo MMLU e HumanEval, usando o LLM Decontaminator da LMSys para garantir que os resultados estejam livres de contaminação. Esses benchmarks mostram que o Reflection supera consistentemente os modelos da série Llama da Meta e compete diretamente com os principais modelos comerciais.
Você pode testá-lo pessoalmente como uma demonstração em um site de “playground”. No entanto, conforme Shumer destacou no X, o anúncio do novo rei dos modelos de IA de código aberto sobrecarregou o site com tráfego, e sua equipe está correndo para encontrar GPUs suficientes (unidades de processamento gráfico, os valiosos chips da Nvidia e de outras empresas usados para treinar e rodar a maioria dos modelos de IA generativa) para atender à demanda.
O que diferencia o Reflection 70B? Shumer destacou que o Reflection 70B não é apenas competitivo com os modelos de ponta, mas traz capacidades únicas à mesa, especialmente na identificação e correção de erros.
Como Shumer disse ao VentureBeat por mensagem direta: “Tenho pensado nessa ideia há meses. Os LLMs ‘alucinam’, mas não conseguem se corrigir. O que aconteceria se você ensinasse um LLM a reconhecer e corrigir seus próprios erros?”
O Reflection 70B introduz vários novos tokens especiais para raciocínio e correção de erros, facilitando a interação dos usuários com o modelo de forma mais estruturada. Durante a inferência, o modelo gera seu raciocínio dentro de tags especiais, permitindo correções em tempo real caso detecte um erro.
O site de demonstração oferece sugestões de prompts para o usuário testar, como perguntar ao Reflection 70B quantas vezes a letra “r” aparece na palavra “Strawberry” ou qual número é maior, 9.11 ou 9.9, dois problemas simples que muitos modelos de IA — incluindo os proprietários mais avançados — frequentemente não conseguem resolver de forma consistente. Nossos testes com o modelo foram lentos, mas o Reflection 70B, após mais de 60 segundos, deu a resposta correta