Novas IAs do Google: Gemini Omni e Gemini 3.5 Flash

Novas IAs do Google: Gemini Omni e Gemini 3.5 Flash

Introdução às Novas IAs do Google

O Google apresentou nesta terça-feira, 19 de maio, dois novos modelos de inteligência artificial (IA), o Gemini Omni e o Gemini 3.5 Flash. O Gemini Omni visa entender o mundo físico, enquanto o Gemini 3.5 Flash busca otimizar o custo e a eficiência na execução de tarefas — ambas as inovações foram destacadas durante o Google I/O, o principal evento da gigante da tecnologia.

O Que é o Gemini Omni?

O Gemini Omni representa um avanço significativo na capacidade de compreensão das máquinas, indo além das limitações dos grandes modelos de linguagem (LLMs). Pesquisadores, como o renomado Yann LeCun, acreditam que, para alcançarmos um nível de superinteligência artificial, é fundamental que os modelos possuam uma compreensão profunda do mundo físico.

Segundo Koray Kavucuoglu, diretor de arquitetura de IA do Google, "Esse é um grande salto na compreensão e modelagem do mundo. Modelos, como o Veo e Nano Banana, conseguem criar vídeos e imagens bem realistas, mas eles não são simulações do mundo. Eles demonstram uma compreensão da física, o que é crucial." Com o Omni, é possível gerar resultados a partir do conhecimento acumulado ao longo do treinamento.

Funcionalidades do Omni

O Omni é projetado inicialmente para tarefas como a geração de vídeos e imagens, permitindo a criação de animações complexas a partir de prompts simples. Resultados como gravidade, sombras e dinâmica de fluidos são respeitados, o que aprimora a qualidade das produções visuais. Além disso, o modelo é descrito como "multimodal puro", ou seja, processa simultaneamente comandos textuais, auditivos e visuais.

Uma inovação importante do Omni é a capacidade de "consumir" vídeos que ele mesmo gera, permitindo ao usuário continuar a aprimorar o material produzido, uma funcionalidade anteriormente ausente em geradores de vídeo que limitavam as edições a pequenos trechos.

Gemini 3.5 Flash: Foco na Eficiência

Quatro meses após o lançamento do Gemini 3.1, o Google já trouxe uma atualização com o Gemini 3.5 Flash. Este novo modelo supera o anterior em diversos benchmarks, destacando-se em tarefas de codificação e no benchmark GDP val, que analisa tarefas de valor econômico real.

Sundar Pichai, CEO do Google, destacou que o Flash é particularmente voltado ao custo e rapidez de execução, aspectos fundamentais para os desenvolvedores. "Vocês já devem ter ouvido histórias de diretores de tecnologia sobre companhias que já estouraram o orçamento anual de tokens... Se as companhias usarem uma mistura de modelos 'flash' com modelos de fronteira, eles podem economizar muito dinheiro," explicou Pichai.

O Impacto dos Tokens

Os tokens, componentes fundamentais do processamento em IA, podem se tornar caros. A título de exemplo, processar um livro com um chatbot pode consumir cerca de 30 mil tokens, enquanto tarefas de programação podem rapidamente alcançar 20 milhões. Pichai afirma que grandes empresas que manipularam cerca de 1 trilhão de tokens por dia poderiam economizar mais de 1 bilhão de dólares anualmente migrando 80% de suas cargas de trabalho para modelos como o Gemini 3.5 Flash.

Novos Recursos do Gemini

Além dos novos modelos, o aplicativo do Gemini recebeu outros recursos exclusivos. Um deles é o Daily Brief, ferramenta que organiza a programação do usuário a partir da análise de e-mails, calendários e tarefas.

O Gemini Spark foi introduzido como um dos agentes virtuais, sempre ativo e conectado aos serviços do Google Cloud, embora sua eficácia possa ser limitada por fatores como a disponibilidade de arquivos essenciais apenas em máquinas físicas.

Interface Redesenhada

Por fim, o aplicativo foi visualmente revitalizado, apresentando animações fluidas e uma nova paleta de cores. As respostas são agora mais dinâmicas, com as informações mais relevantes apresentadas em negrito, facilitando a visualização e compreensão do usuário.