Devo migrar tudo para um modelo chinês mais barato?

Não no susto, e não sem olhar o risco de dados. A API de nuvem da DeepSeek submete prompts e dados às leis chinesas de dados e inteligência, o que é sensível sob a LGPD. A decisão certa é por tarefa: mande trabalho de rotina e baixo risco para o modelo barato, mantenha o caso sensível no modelo que você confia, e considere pesos abertos rodando na sua infraestrutura quando o dado não pode sair.

O que é 'model routing'?

É rotear cada requisição para o modelo mais adequado em vez de mandar tudo para o mais caro. Uma triagem simples vai para um modelo pequeno e barato; uma síntese que vai para o cliente vai para um modelo de topo. Bem feito, corta custo sem derrubar qualidade, porque casa cada tarefa com o nível de rigor que ela exige.

O preço da IA despencou e mudou a conta de quem opera

A DeepSeek tornou permanente um corte de 75% e empresas começaram a fugir do frontier. A variável que decide agora não é capacidade, é custo por tarefa.

Por um ano, gastar token virou métrica de virtude. Quanto mais uma empresa consumia da API do modelo mais caro, mais avançada ela parecia, um comportamento que o mercado apelidou de tokenmaxxing. Em junho de 2026 a conta chegou, e com ela a virada. A DeepSeek tornou permanente um corte de preço de 75% no seu modelo de topo, o V4-Pro, e a pergunta que antes era "qual o melhor modelo?" foi substituída por outra, bem mais chata e bem mais importante: "qual o modelo mais barato que ainda resolve isso?".

O que saiu

A CNBC resumiu o clima em 26 de junho: usuários corporativos estão migrando de tokenmaxxing para eficiência. O gatilho é de preço. Segundo VentureBeat e InfoWorld, o DeepSeek V4-Pro ficou cerca de 7 vezes mais barato na entrada e 17 vezes mais barato na saída que Claude Sonnet ou GPT-5.5-Med, enquanto a versão leve, o V4 Flash, corta de 10 a 25 vezes o preço de opções de entrada como o Claude Haiku. Não é promoção de lançamento. O corte foi anunciado como permanente, o que muda o cálculo de quem planeja custo para o ano inteiro.

O efeito já aparece no comportamento agregado. A fatia de tokens de modelos de código aberto processados na OpenRouter, um mercado que roteia chamadas entre dezenas de modelos, saltou para 65% em junho, ante 34% em janeiro. Em seis meses, o trabalho de rotina começou a sair do modelo premium e a migrar para o mais barato que dá conta.

Do lado das empresas, o exemplo mais citado é radical. O CEO da Lindy, startup de automação, tirou 100% do tráfego dos modelos da Anthropic e mandou tudo para a DeepSeek, dizendo que via "a curva de custo desabar até o chão" e projetando economia de milhões em poucos meses. É o caso extremo. Do outro lado, o CEO da Glean, Arvind Jain, pondera que cerca de 95% do uso corporativo de IA ainda roda em modelos de fronteira, mas admite que esse padrão será "insustentável" para a maioria das empresas no longo prazo.

Na prática, o que isso significa

A leitura fácil é "troque para o modelo barato e economize". É a leitura errada, e cara. Migrar 100% no susto, como fez a Lindy, é uma aposta que faz sentido para uma empresa cujo produto é volume alto de tarefas parecidas e toleráveis a erro. Para a maioria das operações, a jogada não é trocar de fornecedor, é parar de mandar tudo para o mesmo lugar.

O nome disso é model routing. Em vez de despejar toda requisição no modelo mais caro por preguiça de arquitetura, você roteia cada tarefa para o modelo mais barato que ainda passa no critério. Uma triagem de e-mail, uma classificação, um resumo interno: modelo pequeno e barato. Uma resposta que vai para o cliente, uma decisão com custo de erro alto: modelo de topo. A economia não vem de rebaixar a qualidade, vem de parar de pagar preço de topo por trabalho de rotina.

A pergunta deixou de ser qual modelo é o melhor. Passou a ser qual é o mais barato que ainda passa no seu critério de aptidão, tarefa por tarefa.

Isso só funciona se você tiver escrito o critério antes. Sem um piso de precisão, uma latência tolerável e um custo por chamada definidos, "trocar de modelo" vira chute, e você descobre que o barato saiu caro quando o cliente reclama. É a mesma disciplina de Fit for Purpose: o custo por chamada não é um detalhe financeiro, é um dos critérios que decidem se o sistema serve. O corte de preço da DeepSeek não muda o método, ele aumenta o prêmio de quem já tinha o método.

Há um segundo trade-off que a manchete de preço esconde: dado. A API de nuvem da DeepSeek roda sob as leis chinesas de dados e inteligência, o mesmo alerta que levantamos sobre o GLM aberto da China. Barato demais para ser verdade às vezes é só barato demais para o seu jurídico. Para dado sensível, a rota não é a API estrangeira mais barata, é o peso aberto rodando na sua própria infraestrutura, ou o modelo caro em que você confia. O preço entra na conta, mas não é a única variável.

A boa notícia para quem opera é que a commoditização joga a seu favor. Quando a capacidade de fronteira vira quase commodity e despenca de preço, a vantagem competitiva sai do modelo e vai para o que só você tem: seus dados, seu processo, sua integração. O modelo virou insumo barato. O que você constrói em cima dele é que continua caro de copiar.

Quem tratou IA como troféu de consumo vai passar 2026 renegociando fatura. Quem tratou como insumo a ser roteado com critério vai passar o ano cortando custo sem perder qualidade. A diferença entre os dois não é o fornecedor. É ter, ou não, escrito antes o que "bom o suficiente" significa.

Se a sua conta de IA cresceu mais rápido que o valor que ela entrega, vale meia hora no WhatsApp para desenhar o roteamento por tarefa antes da próxima fatura.

O preço da IA despencou e mudou a conta de quem opera

O que saiu

Na prática, o que isso significa

Perguntas frequentes