Token tornou-se o “monstro que engole dinheiro” e o poder de processamento das grandes empresas está a subir loucamente

robot
Geração de resumo em curso

Já reparaste que, nos últimos seis meses, o “estilo de desenho” no mundo da IA ficou um pouco acelerado?

Nesta altura do ano passado, toda a gente ainda estava em festa por causa das descidas brutais de preços da capacidade de computação. A Cloud da Alibaba liderou o coro ao gritar “até 60% de redução máxima”, e a Tencent Cloud e a Huawei Cloud e a Baidu Cloud seguiram todas na mesma linha. Aquilo foi, literalmente, como um grande promo do Dia do Solteiro. Nos grupos de startups, havia toda a gente a mostrar faturas todos os dias: “Olha, eu gastei só algumas moedas em 1 milhão de Tokens!”. Na altura, toda a gente achava que a “primavera” das startups de IA tinha chegado: a capacidade de computação era tão barata como legumes, então quem é que não conseguiria lançar uma aplicação de grande modelo?

E afinal? O “dar um estalo” veio demasiado rápido.

Só no mês passado é que a direção mudou a 180 graus. Google, Amazon, Tencent, Alibaba, Baidu — em apenas 10 dias, todos publicaram comunicados de aumento de preços. Quanto aumentaram? Em geral, entre 30% e 50%. O mais agressivo foi a Tencent Cloud: um produto central subiu diretamente 400%.

De “promo de fuga pela janela com grandes descontos” para “aumento de preços ao estilo foguete”, menos de um ano depois. O que aconteceu afinal? Quem está por trás a empurrar os preços para cima? E, mais importante, nesta vaga de aumentos, quem foi o mais prejudicado e quem está a rir-se?

No ano passado ainda “davam cortes nos ossos”, e este ano por que é que aumentaram de forma coletiva?

Primeiro, faço um breve resumo desta “peça dramática de reviravolta”.

Em abril de 2025, a Alibaba Cloud lançou primeiro uma bomba: desconto máximo de 60% no produto principal. Isto não foi um pequeno ajuste; foi, na prática, “cortar ao meio e ainda pôr em promoção”. De seguida, a JD Cloud disse “baixem à vontade, eu também”, e a Tencent Cloud, a Huawei Cloud e a Baidu Cloud seguiram todas. Numa questão de tempo, a poeira levantou-se no mercado da capacidade de computação, e a guerra de preços estava num nível tão animado como nunca.

Quais eram os slogans nessa altura? “Tornar a IA acessível” e “capacidade de computação para todos”. Muitas empresas de arranque acreditaram mesmo e começaram, em grande escala, a queimar Tokens e a correr modelos.

No entanto, a refeição gratuita nunca dura muito.

Em janeiro de 2026, a Amazon AWS fez uma coisa em silêncio — sem qualquer conferência, sem qualquer anúncio prévio: aumentou diretamente o preço dos servidores EC2 em cerca de 15%. Não é uma subida enorme, mas o significado foi enorme: foi a primeira vez, em quase vinte anos, que o setor dos serviços cloud aumentou preços. Tenha em conta: nos últimos vinte anos, a AWS reduziu preços mais de cem vezes; sempre foi só para baixo, nunca para cima.

Isto foi como derrubar uma primeira peça de dominó.

Em 11 de março, a Tencent Cloud seguiu o exemplo: no seu modelo Tencent HY2.0 Instruct, o preço de entrada subiu de 0.0008 yuans por 1000 tokens para 0.004505 yuans por 1000 tokens — um aumento de 463%, mais do que quatro vezes. Em 18 de março, a Alibaba Cloud anunciou que os produtos de cartões de capacidade de computação subiriam entre 5% e 34%, e a Baidu Intelligent Cloud também seguiu com aumentos de 5% a 30%. Aqueles grandes modelos que antes estavam em testes gratuitos, como GLM 5, MiniMax 2.5 e Kimi 2.5, acabaram com o “período de roubar sem pagar” e passaram para cobrança oficial.

De “correr para baixar preços” para “correr para aumentar preços”, por que é que a mudança foi tão rápida?

À primeira vista, é porque os fornecedores de cloud não aguentaram. Os chips GPU ficam cada vez mais caros; as contas de eletricidade dos data centers correspondem a 40% a 60% dos custos operacionais; além disso, no segundo semestre de 2025, os chips de armazenamento também começaram a subir de preço — a pressão sobre o lado dos custos tornou-se realmente palpável. Mas a verdadeira razão que transformou a subida de preços em algo “simplesmente inevitável” é outra, mais fundamental: a capacidade de computação, realmente, não chega.

Quem está a “comer” Tokens em loucura? A verdade dos 140 biliões

Antes não se dizia que a capacidade de computação estava em excesso? Então como é que, de repente, passou a não chegar?

A resposta é: os Tokens estão a ser consumidos demasiado depressa.

De acordo com dados divulgados pelo responsável da Administração Estatal de Dados, Liu Lihong, em março deste ano: até março de 2026, o número de chamadas diárias de Tokens na China já ultrapassou os 140 biliões.

Quão absurdo é esse número? Aqui vão duas referências:

· No início de 2024, esse número era apenas 100 mil milhões. Em dois anos, aumentou mais de mil vezes.

· No final de 2025, esse número era 100 biliões. Ou seja, apenas nos últimos três meses subiu mais 40% — e só o volume adicional desses três meses (40 biliões) é 400 vezes o total do início de 2024.

Isto não é crescimento linear; é um tsunami.

Então surge a pergunta: quem está a consumir Tokens em loucura?

A resposta cabe numa palavra: agentes (Agent).

Desde o ano passado, produtos de agentes de código aberto — como o OpenClaw (conhecido na comunidade como “lagosta”) — ficaram extremamente populares. A IA deixou de ser apenas um robô que “conversa” e passou a ser um assistente que “faz tarefas”: ajuda-te a reservar bilhetes, escrever código, fazer PPT, analisar dados… parece fantástico, certo? Só que o custo é este: quando um agente faz uma tarefa simples, o número de Tokens consumidos é de 10 a 100 vezes o de uma conversa normal.

Um exemplo: fazer com que a IA te ajude a escrever um script de um crawler. Se for uma conversa normal, ela dá-te um pedaço de código, tu copias e vais embora, consumindo alguns milhares (algumas centenas) de Tokens. Mas se for com um agente, ele tem de correr código, apresentar erros, fazer debug, voltar a correr… voltas e voltas, muitas vezes. E o consumo de Tokens vai direto para dezenas de milhares.

E nem falemos de geração de vídeo, esse “monstro devorador de dinheiro”. Há análises que apontam que gerar 1 minuto de vídeo consome aproximadamente 10 biliões de Tokens. E hoje, com os modelos de vídeo atuais, gerar um vídeo de 5 segundos custa-te só alguns cêntimos a poucos euros — isto não é “lucrar”; é claramente “dar prejuízo para ganhar aplausos”. Mas como há demasiadas pessoas a usar, vídeos, música, código, análise de dados… cada direção está em modo frenético a “comer” Tokens.

Com a oferta a não acompanhar a procura, os preços da capacidade de computação naturalmente sobem. Isto não é conspiração; é um desequilíbrio cru entre oferta e procura.

Competição de “rank” da capacidade de computação: as grandes empresas comem, e os pequenos nem sequer bebem a “sopa”

A subida de preços, para pessoas diferentes, significa coisas completamente diferentes.

Para os fornecedores de cloud, aumentar preços é, na verdade, uma boa notícia. Um broker calculou uma conta: para cada 1% que a Alibaba Cloud aumenta, a sua margem de lucro melhora 1 ponto percentual. Por isso, os dados que vês são que a quota da Alibaba Cloud não desce; sobe, e já representa 36% do mercado de cloud de IA na China. E no segmento mais detalhado das chamadas de IA, a Volcano Engine (da ByteDance) chega a quase 50% — ou seja, metade dos Tokens consumidos no país passa pelo pipeline da Volcano Engine.

Ao mesmo tempo, as quotas da Huawei Cloud e da Tencent Cloud têm uma ligeira descida. O efeito dos líderes está a ficar cada vez mais evidente: quanto mais as grandes empresas fazem, mais fortes ficam; quanto mais recursos acumulam, mais se concentram.

Então quem está no pior cenário?

As PME de startups de IA — e também aqueles que acabaram de entrar no jogo.

A razão é simples: a subida de preços eleva diretamente os custos operacionais. Quando os Tokens eram baratos, tu podias correr experiências à vontade e ajustar modelos à vontade, porque não custava muito dinheiro. Agora os preços multiplicaram-se por algumas vezes, até por dez vezes: cada treino, cada inferência, tens de pesar e medir.

O que complica ainda mais é que os pequenos não têm poder de negociação. Grandes clientes podem assinar acordos de longo prazo com fornecedores de cloud e fixar um preço relativamente mais vantajoso. Tu, como startup, que gastas só dezenas de milhares de yuans por ano em custos de capacidade de computação — quem é que vai negociar contigo um desconto? Só te resta pagar, obedientemente, os preços depois do aumento.

Muitos projetos que originalmente queriam fazer aplicações de IA, depois de fazerem contas, acabaram por os adiar em silêncio. E há também alguns que já estão a ser feitos: ou reduzem escala, ou então aguentam o prejuízo por conta própria, à força. Mas o mercado final ainda é extremamente competitivo; tu não te atreves a aumentar preços aos utilizadores facilmente — do lado de lá ainda está grátis; se começarem a cobrar, os utilizadores fogem todos. No fim, toda a pressão de custos só pode ser engolida por ti.

Um profissional desabafou comigo: “Antes achava que a capacidade de computação era barata e que a barreira de entrada era baixa. Só agora percebi que a barreira não ficou mais baixa — deixa-te entrar primeiro e depois fecha a porta.”

Na verdade, isto é uma competição de ranking cruel. Durante mais de vinte anos, os fornecedores de cloud viveram muito bem com a estratégia “vender por volume com preços baixos, e primeiro cercar terreno e depois lucrar”. Mas essa era acabou. A capacidade de computação já se despediu oficialmente do período de subsídios e entrou na fase de preços comerciais. O que se vai disputar no futuro deixa de ser quem é mais barato; passa a ser quem oferece um serviço mais estável, quem tem um ecossistema mais completo e quem consegue ajudar as empresas a aproveitarem mesmo cada unidade de capacidade de computação.

E nesta competição de ranking, é muito provável que os pequenos sejam deixados para trás, fora do vagão.

Ao olhar para este ano e mais, essa montanha-russa, descubres uma verdade que custa a engolir:

De “preço de couve” para “preço de foguete”, essencialmente é um retrato do setor de IA a passar de crescimento selvagem para maturidade. Acabou a era do “grátis”; começou a competição de valor. Os modelos de negócio que vivem de subsídios vão morrer; e os produtos que realmente têm tecnologia, cenários e utilizadores vão sobreviver no ambiente em que os custos de capacidade de computação sobem — e até viver melhor.

A capacidade competitiva central das startups de IA nunca foi “quão barata é a capacidade de computação”, mas sim o que fazes com a capacidade de computação.

Na era da capacidade de computação, os Tokens são, de facto, caros. Mas mais caro do que os Tokens é uma mente que sabe como usar bem esses Tokens.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar