A Cloudflare acabou de lançar um endpoint /crawl e toda a gente está a perder a cabeça.


calma. deixa-me contar-te o que realmente é, o que não é, e porque é que provavelmente não precisas dele.
o endpoint /crawl é um wrapper. tu dás-lhe um URL, ele inicia browsers headless na infraestrutura da Cloudflare, segue links, renderiza JavaScript, e devolve-te markdown ou JSON. tudo com 1 chamada à API.
é fixe mas não é revolucionário.
Firecrawl faz isto. Crawl4AI faz isto. Spider faz isto. têm estado a fazer isto há meses. Cloudflare apenas adicionou isto ao seu produto Browser Rendering existente e toda a gente agiu como se tivessem inventado o crawling.
o que É interessante: é Cloudflare. o que significa que é barato ($0.09/hora).
mas a coisa é que provavelmente nem precisa de um crawler.
existem 8 formas de um agente IA ler uma página web. a maioria salta diretamente para as complexas quando um pedido HTTP de 50ms teria feito o trabalho. então vamos decompor todas elas, desde a mais simples até à mais excessiva.
1. raw HTTP fetch
o teu agente envia um pedido, recebe de volta HTML. é só isso.
como ler o código-fonte de um livro em vez da página impressa. funciona bem para sites simples, blogs, wikis, docs. falha com qualquer coisa que use JavaScript para carregar conteúdo.
velocidade: ~50ms. custo: gratuito.
2. readability parser
a mesma coisa, mas com um passo de limpeza. remove barras de navegação, anúncios, rodapés, banners de cookies. dá-te apenas o texto do artigo em markdown limpo.
não lida com conteúdo renderizado por JavaScript. mas para artigos e docs, é perfeito, e é o que eu uso diariamente.
velocidade: ~100ms. custo: gratuito.
3. headless browser (local)
inicia uma Chrome invisível que carrega a página como um humano faria. JavaScript corre, conteúdo renderiza, tudo carrega. podes clicar, fazer scroll, preencher formulários, fazer login.
o problema: lento (2-10s), consome ~200MB RAM por instância, e tu manténs a infraestrutura.
ferramentas: Playwright, Puppeteer, Selenium.
4. cloud browser API
o mesmo que #3 mas outra pessoa executa o browser. tu envias um URL, recebas de volta a página renderizada. é aqui que o /crawl da Cloudflare vive, juntamente com Browserbase e Steel.
sem problemas de infraestrutura, escala facilmente, barato. tradeoff: menos controlo sobre interações.
5. managed scraping API
isto é o tier de guerra anti-bot. ScrapingBee, Bright Data, proxies rotativos, resolução de CAPTCHA, IPs residenciais. para quando o site ativamente te combate.
funciona. custa $49-499+/mês.
6. AI-native crawler
Firecrawl, Crawl4AI, Spider. crawl + render + conversão automática para markdown/JSON limpo. construído para pipelines RAG. define esquemas de extração em linguagem natural.
o "nova onda" com o qual Cloudflare está agora em competição.
7. LLM extraction
salta o código completamente. despeja o conteúdo da página num LLM, pergunta "qual é o preço?" em inglês simples. sem seletores CSS, sem regex, sem manutenção quando o site é redesenhado.
desvantagem: caro em escala (os tokens acumulam-se rápido). melhor como o passo final após limpeza com métodos 1-6.
8. official APIs
o que toda a gente esquece. X, Reddit, a maioria do SaaS, têm APIs. dados estruturados, sem parsing, sem jogos anti-bot. quando uma API existe, é sempre a escolha certa.
as boas configurações combinam 2-3:
→ fetch → readability → LLM para extração de artigos barata
→ cloud browser → LLM para sites heavy em JavaScript
→ sniff da API real no DevTools → chamar diretamente, o santo graal, gratuito, mais rápido, mais fiável
→ AI crawler → vector DB para conhecimento completo
custos reais em 10.000 páginas/mês
• HTTP Fetch: $0
gratuito$0

• Jina Reader: $5
gratuito
• Cloudflare Browser: ~$0.75
• Spider: ~$4.80
• Firecrawl: $47/mês
• ScrapingBee: $49-147/mês
• Bright Data: $499+/mês
2 regras que sigo:
começa simples. API > fetch > readability > browser. apenas adiciona complexidade quando o método mais simples falha. vejo pessoas a lançar Playwright para sites onde curl funciona bem.
a maioria dos sites não precisa de renderização JS. 60%+ da web é estática ou server-rendered. testa com um fetch simples primeiro.
Ver original
post-image
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar