2026SEO edge y crawlers IA

LLM Proxy Worker

Recursos del proyecto

Tecnologias

TypeScriptCloudflare WorkersCloudflare KVCloudflare Browser RenderingPuppeteerDataForSEOOpenAIAnthropic ClaudeWrangler

Funcionalidades

Markdown para crawlers IA, SEO generada con IA y prerender HTML en un único Worker edge

Resumen

LLM Proxy Worker es un backend serverless desarrollado en TypeScript para colocarse delante de un sitio web como capa intermedia. El Worker reconoce navegadores tradicionales, crawlers de búsqueda y crawlers IA, y decide si debe devolver la página original, una versión markdown más legible para LLM, HTML enriquecido con metadatos SEO generados dinámicamente o una versión prerenderizada para páginas JavaScript. El objetivo es mejorar legibilidad, SEO técnica y compatibilidad con crawlers sin reescribir el sitio de origen.

Rol

Diseño y desarrollo end-to-end del Worker: clasificación de requests, conversión HTML a markdown, generación SEO con proveedores IA, prerender con Chromium/Puppeteer, cache KV, fallbacks y rutas de debug.

Que hice

Diseñé el flujo principal del Worker para distinguir navegadores, crawlers IA, crawlers de búsqueda y rutas de debug. Implementé la conversión HTML a markdown eliminando elementos ruidosos como scripts, navegación, footer, formularios y banners. Desarrollé la generación dinámica de metadatos SEO usando datos SERP, OpenAI como proveedor principal y Claude como fallback. Validé el output IA antes de inyectar title, meta description, Open Graph, canonical y JSON-LD en el documento HTML. Integré Cloudflare Browser Rendering con Puppeteer para servir HTML prerenderizado a crawlers cuando una página depende de JavaScript. Usé Cloudflare KV, timeouts configurables y fallbacks locales para reducir costes, latencia y dependencia de proveedores externos.

Problemas resueltos

Risposte diverse per client diversi

El Worker clasifica las requests usando rutas técnicas, queries de debug, User-Agent y headers de purpose. Así navegadores, crawlers IA y crawlers de búsqueda reciben el recorrido más adecuado sin encarecer cada visita.

Uso controllato dei token AI

La generación SEO usa datos SERP y prompts acotados, y guarda el resultado en KV. Las requests posteriores reutilizan la cache, evitando llamadas repetidas a DataForSEO, OpenAI y Claude.

Prerender senza bloccare il sito

Chromium y Puppeteer se usan solo para crawlers o debug explícito. Si el render falla, falta el binding browser o la cache no está disponible, el Worker vuelve a la página original.