¿Quieres contribuir?
Autohospedar Firecrawl
¿Por qué?
- Mayor seguridad y cumplimiento: Al autoalojar, garantizas que el manejo y procesamiento de datos cumplan con normativas internas y externas, manteniendo la información sensible dentro de tu infraestructura segura. Ten en cuenta que Firecrawl es un producto de Mendable y cuenta con certificación SOC 2 Type II, lo que significa que la plataforma cumple con altos estándares del sector para la gestión de la seguridad de los datos.
- Servicios personalizables: El autoalojamiento permite adaptar servicios como Playwright a necesidades específicas o a casos de uso particulares que quizá no estén cubiertos por la oferta estándar en la nube.
- Aprendizaje y contribución a la comunidad: Al configurar y mantener tu propia instancia, obtienes una comprensión más profunda de cómo funciona Firecrawl, lo que también puede traducirse en contribuciones más valiosas al proyecto.
Consideraciones
- Acceso limitado a Fire-engine: Actualmente, las instancias autoalojadas de Firecrawl no tienen acceso a Fire-engine, que incluye funciones avanzadas para manejar bloqueos de IP, mecanismos de detección de bots y más. Esto significa que, aunque puedes gestionar tareas básicas de scraping, los escenarios más complejos podrían requerir configuración adicional o puede que no estén admitidos.
- Se requiere configuración manual: Si necesitas usar métodos de scraping más allá de las opciones básicas de
fetchy Playwright, deberás configurarlos manualmente en el archivo.env. Esto requiere un conocimiento más profundo de las tecnologías y podría implicar más tiempo de configuración.
Pasos
- Primero, instala las dependencias
- Docker instrucciones
- Configura las variables de entorno
.env en el directorio raíz; puedes copiar la plantilla desde apps/api/.env.example
Para empezar, no configuraremos la autenticación ni ningún servicio opcional (análisis de PDF, bloqueo de JS, funcionalidades de IA)
Las siguientes funcionalidades de IA requieren un proveedor de LLM configurado (por ejemplo,
OPENAI_API_KEY o alternativas en la sección de funcionalidades de IA anterior):- Formato JSON en el scraping
- API /extract
- Formato de resumen
- Formato de branding
- Formato de seguimiento de cambios
-
(Opcional) Ejecutar con el servicio de Playwright en TypeScript
-
Actualiza el archivo
docker-compose.ymlpara cambiar el servicio de Playwright:A -
Define
PLAYWRIGHT_MICROSERVICE_URLen tu archivo.env: -
No olvides configurar el servidor proxy en tu archivo
.envsegún sea necesario.
-
Actualiza el archivo
-
Compila y ejecuta los contenedores de Docker:
http://localhost:3002.
Deberías poder ver la interfaz de Bull Queue Manager en http://localhost:3002/admin/@/queues.
- (Opcional) Prueba la API
Resolución de problemas
El cliente de Supabase no está configurado
Se está omitiendo la autenticación
Los contenedores de Docker no se inician
- Asegúrate de que todas las variables de entorno necesarias estén definidas correctamente en el archivo .env.
- Verifica que todos los servicios de Docker definidos en docker-compose.yml estén correctamente configurados y que las imágenes necesarias estén disponibles.
Problemas de conexión con Redis
- Asegúrate de que el servicio de Redis esté activo y en ejecución en tu entorno Docker.
- Verifica que
REDIS_URLyREDIS_RATE_LIMIT_URLen tu archivo.envapunten a la instancia correcta de Redis. - Revisa la configuración de red y las reglas de firewall que puedan estar bloqueando la conexión al puerto de Redis.
El punto de conexión de la API no responde
- Asegúrate de que el servicio de Firecrawl esté en ejecución comprobando el estado del contenedor de Docker.
- Verifica que las variables PORT y HOST en tu archivo .env sean correctas y que ningún otro servicio esté usando el mismo puerto.
- Revisa la configuración de red para garantizar que el host sea accesible desde el cliente que realiza la solicitud a la API.

