Vai contribuir?
Hospedando o Firecrawl por conta própria
Por quê?
- Segurança e conformidade reforçadas: Ao auto-hospedar, você garante que todo o tratamento e processamento de dados esteja em conformidade com regulamentações internas e externas, mantendo informações sensíveis dentro da sua infraestrutura segura. Observe que o Firecrawl é um produto da Mendable e possui certificação SOC 2 Type II, o que significa que a plataforma segue altos padrões do setor para gestão da segurança de dados.
- Serviços personalizáveis: A hospedagem própria permite adaptar serviços, como o Playwright, para atender a necessidades específicas ou lidar com casos de uso particulares que podem não ser contemplados pela oferta padrão em nuvem.
- Aprendizado e contribuição para a comunidade: Ao configurar e manter sua própria instância, você obtém um entendimento mais profundo de como o Firecrawl funciona, o que também pode resultar em contribuições mais relevantes para o projeto.
Considerações
- Acesso limitado ao Fire-engine: Atualmente, instâncias auto-hospedadas do Firecrawl não têm acesso ao Fire-engine, que inclui recursos avançados para lidar com bloqueios de IP, mecanismos de detecção de robôs e mais. Isso significa que, embora você possa gerenciar tarefas básicas de scraping, cenários mais complexos podem exigir configuração adicional ou talvez não sejam suportados.
- Configuração manual necessária: Se você precisar usar métodos de scraping além das opções básicas de
fetche Playwright, será necessário configurá-los manualmente no arquivo.env. Isso exige um entendimento mais profundo das tecnologias e pode demandar mais tempo de configuração.
Etapas
- Primeiro, instale as dependências
- Docker instruções
- Configure as variáveis de ambiente
.env no diretório raiz; você pode copiar o template em apps/api/.env.example
Para começar, não vamos configurar autenticação nem quaisquer subserviços opcionais (análise de PDF, bloqueio de JS, recursos de IA)
Os seguintes recursos de IA exigem um provedor de LLM configurado (por exemplo,
OPENAI_API_KEY ou alternativas na seção de recursos de IA acima):- Formato JSON na raspagem
- API /extract
- Formato de resumo
- Formato de branding
- Formato de monitoramento de alterações
-
(Opcional) Executar com o TypeScript Playwright Service
-
Atualize o arquivo
docker-compose.ymlpara alterar o serviço do Playwright:PARA -
Defina
PLAYWRIGHT_MICROSERVICE_URLno arquivo.env: -
Não se esqueça de configurar o servidor proxy no arquivo
.env, conforme necessário.
-
Atualize o arquivo
-
Compile e execute os contêineres Docker:
http://localhost:3002.
Você deve conseguir ver a interface do Bull Queue Manager em http://localhost:3002/admin/@/queues.
- (Opcional) Teste a API
Resolução de problemas
O cliente Supabase não está configurado
Você está ignorando a autenticação
Falha ao iniciar contêineres Docker
- Certifique-se de que todas as variáveis de ambiente necessárias estejam configuradas corretamente no arquivo .env.
- Verifique se todos os serviços Docker definidos em docker-compose.yml estão configurados corretamente e se as imagens necessárias estão disponíveis.
Problemas de conexão com o Redis
- Certifique-se de que o serviço Redis está em execução no seu ambiente Docker.
- Verifique se as variáveis REDIS_URL e REDIS_RATE_LIMIT_URL no seu arquivo .env apontam para a instância Redis correta.
- Verifique as configurações de rede e as regras de firewall que possam estar bloqueando a conexão com a porta do Redis.
O endpoint da API não responde
- Verifique se o serviço do Firecrawl está em execução conferindo o status do contêiner Docker.
- Confirme se as variáveis PORT e HOST no arquivo .env estão corretas e se nenhum outro serviço está usando a mesma porta.
- Verifique a configuração de rede para garantir que o host esteja acessível a partir do cliente que faz a requisição de API.

