想要贡献?
自托管 Firecrawl
为什么?
- 更强的安全性与合规性: 通过自托管,您可确保所有数据的处理与处理流程符合内外部合规要求,并将敏感信息留在自有的安全基础设施中。请注意,Firecrawl 是 Mendable 的产品,并通过了 SOC 2 Type II 认证,这意味着该平台在数据安全管理方面遵循严苛的行业标准。
- 可定制的服务: 自托管使您能够按需定制服务(例如 Playwright 服务),以满足特定需求,或处理标准云服务可能不支持的用例。
- 学习与社区贡献: 通过搭建并维护自有实例,您将更深入理解 Firecrawl 的工作原理,也更有助于为项目做出更有价值的贡献。
注意事项
- 对 Fire-engine 的访问受限: 目前,自托管的 Firecrawl 实例无法使用 Fire-engine,其包含处理 IP 封禁、机器人检测等高级功能。这意味着虽然你可以完成基础抓取任务,但更复杂的场景可能需要额外配置,或可能无法支持。
- 需要手动配置: 如果你需要使用超出基础
fetch和 Playwright 选项的抓取方法,则需在.env文件中手动配置。这要求对相关技术有更深入的理解,并可能增加设置时间。
步骤
- 首先,安装依赖项
- Docker 安装说明
- 设置环境变量
.env 文件,你可以复制 apps/api/.env.example 中的模板
起步阶段我们先不配置身份验证,也不启用任何可选的子服务(PDF 解析、JS 阻断支持、AI 功能)
以下 AI 功能需要先配置一个 LLM 提供商(例如
OPENAI_API_KEY 或上文 AI 功能部分中的其他替代方案):- 抓取时的 JSON 格式
- /extract API
- 摘要格式
- 品牌样式格式
- 变更跟踪格式
-
(Optional) Running with TypeScript Playwright Service
-
Update the
docker-compose.ymlfile to change the Playwright service:TO -
Set the
PLAYWRIGHT_MICROSERVICE_URLin your.envfile: -
Don’t forget to set the proxy server in your
.envfile as needed.
-
Update the
-
Build and run the Docker containers:
http://localhost:3002.
You should be able to see the Bull Queue Manager UI on http://localhost:3002/admin/@/queues.
- (可选) 测试 API
故障排查
未配置 Supabase 客户端
你绕过了认证流程
Docker 容器无法启动
- 确保在 .env 文件中正确设置了所有必需的环境变量。
- 确认 docker-compose.yml 中定义的所有 Docker 服务均已正确配置,且所需镜像已就绪。
与 Redis 的连接问题
- 确保 Redis 服务在你的 Docker 环境中已启动并正常运行。
- 确认
.env文件中的REDIS_URL和REDIS_RATE_LIMIT_URL指向正确的 Redis 实例。 - 检查网络设置和防火墙规则,查看是否有阻止连接到 Redis 端口的情况。
API 端点无响应
- 检查 Docker 容器状态,确保 Firecrawl 服务正在运行。
- 核对 .env 文件中的 PORT 和 HOST 配置是否正确,并确认没有其他服务占用同一端口。
- 检查网络配置,确保发起 API 请求的客户端可访问该主机。

