安装
Python
使用
- 在 firecrawl.dev 获取 API key
- 将该 API key 设置为名为
FIRECRAWL_API_KEY的环境变量,或在实例化Firecrawl类时作为参数传入。
Python
抓取单个 URL
scrape 方法。它将该 URL 作为参数并返回抓取到的文档。
Python
爬取网站
crawl 方法。它接收起始 URL 和可选的 options 作为参数。通过 options,你可以为爬取任务指定其他设置,例如爬取的最大页面数、允许的域名,以及输出 formats。有关自动/手动分页与限制,请参见 Pagination。
Python
仅站点地图抓取
sitemap="only" 只抓取站点地图中的 URL(起始 URL 始终会被包含,并且不会进行 HTML 链接发现)。
Python
开始 Crawl
start_crawl 启动任务,无需等待。它会返回一个用于检查状态的任务 ID。需要直到完成才返回的阻塞式等待器时,请使用 crawl。分页行为与限制见分页。
Python
检查爬取状态
get_crawl_status 方法。该方法接收任务 ID 作为参数,并返回该爬取任务的当前状态。
Python
取消爬取
cancel_crawl 方法。传入由 start_crawl 返回的任务 ID 作为参数,该方法会返回取消结果。
Python
网站映射
map 生成网站的 URL 列表。你可以通过选项自定义映射过程,例如排除子域或利用 sitemap。
Python
使用 WebSockets 爬取网站
start_crawl 启动任务,并使用 watcher 辅助工具订阅。调用 start() 之前,使用任务 ID 创建一个 watcher,并附加处理器(例如:page、completed、failed)。
Python
分页
next URL。Python SDK 默认会自动分页并汇总所有文档;此时 next 为 None。你可以禁用自动分页或设置限制来控制分页行为。
PaginationConfig
get_crawl_status 或 get_batch_scrape_status 时,使用 PaginationConfig 来控制分页行为:
Python
| Option | Type | Default | Description |
|---|---|---|---|
auto_paginate | bool | True | 当为 True 时,会自动获取所有页面并聚合结果。将其设为 False 以每次仅获取一页。 |
max_pages | int | None | 在获取到指定页数后停止(仅在 auto_paginate=True 时生效)。 |
max_results | int | None | 在收集到指定数量的文档后停止(仅在 auto_paginate=True 时生效)。 |
max_wait_time | int | None | 在经过指定秒数后停止(仅在 auto_paginate=True 时生效)。 |
手动分页辅助方法
auto_paginate=False 时,如果还有更多数据可用,响应中会包含一个 next URL。使用以下辅助方法来获取后续页面:
get_crawl_status_page(next_url)- 使用前一次响应中的不透明nextURL 获取爬取结果的下一页。get_batch_scrape_status_page(next_url)- 使用前一次响应中的不透明nextURL 获取批量抓取结果的下一页。
next URL。
爬取
crawl 可获得最简便的体验,或者启动一个作业并手动翻页。
简单抓取(自动分页,默认)
- 参见抓取网站中的默认流程。
手动抓取并控制分页
auto_paginate 设为 False,一次获取一页。使用 get_crawl_status_page 获取后续页面:
Python
手动抓取并设定限制(自动分页 + 提前停止)
max_pages、max_results 或 max_wait_time 提前停止:
Python
批量抓取
batch_scrape,或启动任务后手动分页处理。
简单批量爬取(自动分页,默认)
- 参见默认流程:Batch Scrape。
手动批量抓取并控制分页
auto_paginate=False,每次只获取一页。使用 get_batch_scrape_status_page 获取后续页面:
Python
受限的手动批量抓取(自动分页 + 提前停止)
max_pages、max_results 或 max_wait_time 提前停止:
Python
错误处理
异步类
AsyncFirecrawl 类。其方法与 Firecrawl 一致,但不会阻塞主线程。
Python

