Instalação
Python
Uso
- Obtenha uma chave de API em firecrawl.dev
- Configure a chave de API como uma variável de ambiente chamada
FIRECRAWL_API_KEYou passe-a como parâmetro para a classeFirecrawl.
Python
Extraindo dados de uma URL
scrape. Ele recebe a URL como parâmetro e retorna o documento raspado.
Python
Rastrear um site
crawl. Ele recebe a URL inicial e, opcionalmente, um objeto de opções. Essas opções permitem definir configurações adicionais para a tarefa de rastreamento, como o número máximo de páginas, os domínios permitidos e o formato de saída. Consulte Paginação para detalhes sobre paginação automática/manual e limites.
Python
Rastreamento Apenas do Sitemap
sitemap="only" para rastrear apenas as URLs do sitemap (a URL inicial é sempre incluída e a descoberta de links em HTML é ignorada).
Python
Iniciar um crawl
start_crawl. Ela retorna um ID de tarefa que você pode usar para verificar o status. Use crawl quando quiser um aguardador que bloqueia até a conclusão. Consulte Paginação para o comportamento e os limites de paginação.
Python
Verificando o status do crawl
get_crawl_status. Ele recebe o ID da tarefa como parâmetro e retorna o status atual do crawl.
Python
Cancelando um Crawl
cancel_crawl. Ele recebe o ID do job do start_crawl como parâmetro e retorna o status do cancelamento.
Python
Mapear um site
map para gerar uma lista de URLs de um site. As opções permitem personalizar o processo de mapeamento, incluindo excluir subdomínios ou usar o sitemap.
Python
Rastreamento de um site com WebSockets
start_crawl e faça a inscrição usando o helper watcher. Crie um watcher com o ID da tarefa e vincule handlers (por exemplo, para page, completed, failed) antes de chamar start().
Python
Paginação
next quando há mais dados disponíveis. O SDK Python pagina automaticamente por padrão e agrega todos os documentos; nesse caso, next será None. Você pode desativar a paginação automática ou definir limites para controlar o comportamento da paginação.
PaginationConfig
PaginationConfig para controlar o comportamento da paginação ao chamar get_crawl_status ou get_batch_scrape_status:
Python
| Option | Type | Default | Description |
|---|---|---|---|
auto_paginate | bool | True | Quando definido como True, busca automaticamente todas as páginas e agrega os resultados. Defina como False para buscar uma página por vez. |
max_pages | int | None | Encerra após buscar esse número de páginas (aplica-se somente quando auto_paginate=True). |
max_results | int | None | Encerra após coletar esse número de documentos (aplica-se somente quando auto_paginate=True). |
max_wait_time | int | None | Encerra após esse número de segundos (aplica-se somente quando auto_paginate=True). |
Auxiliares para Paginação Manual
auto_paginate=False, a resposta inclui uma URL next se houver mais dados disponíveis. Use estes métodos auxiliares para obter as páginas subsequentes:
get_crawl_status_page(next_url)- Obtém a próxima página de resultados de crawl usando a URLnextopaca de uma resposta anterior.get_batch_scrape_status_page(next_url)- Obtém a próxima página de resultados de batch scrape usando a URLnextopaca de uma resposta anterior.
next se restarem mais páginas.
Crawl
crawl para a experiência mais simples ou inicie um job e faça a paginação manualmente.
Rastreamento simples (paginação automática, padrão)
- Veja o fluxo padrão em Rastrear um site.
Rastreamento manual com controle de paginação
auto_paginate=False. Use get_crawl_status_page para recuperar as páginas subsequentes:
Python
Rastreamento manual com limites (paginação automática + interrupção antecipada)
max_pages, max_results ou max_wait_time:
Python
Coleta em lote
batch_scrape ou inicie um job e faça a paginação manualmente.
Coleta em lote simples (paginação automática, padrão)
- Veja o fluxo padrão em Coleta em Lote.
Raspagem em lote manual com controle de paginação
auto_paginate=False. Use get_batch_scrape_status_page para obter as páginas subsequentes:
Python
Coleta manual em lote com limites (paginação automática + parada antecipada)
max_pages, max_results ou max_wait_time:
Python
Tratamento de erros
Classe assíncrona
AsyncFirecrawl. Seus métodos espelham os de Firecrawl, mas não bloqueiam a thread principal.
Python

