Installation
Python
Utilisation
- Récupérez une clé API sur firecrawl.dev
- Définissez la clé API comme variable d’environnement nommée
FIRECRAWL_API_KEYou passez-la en paramètre à la classeFirecrawl.
Python
Extraction d’une URL
scrape. Elle prend l’URL en paramètre et renvoie le document extrait.
Python
Explorer un site web
crawl. Elle prend en arguments l’URL de départ et des options facultatives. Ces options permettent de définir des paramètres supplémentaires pour la tâche d’exploration, comme le nombre maximal de pages à parcourir, les domaines autorisés et le format de sortie. Consultez Pagination pour la pagination automatique/manuelle et les limites.
Python
Exploration du sitemap uniquement
sitemap="only" pour explorer uniquement les URL du sitemap (l’URL de départ est toujours incluse et la découverte de liens HTML est ignorée).
Python
Démarrer un crawl
start_crawl. Elle renvoie un ID de tâche que vous pouvez utiliser pour vérifier l’état. Utilisez crawl lorsque vous voulez un attenteur qui bloque jusqu’à la fin. Voir Pagination pour le comportement et les limites de pagination.
Python
Vérifier l’état d’un crawl
get_crawl_status. Elle prend l’ID du job en paramètre et renvoie l’état actuel du crawl.
Python
Annuler un crawl
cancel_crawl. Elle prend l’ID du job renvoyé par start_crawl en paramètre et retourne l’état de l’annulation.
Python
Cartographier un site web
map pour générer une liste d’URL à partir d’un site web. Les options permettent d’adapter le processus de cartographie, par exemple en excluant les sous-domaines ou en s’appuyant sur le sitemap.
Python
Exploration d’un site web avec WebSockets
start_crawl et abonnez-vous à l’aide du helper watcher. Créez un watcher avec l’ID de la tâche et attachez des gestionnaires (par exemple pour page, completed, failed) avant d’appeler start().
Python
Pagination
next lorsqu’il reste des données. Le SDK Python effectue par défaut une pagination automatique et agrège tous les documents ; dans ce cas, next vaut None. Vous pouvez désactiver l’auto‑pagination ou définir des limites pour contrôler le comportement de la pagination.
PaginationConfig
PaginationConfig pour contrôler le comportement de la pagination lorsque vous appelez get_crawl_status ou get_batch_scrape_status :
Python
| Option | Type | Par défaut | Description |
|---|---|---|---|
auto_paginate | bool | True | Lorsque True, récupère automatiquement toutes les pages et agrège les résultats. Définissez sur False pour récupérer les pages une par une. |
max_pages | int | None | S’arrête après avoir récupéré ce nombre de pages (s’applique uniquement lorsque auto_paginate=True). |
max_results | int | None | S’arrête après avoir collecté ce nombre de documents (s’applique uniquement lorsque auto_paginate=True). |
max_wait_time | int | None | S’arrête après ce nombre de secondes (s’applique uniquement lorsque auto_paginate=True). |
Aides à la pagination manuelle
auto_paginate=False, la réponse inclut une URL next si davantage de données sont disponibles. Utilisez ces méthodes utilitaires pour récupérer les pages suivantes :
get_crawl_status_page(next_url)- Récupère la page suivante des résultats de crawl en utilisant l’URL opaquenextprovenant d’une réponse précédente.get_batch_scrape_status_page(next_url)- Récupère la page suivante des résultats de scraping par lot en utilisant l’URL opaquenextprovenant d’une réponse précédente.
next s’il reste d’autres pages.
Crawl
crawl pour l’approche la plus simple, ou démarrez un job et paginez manuellement.
Crawl simple (pagination automatique, par défaut)
- Voir le flux par défaut dans Explorer un site web.
Crawl manuel avec contrôle de la pagination
auto_paginate=False. Utilisez get_crawl_status_page pour récupérer les pages suivantes :
Python
Exploration manuelle avec limites (pagination automatique + arrêt anticipé)
max_pages, max_results ou max_wait_time :
Python
Scrape par lots
batch_scrape, ou lancez un job et paginez manuellement.
Extraction par lot simple (pagination automatique, par défaut)
- Voir le parcours par défaut dans Batch Scrape.
Scraping par lot manuel avec contrôle de la pagination
auto_paginate=False. Utilisez get_batch_scrape_status_page pour récupérer les pages suivantes :
Python
Extraction par lots manuelle avec limites (pagination automatique + arrêt anticipé)
max_pages, max_results ou max_wait_time :
Python
Gestion des erreurs
Classe asynchrone
AsyncFirecrawl. Ses méthodes sont identiques à celles de Firecrawl, mais elles ne bloquent pas le thread principal.
Python

