インストール
Python
使い方
- firecrawl.dev で API キーを取得します
- API キーを環境変数
FIRECRAWL_API_KEYに設定するか、Firecrawlクラスにパラメータとして渡します。
Python
URLのスクレイピング
scrape メソッドを使用します。URLを引数に取り、取得したドキュメントを返します。
Python
ウェブサイトをクロールする
crawl メソッドを使用します。開始URLと任意のオプションを引数に取ります。オプションでは、クロールするページ数の上限、許可するドメイン、出力フォーマットなど、クロールジョブの追加設定を指定できます。自動/手動のページネーションや制限については Pagination を参照してください。
Python
サイトマップのみクロール
sitemap="only" を使用して、サイトマップの URL のみをクロールします(開始 URL は常に含まれ、HTML のリンク探索は行われません)。
Python
クロールを開始
start_crawl を使うと待たずにジョブを開始できます。ステータス確認に使えるジョブの ID を返します。完了までブロックして待機したい場合は crawl を使用してください。ページングの動作と制限は Pagination を参照してください。
Python
クロールのステータス確認
get_crawl_status メソッドを使用します。ジョブIDを引数に取り、クロールジョブの現在のステータスを返します。
Python
クロールのキャンセル
cancel_crawl メソッドを使用します。start_crawl のジョブIDを引数に取り、キャンセル結果のステータスを返します。
Python
ウェブサイトをマッピングする
map を使って、ウェブサイトから URL の一覧を生成します。オプションで、サブドメインの除外やサイトマップの利用など、マッピングの挙動をカスタマイズできます。
Python
WebSockets を使ったウェブサイトのクロール
start_crawl でジョブを開始し、watcher ヘルパーで購読します。ジョブ ID を指定して watcher を作成し、start() を呼び出す前にハンドラー(例: page、completed、failed)を登録します。
Python
ページネーション
next URL を返します。Python SDK はデフォルトで自動ページネーションを行い、すべてのドキュメントを集約します。この場合、next は None になります。自動ページネーションを無効化したり、ページネーションの動作を制御するための上限を設定することも可能です。
PaginationConfig
get_crawl_status または get_batch_scrape_status を呼び出す際のページネーション動作を制御するには、PaginationConfig を使用します。
Python
| オプション | 型 | デフォルト | 説明 |
|---|---|---|---|
auto_paginate | bool | True | True の場合、すべてのページを自動的に取得して結果を集約します。1 ページずつ取得するには False に設定します。 |
max_pages | int | None | 指定したページ数を取得したら終了します(auto_paginate=True の場合にのみ適用されます)。 |
max_results | int | None | 指定したドキュメント数を収集したら終了します(auto_paginate=True の場合にのみ適用されます)。 |
max_wait_time | int | None | 指定した秒数が経過したら終了します(auto_paginate=True の場合にのみ適用されます)。 |
手動ページネーションヘルパー
auto_paginate=False の場合、追加のデータがあると、レスポンスに next URL が含まれます。次のページを取得するには、これらのヘルパーメソッドを使用します:
get_crawl_status_page(next_url)- 前のレスポンスに含まれる不透明なnextURL を使用して、クロール結果の次のページを取得します。get_batch_scrape_status_page(next_url)- 前のレスポンスに含まれる不透明なnextURL を使用して、バッチスクレイプ結果の次のページを取得します。
next URL を含みます。
クロール
crawl を使うことです。もしくはジョブを開始して手動でページ処理を行ってください。
シンプルなクロール(自動ページネーション、デフォルト)
- 既定のフローについてはウェブサイトをクロールするを参照してください。
ページネーションを制御した手動クロール
auto_paginate=False を指定して 1 ページずつ取得します。後続のページを取得するには get_crawl_status_page を使用します。
Python
Manual crawl with limits (auto-pagination + early stop)
max_pages、max_results、または max_wait_time で早期停止します。
Python
バッチスクレイプ
batch_scrape を使うか、ジョブを開始して手動でページングします。
シンプルなバッチスクレイプ(自動ページネーション、デフォルト)
- 既定のフローは Batch Scrape を参照してください。
ページネーション制御付きの手動バッチスクレイピング
auto_paginate=False を指定してジョブを開始し、1ページずつ取得します。後続のページを取得するには get_batch_scrape_status_page を使用します。
Python
制限付きの手動バッチスクレイプ(自動ページネーション + 早期停止)
max_pages、max_results、または max_wait_time で早期に停止します:
Python
エラーハンドリング
非同期クラス
AsyncFirecrawl クラスを使用します。メソッドは Firecrawl と同等ですが、メインスレッドをブロックしません。
Python

