LinkExtractor

LinkExtractorは, 最終的に追跡されるウェブページ (scrapy.http.Response オブジェクト) からリンクを抽出することのみを目的とするオブジェクトです.

scrapy.linkextractors import LinkExtractor によって Scrapy で有効化されますが, シンプルなインターフェースを実装することで, 独自のカスタム LinkExtractor を作成してニーズに合わせることができます.

すべてのリンク抽出プログラムが持つ唯一のパブリックメソッドは extract_links です. これは, Response オブジェクトを受け取り scrapy.link.Link オブジェクトのリストを返します. LinkExtractor は一度インスタンス化されることを意図されており,  extract_links メソッドは異なる応答で数回呼び出され, 続くリンクを抽出します.

LinkExtractor は, 一連のルールを通じて CrawlSpider クラス (Scrapyで利用可能) で使用されますが, CrawlSpider からサブクラス化しない場合でも、スパイダーで使用することができます.