Scrapy 1.2 ドキュメント

このドキュメントには、Scrapyについて知っておくべきすべてが含まれています。

ヘルプ

トラブルですか? 私達が助けます!

最初のステップ

Scrapy について
Scrapy がどのようにしてあなたを手助けするかを理解する.
インストールガイド
コンピューターに Scraoy をインストールする方法.
Scrapy チュートリアル
最初の Scrapy プロジェクトを作成する.
あらかじめ作成された Scrapy プロジェクトで遊ぶことでさらに学ぶ.

基本概念

コマンドラインツール
Scrapy プロジェクトの管理に使用するコマンドラインツールについて学ぶ.
スパイダー
ウェブサイトをクロールするためのルールを書く.
セレクタ
XPathを使用してWebページからデータを抽出する.
Scrapy シェル
インタラクティブな環境で抽出コードをテストする.
アイテム
スクレイプしたいデータを定義する.
アイテムローダー
抽出したデータをアイテムに埋め込む.
アイテムパイプライン
後処理してスクラップしたデータを保存する.
フィードのエクスポート
さまざまなフォーマットとストレージを使用してスクラップしたデータを出力する.
リクエストとレスポンス
HTTP要求と応答を表すために使用されるクラスを理解する.
LinkExtractor
ページから続くリンクを抽出するための便利なクラス.
設定
Scrapyを設定方法を学び, 利用可能な設定 をすべて見る.
エクセプション
使用可能な例外とその意味をすべて表示する.

Built-in サービス

ロギング
Pythonの組み込みログをScrapyで使用する方法を学ぶ.
統計コレクション
スクレイピングクローラに関する統計情報を収集する.
Eメールを送る
特定のイベントが発生したときに電子メール通知を送信する.
Telnet コンソール
組み込みのPythonコンソールを使用して実行中のクローラを検査する.
ウェブサービス
Webサービスを使用してクローラを監視および制御する.

特定の問題の解決

よくある質問
最もよく寄せられる質問への回答を得る.
スパイダーのデバッグ
スパイダーの一般的な問題をデバッグする方法を学ぶ.
スパイダーコントラクト
スパイダーをテストのために使用する方法を学ぶ.
一般的なプラクティス
いくつかの Scrapy の共通プラクティスを理解する.
ブロードクロール
多くのドメインを並行してクロールするための調整.
スクレイピングにFireFoxを使用する
Firefoxといくつかの便利なアドオンを使用してスクラップする方法を学ぶ.
スクレイピングにFirebugを使用する
Firebugを使って効率的にスクレイプする方法を学ぶ.
メモリリークのデバッグ
クローラでメモリリークを見つけて取り除く方法を学ぶ.
ファイルと画像のダウンロードと処理
スクラップしたアイテムに関連するファイルや画像をダウンロードする.
スパイダーのデプロイ
Scrapyスパイダーをデプロイしてリモートサーバーで実行する.
AutoThrottle 拡張機能
負荷に基づいて動的にクロール速度を調整する.
ベンチマーク
あなたのハードウェアでScrapyがどのように機能するかを調べる.
ジョブ: クロールの一時停止と再開
大きなスパイダーのクロールを一時停止して再開する方法を学ぶ.

Scrapy を拡張する

アーキテクチャの概要
Scrapyアーキテクチャを理解する.
ダウンローダーミドルウェア
ページのリクエスト数とダウンロードのカスタマイズする.
スパイダーミドルウェア
スパイダーの入力と出力をカスタマイズする.
拡張機能
カスタム機能でScrapyを拡張する.
コア API
拡張機能やミドルウェアでそれを使ってScrapy機能を拡張する.
シグナル
利用可能なすべてのシグナルとそれらを操作する方法を見る.
アイテムエクスポーター
スクラップしたアイテムをファイルにすばやくエクスポートする (XML, CSV, etc).

残りのすべて

リリースノート
最近のScrapyのバージョンで何が変わったのか見る.
Scrapy に貢献する
Scrapyプロジェクトに貢献する方法を学ぶ.
バージョニングとAPIの安定性
ScrapyのバージョニングとAPIの安定性を理解する.