W3Cschool
恭喜您成為首批注冊用戶
獲得88經(jīng)驗值獎勵
Scrapy附帶了一些有用的通用蜘蛛,您可以使用它們來對蜘蛛進行子類化。他們的目標是為一些常見的抓取案例提供方便的功能,比如根據(jù)特定規(guī)則跟蹤站點上的所有鏈接從 Sitemaps 或分析XML/CSV源。
對于以下蜘蛛中使用的示例,我們假設(shè)您有一個項目 ?TestItem
? 宣布為 ?myproject.items
? 模塊:
import scrapy
class TestItem(scrapy.Item):
id = scrapy.Field()
name = scrapy.Field()
description = scrapy.Field()
scrapy.spiders.
CrawlSpider
這是最常用的爬行常規(guī)網(wǎng)站的蜘蛛,因為它通過定義一組規(guī)則為跟蹤鏈接提供了一種方便的機制。它可能不是最適合您的特定網(wǎng)站或項目的,但它對于某些情況來說已經(jīng)足夠通用了,因此您可以從它開始,并根據(jù)需要覆蓋它以獲得更多的自定義功能,或者只實現(xiàn)您自己的蜘蛛。
除了從spider繼承的屬性(必須指定),這個類還支持一個新的屬性:
rules
這是一個(或多個)列表 ?Rule
? 物體。各 ?Rule
? 定義對網(wǎng)站進行爬行的特定行為。規(guī)則對象如下所述。如果多個規(guī)則與同一鏈接匹配,則將根據(jù)在該屬性中定義的順序使用第一個規(guī)則。
這個蜘蛛還公開了一個可重寫的方法:
Copyright©2021 w3cschool編程獅|閩ICP備15016281號-3|閩公網(wǎng)安備35020302033924號
違法和不良信息舉報電話:173-0602-2364|舉報郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號
聯(lián)系方式:
更多建議: