http://readthedocs.org/docs/scrapy/zh-CN/latest/topics/spider-
middleware.html#module-
scrapy.contrib.spidermiddleware.httperror
假设启用了默认的蜘蛛中间件,则HttpErrorMiddleware会过滤掉200-300范围之外的响应代码。您可以通过在Spider上设置handle_httpstatus_list属性来告诉中间件您要处理404。
class TothegoSitemapHomesSpider(SitemapSpider): handle_httpstatus_list = [404]