_STORE = 'result'
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
# Disable cookies (enabled by default)
COOKIES_ENABLED = False
# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
'user-agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
}
'BOT_NAME' ----爬虫项目名称;一般进行新建scrapy爬虫后都自动写入了;
'ITEM_PIPELINES ' ---此处记得改为自己写的pipelines类名;
'FILES_STORE' ---此处为下载文件所在的文件夹;
其他的配置就基本了;例如是否遵循robots.txt协议,是否用cooks,user-agent改为与浏览器相同,这些都是为了避免被‘ban’;
最后的最后附上项目:
|