古诗文爬取
需求:爬取中国古诗文网古诗包括题目 作者 朝代 正文
- 创建项目
1 | 打开Terminal |
创建爬虫
- 设置爬虫name
- 设置allow_domain
- 设置start_urls
- 设置settings文件包括LOG pipeline 头部信息及items
1
2
3
4
5
6
7
8
9DEFAULT_REQUEST_HEADERS = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36',
'Accept-Language': 'en',
}
LOG_LEVEL = 'WARNING'
ITEM_PIPELINES = {
'myscrapy.pipelines.MyscrapyPipeline': 300,
}1
2
3
4
5
6
7
8
9
10import scrapy
class MyscrapyItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field()
chaodai = scrapy.Field()
zuozhe = scrapy.Field()
zw = scrapy.Field() #提前定义爬取字段,注意要把Scrapy项目选中为根目录来进行导入实现数据提取方法
pipeline保存数据
gs文件
1 | import scrapy |
- pipeline文件
1 | import json |
- start文件
1 | from scrapy import cmdline |