可以不使用scrapyd,把scrapy发布到scrapyd服务中,正在发送http动态链接库就可以不启动时,停止,栏里点状态。
该如何一步又一步的精通于scrapy
学爬虫没别的办法,实践,网上的教程一大堆,学会了以后这样两个也就入了门了,以后多练就可以了。从最简单的爬虫结束,怎末try,怎摸post,怎末加header,怎末传form,怎莫传body体,回的结果用正则咋如何处理,用xpath怎么去处理,这些都会了,那做啥也不怵了,至少研究的时候有方向了。
护兵知识
您估计对计算机编程术语和python有基本都的了解。xpath的基本是理解是一个优点。
scrapy环境(教程)
scrapy命令行工具
scrapy蜘蛛
scrapy你选器
scrapy项目
scrapyitemloaders
scrapyshell
scrapyitempipeline
scrapyfeedexports
scrapy各位和响应
scrapy链接分离提取器
scrapy设置
scrapy异样
scrapy修改一个项目
scrapy定义一个项目
scrapy第一蜘蛛
scrapy爬取
scrapy其他提取项目
scrapy使用item
scrapy跟踪链接
scrapy存放数据
scrapy记录
scrapy统计收集
scrapy发送电子邮件
scrapytelnet控制台
scrapyweb服务
scrapy
比较适合规模很大、多站点爬取,允许异步运行,是从配置资源池,这个可以非常飞快的爬取大量数据。同样学成本要比也高,文档很体系,上手容易不是很难,只不过规模大项目里的各种规则、正则表达式啥的,就必须五十点自学了。
requeststm
比较适合个人娱乐,是对每种站点,量也不是太大,同时对效率要求不高的一百头项目。如果有些it背景,requests库基本是照着做,bs库主要注意是记得一点那些规则即可,两个库的文档都很完备,中文翻译也有。具体一点的可以咨询优就业。