scrapy框架的一些小知识点

scrapy框架的一些小知识点

最近开始学习scrapy框架,摘抄一些知识点

  • 创建项目:scrapy startproject testproject
  • 进入项目:cd testproject
  • 生成spider: scrapy genspider baidu www.baidu.com
  • 了解各类模板:scrapy genspider -l
  • 指定模板:scrapy genspider -t crawl zhihu www.zhihu.com
  • crawl :运行spider的方法,可以指定运行的spider的名称 :scrapy crawl zhihu.py
    • check:用来检查代码是否有错误:scrapy check zhihu.py
    • scrapy list:返回项目中所有的名称
    • scrapy edit :在命令行下编辑
    • fetch:返回网页源代码,等同于response:scrapy fetch http://www.baidu.com
    • 去掉日志:得到headers:scrapy fetch --nolog --headers http://www.baidu.com
    • 禁止重定向:–no redicrect:scrapy fetch --no-direct http://www.baidu.com
    • view:将网页以文件的形式保存下来,然后去打开,可以在自动测试中应用:scrapy view http://www.baidu.com
  • shell:命令行模式的交互,并且返回一些可用的变量:scrapy shell http://www.baidu.com
  • parse: 传入一些参数,查看返回的结果,相当于格式化输出
  • seetings:获取当前的配置信息:scrapy settings -h
  • runspider:运行spider:scrapy runspider baidu.py
  • version:输出scrapy的版本:scrapy version -v
  • bench:测试当前爬虫的速度
-------------本文结束感谢您的阅读-------------

本文标题:scrapy框架的一些小知识点

文章作者:小憧憬

发布时间:2019年05月09日 - 20:05

最后更新:2019年05月09日 - 21:05

原始链接:http://zengbolin.github.io/2019/05/09/scrapy框架的一些知识点/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

坚持踩坑挖坑跳坑,你的支持将鼓励我继续创新执着.