Python的爬虫框架scrapy用21行代码写一个爬虫

发布时间 - 2026-01-11 00:47:40    点击率:

开发说明

开发环境:Pycharm 2017.1(目前最新)

开发框架:Scrapy 1.3.3(目前最新)

目标

爬取线报网站,并把内容保存到items.json里

页面分析


根据上图我们可以发现内容都在类为post这个div里

下面放出post的代码

<div class="post">
<!-- baidu_tc block_begin: {"action": "DELETE"} -->
<div class="date"><span>04月</span><span class="f">07日</span></div><!-- baidu_tc block_end -->
<h2><a href="http://www.abckg.com/193.html" rel="external nofollow" title="4月7日 淘金币淘里程领取京东签到" rel="bookmark" target="_blank">4月7日 淘金币淘里程领取京东签到</a><span>已结束</span></h2>
<h6>发布日期: 2017-04-07 | 分类: <a href="http://www.abckg.com/xunibi" rel="external nofollow" >虚拟币</a> | 浏览:125177
</h6><div class="intro"><p>淘金币一键领取 http://021.tw/t/ https://www.chaidu.com/App/Web/Taobao-Coin/ 【电脑端30金币】 https://taojinbi.taobao.com/inde ... auto_take=true 【手机端30金币】 http://h5.m.taobao...</p></div></div>

实现方法

1、定义items

class DemoItem(scrapy.Item):
 id = scrapy.Field()
 title = scrapy.Field()
 href = scrapy.Field()
 content = scrapy.Field()

2、新建一个爬虫名为test

# -*- coding: utf-8 -*-
import scrapy
from demo.items import DemoItem
from scrapy.http import Request
class TestSpider(scrapy.Spider):
 #定义爬虫的名字和需要爬取的网址
 name = "test"
 allowed_domains = ["www.abckg.com"]
 start_urls = ['http://www.abckg.com/']
 def parse(self, response):
 for resp in response.css('.post'):
  #实例化item
  item = DemoItem()
  #把获取到的内容保存到item内
  item['href'] = resp.css('h2 a::attr(href)').extract()
  item['title'] = resp.css('h2 a::text').extract()
  item['content'] = resp.css('.intro p::text').extract()
  yield item
  
 #下面是多页面的爬取方法
 urls = response.css('.pageinfo a::attr(href)').extract()
 for url in urls:
  yield Request(url, callback=self.parse)
 categorys = response.css('.menu li a::attr(href)').extract()
 for ct in categorys:
  yield Request(ct, callback=self.parse)

3、修改settings.py,添加以下代码

FEED_EXPORT_ENCODING = 'utf-8'

#运行

打开cmd输入

scrapy crawl test -o items.json

已知bug

如果多次运行该爬虫,不会覆盖原有的内容,而是追加数据(好像是scrapy的bug)

可拓展内容

     1、定时运行爬虫,当检查到网站更新时获取新数据并发邮件通知

     2、检测数据是否重复

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者使用python能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对的支持。


# python  # 爬虫  # scrapy  # 框架  # python爬虫框架scrapy  # Python爬虫框架Scrapy安装使用步骤  # 讲解Python的Scrapy爬虫框架使用代理进行采集的方法  # 实践Python的爬虫框架Scrapy来抓取豆瓣电影TOP250  # Python爬虫框架Scrapy实战之批量抓取招聘信息  # python爬虫框架scrapy实战之爬取京东商城进阶篇  # Python中Scrapy爬虫图片处理详解  # Python爬虫框架Scrapy常用命令总结  # Python爬虫框架Scrapy基本用法入门教程  # Python3爬虫爬取英雄联盟高清桌面壁纸功能示例【基于Scrapy框架】  # 京东  # 都在  # 发布日期  # 我们可以  # 这篇文章  # 谢谢大家  # 并把  # 一键  # 新建一个  # 上图  # 多页  # 有疑问  # abckg  # html  # rel  # www  # block_end  # http  # href  # external 


相关栏目: 【 网站优化151355 】 【 网络推广146373 】 【 网络技术251813 】 【 AI营销90571


相关推荐: 利用 Google AI 进行 YouTube 视频 SEO 描述优化  Laravel如何实现多语言支持_Laravel本地化与国际化(i18n)配置教程  如何解决hover在ie6中的兼容性问题  北京的网站制作公司有哪些,哪个视频网站最好?  黑客如何利用漏洞与弱口令入侵网站服务器?  网站建设要注意的标准 促进网站用户好感度!  如何用AI帮你把自己的生活经历写成一个有趣的故事?  公司网站制作需要多少钱,找人做公司网站需要多少钱?  如何在服务器上配置二级域名建站?  Laravel怎么解决跨域问题_Laravel配置CORS跨域访问  油猴 教程,油猴搜脚本为什么会网页无法显示?  动图在线制作网站有哪些,滑动动图图集怎么做?  北京网站制作的公司有哪些,北京白云观官方网站?  Laravel定时任务怎么设置_Laravel Crontab调度器配置  bootstrap日历插件datetimepicker使用方法  javascript中的数组方法有哪些_如何利用数组方法简化数据处理  香港服务器网站生成指南:免费资源整合与高速稳定配置方案  购物网站制作费用多少,开办网上购物网站,需要办理哪些手续?  Laravel怎么配置.env环境变量_Laravel生产环境敏感数据保护与读取【方法】  Laravel如何实现图片防盗链功能_Laravel中间件验证Referer来源请求【方案】  智能起名网站制作软件有哪些,制作logo的软件?  EditPlus中的正则表达式实战(6)  Laravel怎么生成URL_Laravel路由命名与URL生成函数详解  php8.4header发送头信息失败怎么办_php8.4header函数问题解决【解答】  北京企业网站设计制作公司,北京铁路集团官方网站?  历史网站制作软件,华为如何找回被删除的网站?  网站视频制作书签怎么做,ie浏览器怎么将网站固定在书签工具栏?  Win11怎么查看显卡温度 Win11任务管理器查看GPU温度【技巧】  Laravel如何将应用部署到生产服务器_Laravel生产环境部署流程  Python并发异常传播_错误处理解析【教程】  在线制作视频网站免费,都有哪些好的动漫网站?  Laravel Octane如何提升性能_使用Laravel Octane加速你的应用  如何在云主机上快速搭建网站?  详解vue.js组件化开发实践  Laravel如何为API编写文档_Laravel API文档生成与维护方法  UC浏览器如何设置启动页 UC浏览器启动页设置方法  Android实现代码画虚线边框背景效果  Python面向对象测试方法_mock解析【教程】  如何基于云服务器快速搭建个人网站?  JavaScript实现Fly Bird小游戏  iOS中将个别页面强制横屏其他页面竖屏  Laravel怎么进行浏览器测试_Laravel Dusk自动化浏览器测试入门  极客网站有哪些,DoNews、36氪、爱范儿、虎嗅、雷锋网、极客公园这些互联网媒体网站有什么差异?  Laravel如何创建自定义中间件?(Middleware代码示例)  Laravel Facade的原理是什么_深入理解Laravel门面及其工作机制  Laravel API资源(Resource)怎么用_格式化Laravel API响应的最佳实践  Laravel如何连接多个数据库_Laravel多数据库连接配置与切换教程  Win11怎么关闭资讯和兴趣_Windows11任务栏设置隐藏小组件  头像制作网站在线观看,除了站酷,还有哪些比较好的设计网站?  移动端手机网站制作软件,掌上时代,移动端网站的谷歌SEO该如何做?