Python正则抓取新闻标题和链接的方法示例

发布时间 - 2026-01-11 00:47:45    点击率:

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
  pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
  title = re.findall(pat, info)
  titles='\n'.join(title)
  #print titles
#修改指定字符串
  titles1=titles.replace('class="title"','title')
  titles2=titles1.replace('>',':')
  titles3=titles2.replace('href','url:')
  titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
  save=open('xinwen.txt','w')
  save.write(titles4)
  save.close()
titles = extract_title(doc)

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

JavaScript正则表达式在线测试工具:
http://tools./regex/javascript

正则表达式在线生成工具:
http://tools./regex/create_reg

更多关于Python相关内容可查看本站专题:《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python Socket编程技巧总结》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。


# Python  # 正则  # 抓取  # 新闻标题  # 链接  # python3爬虫之入门基础和正则表达式  # 零基础写python爬虫之神器正则表达式  # Python的爬虫包Beautiful Soup中用正则表达式来搜索  # Python爬虫正则表达式常用符号和方法  # python爬虫 正则表达式使用技巧及爬取个人博客的实例讲解  # python正则表达式爬取猫眼电影top100  # Python使用正则表达式抓取网页图片的方法示例  # python正则匹配抓取豆瓣电影链接和评论代码分享  # Python爬虫实现网页信息抓取功能示例【URL与正则模块】  # python正则表达式抓取成语网站  # Python正则抓取网易新闻的方法示例  # Python3使用正则表达式爬取内涵段子示例  # 正则表达式  # 进阶  # 操作技巧  # 相关内容  # 数据结构  # 给大家  # 更多关于  # 所述  # 程序设计  # 使用技巧  # 再为  # 新闻网站  # 测试工具  # 编程技巧  # 讲述了  # read  # create_reg  # def  # news  # www 


相关栏目: 【 网站优化151355 】 【 网络推广146373 】 【 网络技术251813 】 【 AI营销90571


相关推荐: 成都网站制作公司哪家好,四川省职工服务网是做什么用?  Laravel Telescope怎么调试_使用Laravel Telescope进行应用监控与调试  JavaScript模板引擎Template.js使用详解  javascript中数组(Array)对象和字符串(String)对象的常用方法总结  制作无缝贴图网站有哪些,3dmax无缝贴图怎么调?  猎豹浏览器开发者工具怎么打开 猎豹浏览器F12调试工具使用【前端必备】  Laravel如何配置.env文件管理环境变量_Laravel环境变量使用与安全管理  Laravel怎么实现模型属性的自动加密  如何在 React 中条件性地遍历数组并渲染元素  佛山网站制作系统,佛山企业变更地址网上办理步骤?  零服务器AI建站解决方案:快速部署与云端平台低成本实践  iOS正则表达式验证手机号、邮箱、身份证号等  移动端手机网站制作软件,掌上时代,移动端网站的谷歌SEO该如何做?  公司门户网站制作公司有哪些,怎样使用wordpress制作一个企业网站?  Laravel怎么返回JSON格式数据_Laravel API资源Response响应格式化【技巧】  html5如何实现懒加载图片_ intersectionobserver api用法【教程】  网站建设保证美观性,需要考虑的几点问题!  购物网站制作费用多少,开办网上购物网站,需要办理哪些手续?  php在windows下怎么调试_phpwindows环境调试操作说明【操作】  公司网站制作需要多少钱,找人做公司网站需要多少钱?  linux写shell需要注意的问题(必看)  如何在IIS中新建站点并解决端口绑定冲突?  制作电商网页,电商供应链怎么做?  如何快速搭建高效服务器建站系统?  香港服务器网站生成指南:免费资源整合与高速稳定配置方案  湖南网站制作公司,湖南上善若水科技有限公司做什么的?  Linux安全能力提升路径_长期防护思维说明【指导】  佐糖AI抠图怎样调整抠图精度_佐糖AI精度调整与放大细化操作【攻略】  如何快速查询网站的真实建站时间?  详解Android——蓝牙技术 带你实现终端间数据传输  Swift中swift中的switch 语句  Laravel集合Collection怎么用_Laravel集合常用函数详解  Win11怎么修改DNS服务器 Win11设置DNS加速网络【指南】  详解jQuery中基本的动画方法  利用 Google AI 进行 YouTube 视频 SEO 描述优化  Chrome浏览器标签页分组怎么用_谷歌浏览器整理标签页技巧【效率】  如何在Tomcat中配置并部署网站项目?  电视网站制作tvbox接口,云海电视怎样自定义添加电视源?  如何登录建站主机?访问步骤全解析  品牌网站制作公司有哪些,买正品品牌一般去哪个网站买?  Laravel策略(Policy)如何控制权限_Laravel Gates与Policies实现用户授权  如何在阿里云高效完成企业建站全流程?  Laravel怎么集成Vue.js_Laravel Mix配置Vue开发环境  如何制作一个表白网站视频,关于勇敢表白的小标题?  详解阿里云nginx服务器多站点的配置  Swift中循环语句中的转移语句 break 和 continue  厦门模型网站设计制作公司,厦门航空飞机模型掉色怎么办?  Laravel怎么实现API接口鉴权_Laravel Sanctum令牌生成与请求验证【教程】  html如何与html链接_实现多个HTML页面互相链接【互相】  Laravel怎么使用artisan命令缓存配置和视图