nodejs爬虫遇到的乱码问题汇总

发布时间 - 2026-01-11 00:32:51    点击率:

上一篇文章中使用nodejs程序解析了网页编码为gbk,gb2312,以及utf-8的情况,这里面有三种特殊的乱码情况需要单独的说明一下.

1,网页编码为utf-8,但是解析为乱码,代表网站为www.guoguo-app.com。

这个问题真是个逗逼问题,查看网页源码中给出的编码方式为utf8,如下:

<meta charset="UTF-8">
<title>查快递</title>

由于解析出来的始终是乱码,我就抓包看了下,报文中的编码方式为gbk,果然我使用gbk的方式之后,得到的不再是乱码了。淘宝为了反爬虫也是操碎了新,但是我也很好奇这种方式是怎么实现的,知道的告诉我。

GET / HTTP/1.1
Host: www.guoguo-app.com
Connection: close

HTTP/1.1 200 OK
Date: Thu, 06 Apr 2017 01:56:23 GMT
Content-Type: text/html;charset=GBK
Transfer-Encoding: chunked
Connection: close
Vary: Accept-Encoding
Vary: Accept-Encoding
Content-Language: zh-CN
Server: Tengine/Aserver


1,网页编码为utf-8,解析为乱码情况二,代表网站http//andersonjiang.blog.sohu.com/

单纯的查看网页源码看不出任何毛病,于是我又抓了一次包,得到如下情形:

GET / HTTP/1.1
Host: andersonjiang.blog.sohu.com
Connection: close

HTTP/1.1 200 OK
Content-Type: text/html; charset=GBK
Transfer-Encoding: chunked
Connection: close
Server: nginx
Date: Thu, 06 Apr 2017 02:10:33 GMT
Vary: Accept-Encoding
Expires: Thu, 01 Jan 1970 00:00:00 GMT
RHOST: 192.168.110.68@11177
Pragma: No-cache
Cache-Control: no-cache
Content-Language: en-US
Content-Encoding: gzip
FSS-Cache: MISS from 13539701.18454911.21477824
FSS-Proxy: Powered by 9935166.11245896.17873234

andersonjiang.blog.sohu.com这个网站同时采用了Transfer-Encoding: chunked传输编码和Content-Encoding: gzip内容编码功能,由于nodejs爬虫没有gzip解包功能,因此该网站提取不到任何字段,即title和charset等。要想提取此类网站则要添加gzip解包功能。

下面两个网站www.cr173.com以及www.csdn.net是正常的抓包情况。

GET / HTTP/1.1
Host: www.cr173.com
Connection: close

HTTP/1.1 200 OK
Expires: Thu, 06 Apr 2017 02:42:20 GMT
Date: Thu, 06 Apr 2017 02:12:20 GMT
Content-Type: text/html
Last-Modified: Thu, 06 Apr 2017 00:52:42 GMT
ETag: "96a4141970aed21:0"
Cache-Control: max-age=1800
Accept-Ranges: bytes
Content-Length: 158902
Accept-Ranges: bytes
X-Varnish: 1075189606
Via: 1.1 varnish
X-Via: 1.1 dxxz46:4 (Cdn Cache Server V2.0), 1.1 oudxin15:1 (Cdn Cache Server V2.0)
Connection: close
GET / HTTP/1.1
Host: www.csdn.net
Connection: close

HTTP/1.1 200 OK
Server: openresty
Date: Thu, 06 Apr 2017 02:18:59 GMT
Content-Type: text/html; charset=utf-8
Content-Length: 99363
Connection: close
Vary: Accept-Encoding
Last-Modified: Thu, 06 Apr 2017 02:10:02 GMT
Vary: Accept-Encoding
ETag: "58e5a37a-18423"
Accept-Ranges: bytes

3,网页编码为其他形式的编码,解析为乱码,例如:

(1)编码为Big5,代表网站为 www.ruten.com.tw, www.ctgoodjobs.hk

(2)编码为Shift_JIS,代表网站为www.vector.co.jp,www.smbc.co.jp

(3)编码为windows-12,代表网站为www.tff.org,www.pravda.com.ua

(4)编码为EUC-JP,代表网站为www.showtime.jp

(5)编码为EUC-KR ,代表网站为www.incruit.com,www.samsunghospital.com,

由于iconv-lite的说明中支持如下的编码方式:

Currently only a small part of encodings supported:

 All node.js native encodings: 'utf8', 'ucs2', 'ascii', 'binary', 'base64'.
 Base encodings: 'latin1'
 Cyrillic encodings: 'windows-1251', 'koi8-r', 'iso 8859-5'.
 Simplified chinese: 'gbk', 'gb2313'.

Other encodings are easy to add, see the source. Please, participate
因此对于上述出现的网页编码,只有自己添加解码方式加以解决了。

总之要写一个通用的爬虫程序还有很长的路要走。


# nodejs  # 爬虫乱码  # 爬虫  # nodejs爬虫框架  # NodeJS制作爬虫全过程  # nodejs爬虫抓取数据乱码问题总结  # NodeJS制作爬虫全过程(续)  # nodeJs爬虫获取数据简单实现代码  # Nodejs爬虫进阶教程之异步并发控制  # nodeJS实现简单网页爬虫功能的实例(分享)  # nodejs爬虫抓取数据之编码问题  # 基于nodejs 的多页面爬虫实例代码  # nodejs爬虫初试superagent和cheerio  # nodejs制作小爬虫功能示例  # 我就  # 是个  # 看了  # 告诉我  # 是怎么  # 我又  # 这个问题  # 上一  # 也很  # 要想  # 采用了  # 此类  # 看不出  # 很长  # 要走  # 淘宝  # 这里面  # 抓了  # 有三种  # 要写 


相关栏目: 【 网站优化151355 】 【 网络推广146373 】 【 网络技术251813 】 【 AI营销90571


相关推荐: 如何在阿里云购买域名并搭建网站?  如何在IIS中新建站点并配置端口与物理路径?  高端建站三要素:定制模板、企业官网与响应式设计优化  简历在线制作网站免费版,如何创建个人简历?  WEB开发之注册页面验证码倒计时代码的实现  车管所网站制作流程,交警当场开简易程序处罚决定书,在交警网站查询不到怎么办?  Laravel怎么实现验证码功能_Laravel集成验证码库防止机器人注册  Laravel策略(Policy)如何控制权限_Laravel Gates与Policies实现用户授权  如何确认建站备案号应放置的具体位置?  Laravel如何实现多表关联模型定义_Laravel多对多关系及中间表数据存取【方法】  Laravel怎么清理缓存_Laravel optimize clear命令详解  Windows10如何更改计算机工作组_Win10系统属性修改Workgroup  Laravel如何实现用户密码重置功能?(完整流程代码)  Laravel怎么集成Vue.js_Laravel Mix配置Vue开发环境  海南网站制作公司有哪些,海口网是哪家的?  logo在线制作免费网站在线制作好吗,DW网页制作时,如何在网页标题前加上logo?  晋江文学城电脑版官网 晋江文学城网页版直接进入  如何在阿里云通过域名搭建网站?  香港服务器部署网站为何提示未备案?  Bootstrap整体框架之JavaScript插件架构  Win11怎么查看显卡温度 Win11任务管理器查看GPU温度【技巧】  JavaScript 输出显示内容(document.write、alert、innerHTML、console.log)  Swift中循环语句中的转移语句 break 和 continue  高防网站服务器:DDoS防御与BGP线路的AI智能防护方案  制作旅游网站html,怎样注册旅游网站?  Python文件流缓冲机制_IO性能解析【教程】  php打包exe后无法访问网络共享_共享权限设置方法【教程】  Laravel如何实现本地化和多语言支持_Laravel多语言配置与翻译文件管理  网站广告牌制作方法,街上的广告牌,横幅,用PS还是其他软件做的?  Laravel怎么定时执行任务_Laravel任务调度器Schedule配置与Cron设置【教程】  Laravel如何配置.env文件管理环境变量_Laravel环境变量使用与安全管理  Laravel如何与Vue.js集成_Laravel + Vue前后端分离项目搭建指南  武汉网站设计制作公司,武汉有哪些比较大的同城网站或论坛,就是里面都是武汉人的?  详解Android图表 MPAndroidChart折线图  利用JavaScript实现拖拽改变元素大小  如何在不使用负向后查找的情况下匹配特定条件前的换行符  Laravel如何实现模型的全局作用域?(Global Scope示例)  品牌网站制作公司有哪些,买正品品牌一般去哪个网站买?  使用豆包 AI 辅助进行简单网页 HTML 结构设计  edge浏览器无法安装扩展 edge浏览器插件安装失败【解决方法】  php8.4header发送头信息失败怎么办_php8.4header函数问题解决【解答】  Laravel数据库迁移怎么用_Laravel Migration管理数据库结构的正确姿势  Laravel怎么配置S3云存储驱动_Laravel集成阿里云OSS或AWS S3存储桶【教程】  详解Nginx + Tomcat 反向代理 负载均衡 集群 部署指南  如何确保西部建站助手FTP传输的安全性?  中山网站制作网页,中山新生登记系统登记流程?  佛山企业网站制作公司有哪些,沟通100网上服务官网?  如何在万网ECS上快速搭建专属网站?  js实现点击每个li节点,都弹出其文本值及修改  Laravel如何实现API速率限制?(Rate Limiting教程)