博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
处理爬虫遇到的乱码问题
阅读量:4649 次
发布时间:2019-06-09

本文共 703 字,大约阅读时间需要 2 分钟。

import requestsfrom lxml import etree url = 'http://pic.netbian.com/4kqiche/'headers = {    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}response = requests.get(url=url,headers=headers)#手动设置响应数据的编码# response.encoding = 'utf-8'page_text = response.text tree = etree.HTML(page_text)li_list = tree.xpath('//div[@class="slist"]/ul/li')for li in li_list:    img_src = li.xpath('./a/img/@src')[0]    img_name = li.xpath('./a/b/text()')[0]    #通用性    img_name = img_name.encode('iso-8859-1').decode('gbk')    print(img_src,img_name) 

 

在我们爬取网页的时候,可能会遇到乱码的问题,解决这种的乱码的问题有一种通用的方法

 

转载于:https://www.cnblogs.com/pythonz/p/10933845.html

你可能感兴趣的文章
cocos2d-x tile map瓦片地图的黑线及地图抖动解决方案
查看>>
软工网络15团队作业2——团队计划
查看>>
计算机专业及软件开发推荐书籍
查看>>
《Java程序设计》 课程教学
查看>>
Lambda--持续学习中
查看>>
简单谈谈面向对象和面向过程的区别
查看>>
Intellij IDEA 配置Tomcat远程调试
查看>>
python3 进程和线程(一)
查看>>
python-综合练习题(if条件语句,while循环,奇数偶数
查看>>
C语言基础-第三章
查看>>
PowerDesigner教程系列(一)概念数据模型
查看>>
python常用类库总结
查看>>
题解 CF962C 【Make a Square】
查看>>
只读数据文件损坏恢复
查看>>
k8s集群上线web静态网站
查看>>
【转】Impala和Hive的关系
查看>>
IDEA操作git
查看>>
windows 下安装elasticsearch
查看>>
C语言学习12:带参数的main函数,无指定的函数形参,调用库函数处理无指定的函数形参,...
查看>>
禁止某程序联网
查看>>