处理爬虫遇到的乱码问题-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

处理爬虫遇到的乱码问题

阅读量：4649 次

发布时间：2019-06-09

本文共 703 字，大约阅读时间需要 2 分钟。

import requestsfrom lxml import etree url = 'http://pic.netbian.com/4kqiche/'headers = {    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}response = requests.get(url=url,headers=headers)#手动设置响应数据的编码# response.encoding = 'utf-8'page_text = response.text tree = etree.HTML(page_text)li_list = tree.xpath('//div[@class="slist"]/ul/li')for li in li_list:    img_src = li.xpath('./a/img/@src')[0]    img_name = li.xpath('./a/b/text()')[0]    #通用性    img_name = img_name.encode('iso-8859-1').decode('gbk')    print(img_src,img_name)

在我们爬取网页的时候,可能会遇到乱码的问题,解决这种的乱码的问题有一种通用的方法

转载于:https://www.cnblogs.com/pythonz/p/10933845.html

你可能感兴趣的文章

cocos2d-x tile map瓦片地图的黑线及地图抖动解决方案

软工网络15团队作业2——团队计划

计算机专业及软件开发推荐书籍

《Java程序设计》课程教学

Lambda--持续学习中

简单谈谈面向对象和面向过程的区别

Intellij IDEA 配置Tomcat远程调试

python3 进程和线程（一）

python-综合练习题（if条件语句，while循环，奇数偶数

C语言基础-第三章

PowerDesigner教程系列（一）概念数据模型

python常用类库总结

题解 CF962C 【Make a Square】

只读数据文件损坏恢复

k8s集群上线web静态网站

【转】Impala和Hive的关系

windows 下安装elasticsearch

C语言学习12：带参数的main函数，无指定的函数形参，调用库函数处理无指定的函数形参，...

禁止某程序联网

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-10-21 07:44:21 当前IP: 3.128.255.239 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我