豆瓣手机网页版登录入口,豆瓣网页登录问题
豆瓣网页版手机的登录入口,在豆瓣网页的登录问题之前,我们讲过cookies的相关知识,了解到cookies是为互动web而生的,主要用在以下三个方面:
今天我们就用请求库登录豆瓣,然后以影评为例。
用代码解释Cookie的会话状态管理(登录)功能。
一、需求背景
之前猪哥带大家爬优酷的弹幕生成词云图片,发现优酷的弹幕质量不高,介词很多,还有一些无效词,比如:哈哈,啊,这些,那些。豆瓣的口碑一直都不错,有些书或者电影的都很不错,所以今天我们就顺着豆瓣的影评往下爬,然后生成文字云,看看效果如何!
二。功能描述
我们用请求库登录豆瓣,然后抓取影评,生成词云!
为什么不需要登录我们之前的案例(JD。COM,优酷等。),但是今天需要登录爬豆瓣?那是因为豆瓣只允许你在没有登录的情况下查看前200条评论,之后需要登录才能查看。这也是逆袭!
三。技术方案
我们来看一下简单的技术方案,大致可以分为三个部分:
方案确定后,就开始实际操作吧!
第四,登录豆瓣
在做爬虫之前,我们都是从浏览器开始,用调试窗口检查url。
1.分析豆瓣的登录界面
打开登录页面,然后调出调试窗口,输入用户名和密码,并单击login。
在这里猪哥建议输入错误的密码,这样就不会因为页面跳转而错过请求了!我们得到上面登录请求的URL:
因为是POST请求,所以我们还需要看看请求登录时携带的参数。我们将下拉调试窗口来检查表单数据。
2.代码实现登录豆瓣。
在获得登录请求URL和参数后,我们可以使用请求库来编写一个登录函数!
3.保存会话状态
上次爬优酷弹幕的时候,我们把浏览器中的Cookie到请求头中保存会话状态,但是如何让代码自动保存Cookie呢?
也许你见过或用过urllib库,它是用来保存Cookie的,有以下几种方式:
cookie=http . cookie jar . cookie jar()handler=urlib . request . http cookie处理器(cookie)opener=urlib . request . build _ opener(handler)opener(URL)但是我们前面在介绍请求库的时候说过:
所以今天,让我们看看请求库如何优雅地帮助我们自动保存Cookie。让我们对代码进行微调,使其能够自动保存Cookie来维护会话状态!
在上面的代码中,我们做了两处修改:
我们可以看到,发起请求的对象变成了session对象,Session对象发起请求的方式和原来的requests对象一样,只不过它会自动为每个请求带来一个Cookie,所以我们后来都是用Session对象来发起请求的!
4.这个session对象就是我们常说的Session吗?
在这一点上,有些同学可能会问:是要求。Session对象也就是我们常说的session?
当然不是。我们常说会话存储在服务器端,而请求。会话对象只是一个用来存储Cookie的对象。我们可以看看它的源代码介绍。
所以请不要混淆请求。使用会话技术的会话对象!
5.抓取影评。
登录并保存会话状态后,我们就可以开始工作了!
1.分析豆瓣影评界面。
首先在豆瓣找到你要分析的电影。在这里,猪哥选择一部美国电影《荒野生存》,因为这部电影是猪哥心中最好的,没有之一!
然后下拉找到影评,调出调试窗口,找到加载影评的网址。
2.抓取一段影评数据
但是爬下来的是一个html网页数据,我们需要提取影评数据。
3.电影评论的内容抽取
上图我们可以看到抓取返回html,影评数据嵌套在html标签中。如何提取影评内容?
这里,我们使用正则表达式来匹配所需的标记内容。当然也有更高级的提取方法,比如使用一些库(比如bs4,xpath等。)来解析html提取的内容。而且用库效率更高,但这是我们背后的内容。今天就来搭配规律吧!
我们先来分析一下返回html的网页的结构。
我们发现影评的内容都在标签span class=short/span里,可以写规则匹配这个标签里的内容!
检查下的选定内容。
4.批量抓取
在我们爬取、提取、保存了一段数据之后,再来批量爬取。根据之前的抓取经验,我们知道批量抓取的关键是找到分页参数。我们可以很快发现URL中有一个开始参数,就是控制分页的参数。
这里只抓取了25页,我们可以去浏览器验证是否真的只有25页。猪哥验证过只有25页!
不及物动词影评分析
数据抓取完成后,我们用词云来分析一下这部电影吧!
前面提到了两个基于词云分析的案例,所以猪哥只简单解释一下!
1.使用结巴分词
因为我们下载的影评是一段段的文字,而我们做的词云是统计出现的字数,所以需要先分词!
2.使用词云分析
最终结果:
从这几个字可以知道,这是一部关于自我寻找和现实生活的电影。猪哥拆墙!
七。摘要
今天以爬豆瓣为例,我们学到了很多。我们总结一下:
鉴于篇幅有限,爬虫过程中遇到的很多细节和技巧都没有完全写出来,希望大家自己练习。
源代码:
豆瓣网页
- 随机文章
- 核心危机(核心危机魔石合成攻略)
- 饿了么红包怎么用(饿了么红包怎么用微信支付)
- 光遇花手先祖位置(安卓光遇手花先祖)
- 抖音卡(抖音卡顿怎么解决)
- xboxones(xboxone手柄怎么配对主机)
- 陈武简历
- 帆船比赛(帆船比赛视频)
- 海猫鸣泣之时游戏(海猫鸣泣之时游戏在哪玩)
- 儋州市第二中学(儋州市第二中学录取分数线)
- 地球日主题(2020年世界地球日主题)
- 冰客(冰客果汁)
- yy魔兽(yy魔兽世界)
- 国外成人游戏(国外成人游戏注册需要visa信用卡)
- 拆奶罩
- 郭妮小说(恶魔的法则郭妮小说)
- 东天目山(东天目山景区)
- 蝙蝠给人类的一封信(蝙蝠给人类的一封信)
- 大松电饭煲(美的大松电饭煲)
- 点对点短信息(点对点短信息费是什么意思)
- 观音普门品(观音普门品念诵全文)
- 河北省大运会(河北省大运会时间)
- 哈利波特官网(哈利波特官网在哪里)
- 骇客神条(骇客神条怎么辨别真假)
- 杜星霖(杜星霖图片)
- 查传倜(查传倜个人生活)
- 广州晓港公园(广州晓港公园正门图片)
- 钢筋等级符号(钢筋等级符号电脑怎么输入)
- 常州天宁寺(常州天宁寺求什么灵验)
- 河源巴伐利亚(河源巴伐利亚庄园)
- 广州中山大学(广州中山大学录取分数线2023)
