豆瓣手机网页版登录入口,豆瓣网页登录问题

2年前 (2024-04-23)

豆瓣网页版手机的登录入口,在豆瓣网页的登录问题之前,我们讲过cookies的相关知识,了解到cookies是为互动web而生的,主要用在以下三个方面:

今天我们就用请求库登录豆瓣,然后以影评为例。

用代码解释Cookie的会话状态管理(登录)功能。

一、需求背景

之前猪哥带大家爬优酷的弹幕生成词云图片,发现优酷的弹幕质量不高,介词很多,还有一些无效词,比如:哈哈,啊,这些,那些。豆瓣的口碑一直都不错,有些书或者电影的都很不错,所以今天我们就顺着豆瓣的影评往下爬,然后生成文字云,看看效果如何!

二。功能描述

我们用请求库登录豆瓣,然后抓取影评,生成词云!

为什么不需要登录我们之前的案例(JD。COM,优酷等。),但是今天需要登录爬豆瓣?那是因为豆瓣只允许你在没有登录的情况下查看前200条评论,之后需要登录才能查看。这也是逆袭!

三。技术方案

我们来看一下简单的技术方案,大致可以分为三个部分:

方案确定后,就开始实际操作吧!

第四,登录豆瓣

在做爬虫之前,我们都是从浏览器开始,用调试窗口检查url。

1.分析豆瓣的登录界面

打开登录页面,然后调出调试窗口,输入用户名和密码,并单击login。

在这里猪哥建议输入错误的密码,这样就不会因为页面跳转而错过请求了!我们得到上面登录请求的URL:

因为是POST请求,所以我们还需要看看请求登录时携带的参数。我们将下拉调试窗口来检查表单数据。

2.代码实现登录豆瓣。

在获得登录请求URL和参数后,我们可以使用请求库来编写一个登录函数!

3.保存会话状态

上次爬优酷弹幕的时候,我们把浏览器中的Cookie到请求头中保存会话状态,但是如何让代码自动保存Cookie呢?

也许你见过或用过urllib库,它是用来保存Cookie的,有以下几种方式:

cookie=http . cookie jar . cookie jar()handler=urlib . request . http cookie处理器(cookie)opener=urlib . request . build _ opener(handler)opener(URL)但是我们前面在介绍请求库的时候说过:

所以今天,让我们看看请求库如何优雅地帮助我们自动保存Cookie。让我们对代码进行微调,使其能够自动保存Cookie来维护会话状态!

在上面的代码中,我们做了两处修改:

我们可以看到,发起请求的对象变成了session对象,Session对象发起请求的方式和原来的requests对象一样,只不过它会自动为每个请求带来一个Cookie,所以我们后来都是用Session对象来发起请求的!

4.这个session对象就是我们常说的Session吗?

在这一点上,有些同学可能会问:是要求。Session对象也就是我们常说的session?

当然不是。我们常说会话存储在服务器端,而请求。会话对象只是一个用来存储Cookie的对象。我们可以看看它的源代码介绍。

所以请不要混淆请求。使用会话技术的会话对象!

5.抓取影评。

登录并保存会话状态后,我们就可以开始工作了!

1.分析豆瓣影评界面。

首先在豆瓣找到你要分析的电影。在这里,猪哥选择一部美国电影《荒野生存》,因为这部电影是猪哥心中最好的,没有之一!

然后下拉找到影评,调出调试窗口,找到加载影评的网址。

2.抓取一段影评数据

但是爬下来的是一个html网页数据,我们需要提取影评数据。

3.电影评论的内容抽取

上图我们可以看到抓取返回html,影评数据嵌套在html标签中。如何提取影评内容?

这里,我们使用正则表达式来匹配所需的标记内容。当然也有更高级的提取方法,比如使用一些库(比如bs4,xpath等。)来解析html提取的内容。而且用库效率更高,但这是我们背后的内容。今天就来搭配规律吧!

我们先来分析一下返回html的网页的结构。

我们发现影评的内容都在标签span class=short/span里,可以写规则匹配这个标签里的内容!

检查下的选定内容。

4.批量抓取

在我们爬取、提取、保存了一段数据之后,再来批量爬取。根据之前的抓取经验,我们知道批量抓取的关键是找到分页参数。我们可以很快发现URL中有一个开始参数,就是控制分页的参数。

这里只抓取了25页,我们可以去浏览器验证是否真的只有25页。猪哥验证过只有25页!

不及物动词影评分析

数据抓取完成后,我们用词云来分析一下这部电影吧!

前面提到了两个基于词云分析的案例,所以猪哥只简单解释一下!

1.使用结巴分词

因为我们下载的影评是一段段的文字,而我们做的词云是统计出现的字数,所以需要先分词!

2.使用词云分析

最终结果:

从这几个字可以知道,这是一部关于自我寻找和现实生活的电影。猪哥拆墙!

七。摘要

今天以爬豆瓣为例,我们学到了很多。我们总结一下:

鉴于篇幅有限,爬虫过程中遇到的很多细节和技巧都没有完全写出来,希望大家自己练习。

源代码:

豆瓣网页