导航:首页 > 观影指南 > python如何爬电影

python如何爬电影

发布时间：2024-06-29 06:09:29

1. Python爬虫实战（1）requests爬取豆瓣电影TOP250

爬取时间：2020/11/25
系统环境：Windows 10
所用工具：Jupyter NotebookPython 3.0
涉及的库：requestslxmlpandasmatplotlib umpy

蛋肥想法： 先将电影名称、原名、评分、评价人数、分类信息从网站上爬取下来。

蛋肥想法： print数据列表后发现电影原名、分类信息等存在不需要的字符，需预先处理；同时因为后续想做一个豆瓣电影TOP250的维度分布图，而同一电影存在多个发行国家、类型（如“法国美国 / 剧情动作犯罪”），为了简（偷）便（懒），这里均取第一个作为记入的数据；最后将数据保存为xlsx。

蛋肥想法： 蛋肥想知道在豆瓣电影TOP250中年份、国家、类型的维度数据，为了练手，使用刚才保存成xlsx的数据，并分别画成雷达图、柱形图、扇形图。

2. python爬去电影用什么解释器

python爬取电影用Anaconda解释器。根据查询相关公开信息显示，在Win10系统下用python集成开发环境实现Scrapy框架网络爬取电影解释器用Anaconda，借助网页的结构和属性等特性来解析网页，只需要简单的几条语句，，就可以用来方便的从网页中爬取电影。

3. Python豆瓣电影《肖申克的救赎》评论爬取

先看效果图：

地址：（ https://movie.douban.com/subject/1292052/comments?sort=time&status=P）

爬取前1w条评论

存储成txt文档

数据预处理

中文分词

统计top10的高频词

可视化展示高频词

根据词频生成词云

审核评论

================================================================

配置准备

中文分词需要jieba

词云绘制需要wordcloud

可视化展示中需要的中文字体

网上公开资源中找一个中文停用词表

根据分词结果自己制作新增词表

准备一张词云背景图（附加项，不做要求）

paddlehub配置

#安装jieba分词和词云

pip install jieba

pip install wordcloud

#安装paddle

pip install --upgrade PaddlePaddle

#安装模型

#hub install porn_detection_lstm==1.1.0

pip install --upgrade paddlehub

pip install numpy

#安装Beautifulsoup

pip install BeautifulSoup4

Github地址： https://github.com/mikite/python_sp_shawshank

有可能遇到的问题：

1.UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe8 in position 1: invalid continuation byte

解决方法：

1.不使用urlLib换做requests

2.去掉请求头中的 'Accept-Encoding': 'gzip, deflate, br'

3.返回值reponse 转字符串指定编码utf-8

# 'Accept-Encoding': 'gzip, deflate, br',

2.关于cookie

解决方法：

1.去豆瓣请求头中复制cookie设置到请求头中

'Cookie': 'bid=WD6_t6hVqgM'

3.请求返回418的问题

解决方案模拟设置请求头，设置user-agent

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36',

4.使用beautifulsoup获取不到评论

解决方法：

第一步：指定解析参数为'lxml'

soupComment = BeautifulSoup(html, 'lxml')

第二步：

findAll方法指定css文件的class名

print('网页内容：', soupComment.prettify())

comments = soupComment.findAll(class_='short')

点击获取源码

4. 怎样用python获取电影

实验室这段时间要采集电影的信息，给出了一个很大的数据集，数据集包含了4000多个电影名，需要我写一个爬虫来爬取电影名对应的电影信息。

其实在实际运作中，根本就不需要爬虫，只需要一点简单的Python基础就可以了。

前置需求：

Python3语法基础

HTTP网络基础

===================================

第一步，确定API的提供方。IMDb是最大的电影数据库，与其相对的，有一个OMDb的网站提供了API供使用。这家网站的API非常友好，易于使用。

第二步，确定网址的格式。

第三步，了解基本的Requests库的使用方法。

5. Python爬虫实战，Python多线程抓取5千多部最新电影下载链接

利用Python多线程爬了5000多部最新电影下载链接，废话不多说~

让我们愉快地开始吧~

Python版本： 3.6.4

相关模块：

requests模块；

re模块；

csv模块；

以及一些Python自带的模块。

安装Python并添加到环境变量，pip安装需要的相关模块即可。

拿到链接之后，接下来就是继续访问这些链接，然后拿到电影的下载链接

但是这里还是有很多的小细节，例如我们需要拿到电影的总页数，其次这么多的页面，一个线程不知道要跑到什么时候，所以我们首先先拿到总页码，然后用多线程来进行任务的分配

我们首先先拿到总页码，然后用多线程来进行任务的分配

总页数其实我们用re正则来获取

爬取的内容存取到csv，也可以写个函数来存取

开启4个进程来下载链接

您学废了吗？最后祝大家天天进步！！学习Python最重要的就是心态。我们在学习过程中必然会遇到很多难题，可能自己想破脑袋都无法解决。这都是正常的，千万别急着否定自己，怀疑自己。如果大家在刚开始学习中遇到困难，想找一个python学习交流环境，可以加入我们，领取学习资料，一起讨论，会节约很多时间，减少很多遇到的难题。

阅读全文

与python如何爬电影相关的资料

热点内容

赵英俊参演的电影有哪些发布：2025-04-24 20:02:48 浏览：115

2021年怎么没有外国电影上映发布：2025-04-24 20:02:42 浏览：845

少年朱元璋电影免费观看全集发布：2025-04-24 19:43:38 浏览：858

电影寄生虫完整版发布：2025-04-24 19:39:51 浏览：66

熊出没之雪熊风大电影完整版发布：2025-04-24 19:35:27 浏览：48

哪些教做好女人的电影发布：2025-04-24 19:34:37 浏览：258

欧美美女多的电影有哪些发布：2025-04-24 19:34:33 浏览：514

2001年大陆电影票房前十发布：2025-04-24 19:28:51 浏览：314

大人物电影片段壁纸发布：2025-04-24 19:28:07 浏览：275

电影片段训话发布：2025-04-24 19:26:40 浏览：750

余男电影图片发布：2025-04-24 19:25:56 浏览：91

手机电影在线观看网站迅雷下载迅雷下载发布：2025-04-24 19:15:35 浏览：329

死亡公路电影讲的什么发布：2025-04-24 19:13:43 浏览：541

变形金刚3电影图片大全图片大全图片大全图片大全图片发布：2025-04-24 19:09:25 浏览：602

北京电影学校学费贵吗发布：2025-04-24 19:03:08 浏览：602

飞天烙铁哪个电影发布：2025-04-24 18:48:35 浏览：50

2d电影原理是什么发布：2025-04-24 18:33:29 浏览：225

辉哥搞笑电影全集大全发布：2025-04-24 18:33:27 浏览：527

世界尽头的电影爱电影发布：2025-04-24 18:33:19 浏览：230

色西电影图片发布：2025-04-24 18:26:52 浏览：209