导航:首页 > 观影指南 > python如何爬电影

python如何爬电影

发布时间:2024-06-29 06:09:29

1. Python爬虫实战(1)requests爬取豆瓣电影TOP250

爬取时间:2020/11/25
系统环境:Windows 10
所用工具:Jupyter NotebookPython 3.0
涉及的库:requestslxmlpandasmatplotlib umpy

蛋肥想法: 先将电影名称、原名、评分、评价人数、分类信息从网站上爬取下来。

蛋肥想法: print数据列表后发现电影原名、分类信息等存在不需要的字符,需预先处理;同时因为后续想做一个豆瓣电影TOP250的维度分布图,而同一电影存在多个发行国家、类型(如“法国 美国 / 剧情 动作 犯罪”),为了简(偷)便(懒),这里均取第一个作为记入的数据;最后将数据保存为xlsx。

蛋肥想法: 蛋肥想知道在豆瓣电影TOP250中年份、国家、类型的维度数据,为了练手,使用刚才保存成xlsx的数据,并分别画成雷达图、柱形图、扇形图。

2. python爬去电影用什么解释器

python爬取电影用Anaconda解释器。根据查询相关公开信息显示,在Win10系统下用python集成开发环境实现Scrapy框架网络爬取电影解释器用Anaconda,借助网页的结构和属性等特性来解析网页,只需要简单的几条语句,,就可以用来方便的从网页中爬取电影。

3. Python豆瓣电影《肖申克的救赎》评论爬取

先看效果图:

地址:( https://movie.douban.com/subject/1292052/comments?sort=time&status=P)

爬取前1w条评论

存储成txt文档

数据预处理

中文分词

统计top10的高频词

可视化展示高频词

根据词频生成词云

审核评论

================================================================

配置准备

中文分词需要jieba

词云绘制需要wordcloud

可视化展示中需要的中文字体

网上公开资源中找一个中文停用词表

根据分词结果自己制作新增词表

准备一张词云背景图(附加项,不做要求)

paddlehub配置

#安装jieba分词和词云

pip install jieba

pip install wordcloud

#安装paddle

pip install --upgrade PaddlePaddle

#安装模型

#hub install porn_detection_lstm==1.1.0

pip install --upgrade paddlehub

pip install  numpy

#安装Beautifulsoup

pip install BeautifulSoup4

Github地址: https://github.com/mikite/python_sp_shawshank

有可能遇到的问题:

1.UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe8 in position 1: invalid continuation byte

解决方法:

1.不使用urlLib换做requests

2.去掉请求头中的 'Accept-Encoding': 'gzip, deflate, br'

3.返回值reponse 转字符串指定编码utf-8

# 'Accept-Encoding': 'gzip, deflate, br',

2.关于cookie

解决方法:

1.去豆瓣请求头中复制cookie设置到请求头中

'Cookie': 'bid=WD6_t6hVqgM'

3.请求返回418的问题

解决方案模拟设置请求头,设置user-agent

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36',

4.使用beautifulsoup获取不到评论

解决方法:

第一步:指定解析参数为'lxml'

soupComment = BeautifulSoup(html, 'lxml')

第二步:

findAll方法指定css文件的class名

print('网页内容:', soupComment.prettify())

comments = soupComment.findAll(class_='short')

点击获取源码

4. 怎样用python获取电影

实验室这段时间要采集电影的信息,给出了一个很大的数据集,数据集包含了4000多个电影名,需要我写一个爬虫来爬取电影名对应的电影信息。

其实在实际运作中,根本就不需要爬虫,只需要一点简单的Python基础就可以了。

前置需求:

Python3语法基础

HTTP网络基础

===================================

第一步,确定API的提供方。IMDb是最大的电影数据库,与其相对的,有一个OMDb的网站提供了API供使用。这家网站的API非常友好,易于使用。

第二步,确定网址的格式。

第三步,了解基本的Requests库的使用方法。

5. Python爬虫实战,Python多线程抓取5千多部最新电影下载链接


利用Python多线程爬了5000多部最新电影下载链接,废话不多说~

让我们愉快地开始吧~

Python版本: 3.6.4

相关模块:

requests模块;

re模块;

csv模块;

以及一些Python自带的模块。

安装Python并添加到环境变量,pip安装需要的相关模块即可。

拿到链接之后,接下来就是继续访问这些链接,然后拿到电影的下载链接

但是这里还是有很多的小细节,例如我们需要拿到电影的总页数,其次这么多的页面,一个线程不知道要跑到什么时候,所以我们首先先拿到总页码,然后用多线程来进行任务的分配

我们首先先拿到总页码,然后用多线程来进行任务的分配

总页数其实我们用re正则来获取

爬取的内容存取到csv,也可以写个函数来存取

开启4个进程来下载链接

您学废了吗?最后祝大家天天进步!!学习Python最重要的就是心态。我们在学习过程中必然会遇到很多难题,可能自己想破脑袋都无法解决。这都是正常的,千万别急着否定自己,怀疑自己。如果大家在刚开始学习中遇到困难,想找一个python学习交流环境,可以加入我们,领取学习资料,一起讨论,会节约很多时间,减少很多遇到的难题。

阅读全文

与python如何爬电影相关的资料

热点内容
黑金纹身 浏览:333
第十八届上海电影节 浏览:930
电影妈妈的朋友在线 浏览:273
华谊2020出品的电影时间 浏览:349
80s网怎么下载到相册 浏览:589
爱人韩国LOL电影天堂 浏览:490
电影鬼魂在线 浏览:795
阿根庭大尺度床戏 浏览:494
怎样用手机看最新电影 浏览:941
上海哪有汽车电影院 浏览:789
挤公交车挤怀孕美剧叫什么 浏览:516
国产夺宝寻宝电影 浏览:411
断魂小丑类型电影 浏览:31
俄罗斯《硬汉》电影 浏览:819
0855手机看电影 浏览:609
怎样查找电影免费网站 浏览:18
观云台电影西瓜影院 浏览:787
卖肉的电影叫什么名字 浏览:555
韩国古装电影推荐18禁 浏览:260
电影红颜迅雷下载 浏览:189