㈠ Python豆瓣电影《肖申克的救赎》评论爬取
先看效果图:
地址:( https://movie.douban.com/subject/1292052/comments?sort=time&status=P)
爬取前1w条评论
存储成txt文档
数据预处理
中文分词
统计top10的高频词
可视化展示高频词
根据词频生成词云
审核评论
================================================================
配置准备
中文分词需要jieba
词云绘制需要wordcloud
可视化展示中需要的中文字体
网上公开资源中找一个中文停用词表
根据分词结果自己制作新增词表
准备一张词云背景图(附加项,不做要求)
paddlehub配置
#安装jieba分词和词云
pip install jieba
pip install wordcloud
#安装paddle
pip install --upgrade PaddlePaddle
#安装模型
#hub install porn_detection_lstm==1.1.0
pip install --upgrade paddlehub
pip install numpy
#安装Beautifulsoup
pip install BeautifulSoup4
Github地址: https://github.com/mikite/python_sp_shawshank
有可能遇到的问题:
1.UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe8 in position 1: invalid continuation byte
解决方法:
1.不使用urlLib换做requests
2.去掉请求头中的 'Accept-Encoding': 'gzip, deflate, br'
3.返回值reponse 转字符串指定编码utf-8
# 'Accept-Encoding': 'gzip, deflate, br',
2.关于cookie
解决方法:
1.去豆瓣请求头中复制cookie设置到请求头中
'Cookie': 'bid=WD6_t6hVqgM'
3.请求返回418的问题
解决方案模拟设置请求头,设置user-agent
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36',
4.使用beautifulsoup获取不到评论
解决方法:
第一步:指定解析参数为'lxml'
soupComment = BeautifulSoup(html, 'lxml')
第二步:
findAll方法指定css文件的class名
print('网页内容:', soupComment.prettify())
comments = soupComment.findAll(class_='short')
点击获取源码
㈡ 豆瓣评分排行榜是怎样的
豆瓣是一个以书影音为核心的评论社区,甚至不是一个专门的影迷网站,其评分方式粗略,用户在打分时也并非抱着评选的念头。所以虽然具体算法不得而知,但其电影榜单的含金量可想而知。
想知道哪些好看的电视剧,热门的小说,好评如潮的电影都可以在豆瓣里面找到,豆瓣APP可以给予用户对某个作品的真实评价,大量的用户基础,客观的用户评分,让用户可以避开一些垃圾快餐文学作品,打造一个良好的阅读观影体验。
如果你也注册使用了豆瓣APP,觉得里面的评论非常中肯的话,可以看看里面评分较高的作品,其中排行榜就是一个非常不错的选择,可以让用户了解当下最有价值的作品,如果你还不知道怎么看排行榜的话,不要错过小编的这篇教程了。
首先,打开登陆豆瓣APP,点击软件下方的“书影音”界面,点击“豆瓣榜单”
以上就是小编为大家带来的豆瓣APP查看排行榜方法了。方法很简单,但是却很实用。
㈢ Python爬虫实战(1)requests爬取豆瓣电影TOP250
爬取时间:2020/11/25
系统环境:Windows 10
所用工具:Jupyter NotebookPython 3.0
涉及的库:requestslxmlpandasmatplotlib
umpy
蛋肥想法: 先将电影名称、原名、评分、评价人数、分类信息从网站上爬取下来。
蛋肥想法: print数据列表后发现电影原名、分类信息等存在不需要的字符,需预先处理;同时因为后续想做一个豆瓣电影TOP250的维度分布图,而同一电影存在多个发行国家、类型(如“法国 美国 / 剧情 动作 犯罪”),为了简(偷)便(懒),这里均取第一个作为记入的数据;最后将数据保存为xlsx。
蛋肥想法: 蛋肥想知道在豆瓣电影TOP250中年份、国家、类型的维度数据,为了练手,使用刚才保存成xlsx的数据,并分别画成雷达图、柱形图、扇形图。
㈣ 如何查看豆瓣电影排行榜
直接用网络搜索豆瓣电影排行榜就能查到。
豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。你可以记录想看、在看和看过的电影电视剧,顺便打分、写影评。极大地方便了人们的生活。
主要功能
1、权威的电影评分和精彩影评,千万影迷的真实观影感受,为你的观影做决策,“看什么”不再是问题;
2、手机直接购票,还可提前选定好座位。现场排长队还选不到好座位的情况再也不会发生了;
3、票价优惠,并不定期举办免费或特惠观影活动;
4、提供超过2500家影院的实时放映时间表,随时随地查看影片场次;
5、可定位离自己最近的电影院,实时获取影片放映时间和可购票场次;
6、购票简单,支付轻松,支持支付宝、银联付款;
㈤ python爬虫小白求帮助:爬取豆瓣网的内容 不知道哪里出问题了 只能print一行
只获取到一个movie_name 和 一个movies_score,然后遍历这两个值,循环一定是只走两遍。不知道你这个是不是豆瓣top250 我看页面元素好像不对了