电影词云图片大全_Python豆瓣电影《肖申克的救赎》评论爬取

㈠ Python豆瓣电影《肖申克的救赎》评论爬取

先看效果图：

地址：（ https://movie.douban.com/subject/1292052/comments?sort=time&status=P）

爬取前1w条评论

存储成txt文档

数据预处理

中文分词

统计top10的高频词

可视化展示高频词

根据词频生成词云

审核评论

================================================================

配置准备

中文分词需要jieba

词云绘制需要wordcloud

可视化展示中需要的中文字体

网上公开资源中找一个中文停用词表

根据分词结果自己制作新增词表

准备一张词云背景图（附加项，不做要求）

paddlehub配置

#安装jieba分词和词云

pip install jieba

pip install wordcloud

#安装paddle

pip install --upgrade PaddlePaddle

#安装模型

#hub install porn_detection_lstm==1.1.0

pip install --upgrade paddlehub

pip install numpy

#安装Beautifulsoup

pip install BeautifulSoup4

Github地址： https://github.com/mikite/python_sp_shawshank

有可能遇到的问题：

1.UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe8 in position 1: invalid continuation byte

解决方法：

1.不使用urlLib换做requests

2.去掉请求头中的 'Accept-Encoding': 'gzip, deflate, br'

3.返回值reponse 转字符串指定编码utf-8

# 'Accept-Encoding': 'gzip, deflate, br',

2.关于cookie

解决方法：

1.去豆瓣请求头中复制cookie设置到请求头中

'Cookie': 'bid=WD6_t6hVqgM'

3.请求返回418的问题

解决方案模拟设置请求头，设置user-agent

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36',

4.使用beautifulsoup获取不到评论

解决方法：

第一步：指定解析参数为'lxml'

soupComment = BeautifulSoup(html, 'lxml')

第二步：

findAll方法指定css文件的class名

print('网页内容：', soupComment.prettify())

comments = soupComment.findAll(class_='short')

点击获取源码

㈡ python濡備綍鐢熸垚璇嶄簯鍥

from wordcloud import WordCloud
import jieba
import numpy
import PIL.Image as Image
#1.灏嗗瓧绗︿覆鍒囧垎
def chinese_jieba(text):
wordlist_jieba=jieba.cut(text)
space_wordlist=" ".join(wordlist_jieba)
return space_wordlist
with open("test.txt" ,encoding="utf-8")as file:
text=file.read()
text=chinese_jieba(text)
#2.鍥剧墖閬缃╁眰
mask_pic=numpy.array(Image.open("china.jpg"))
#3.灏嗗弬鏁癿ask璁惧间负锛歮ask_pic
wordcloud = WordCloud(font_path="C:/Windows/Fonts/simfang.ttf",mask=mask_pic).generate(text)
image=wordcloud.to_image()
image.show()

濡傚浘鎵绀

热点内容

新冠病毒最新消息电影发布：2025-04-28 11:29:54 浏览：306

励志的意大利电影迅雷下载发布：2025-04-28 11:28:27 浏览：380

求佛mv是什么电影发布：2025-04-28 11:20:34 浏览：113

看小电影丢人吗发布：2025-04-28 11:11:58 浏览：120

PS3软破电影文件放哪里发布：2025-04-28 10:58:58 浏览：245

最新粤语超清电影张家辉发布：2025-04-28 10:54:23 浏览：424

哪里有偏光3d电影下载发布：2025-04-28 10:46:43 浏览：411

自由飞翔电影完整发布：2025-04-28 10:46:12 浏览：70

迪丽热巴第一部大电影发布：2025-04-28 10:29:54 浏览：554

免费看vip电影能投屏的软件发布：2025-04-28 10:28:23 浏览：223

一部电影有媛媛发布：2025-04-28 10:27:49 浏览：544

手机电影领袖水准发布：2025-04-28 10:25:25 浏览：774

花木兰电影免费观看在线发布：2025-04-28 10:23:32 浏览：422

3d电影播放器免费手机版发布：2025-04-28 10:11:44 浏览：827

一部中国武术对各国电影发布：2025-04-28 10:10:13 浏览：206

怎样给电影图片加滤镜发布：2025-04-28 10:01:09 浏览：403

消音器电影在线发布：2025-04-28 09:59:42 浏览：291

生命底色微电影发布：2025-04-28 09:56:37 浏览：622

武汉日夜电影怎么样发布：2025-04-28 09:08:00 浏览：263

小时代电影4剧情分析发布：2025-04-28 08:52:39 浏览：384

导航:首页 > 相关讯息 > 电影词云图片大全

电影词云图片大全

与电影词云图片大全相关的资料