1. Python豆瓣电影《肖申克的救赎》评论爬取
先看效果图:
地址:( https://movie.douban.com/subject/1292052/comments?sort=time&status=P)
爬取前1w条评论
存储成txt文档
数据预处理
中文分词
统计top10的高频词
可视化展示高频词
根据词频生成词云
审核评论
================================================================
配置准备
中文分词需要jieba
词云绘制需要wordcloud
可视化展示中需要的中文字体
网上公开资源中找一个中文停用词表
根据分词结果自己制作新增词表
准备一张词云背景图(附加项,不做要求)
paddlehub配置
#安装jieba分词和词云
pip install jieba
pip install wordcloud
#安装paddle
pip install --upgrade PaddlePaddle
#安装模型
#hub install porn_detection_lstm==1.1.0
pip install --upgrade paddlehub
pip install numpy
#安装Beautifulsoup
pip install BeautifulSoup4
Github地址: https://github.com/mikite/python_sp_shawshank
有可能遇到的问题:
1.UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe8 in position 1: invalid continuation byte
解决方法:
1.不使用urlLib换做requests
2.去掉请求头中的 'Accept-Encoding': 'gzip, deflate, br'
3.返回值reponse 转字符串指定编码utf-8
# 'Accept-Encoding': 'gzip, deflate, br',
2.关于cookie
解决方法:
1.去豆瓣请求头中复制cookie设置到请求头中
'Cookie': 'bid=WD6_t6hVqgM'
3.请求返回418的问题
解决方案模拟设置请求头,设置user-agent
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36',
4.使用beautifulsoup获取不到评论
解决方法:
第一步:指定解析参数为'lxml'
soupComment = BeautifulSoup(html, 'lxml')
第二步:
findAll方法指定css文件的class名
print('网页内容:', soupComment.prettify())
comments = soupComment.findAll(class_='short')
点击获取源码
2. python爬去电影用什么解释器
python爬取电影用Anaconda解释器。根据查询相关公开信息显示,在Win10系统下用python集成开发环境实现Scrapy框架网络爬取电影解释器用Anaconda,借助网页的结构和属性等特性来解析网页,只需要简单的几条语句,,就可以用来方便的从网页中爬取电影。
3. [求助] python 如何爬取 网页上调用JS函数打开的视频链接
selenium + phantomjs 模拟点击按钮,或者另写代码实现js函数openVideo();
顺着第一步再去解析新页面,看看能否找到视频的原始地址;
假设视频的原始地址第二步找到了,在通过视频的原始地址下载视频就OK啦。
4. Python爬虫实战,Python多线程抓取5千多部最新电影下载链接
利用Python多线程爬了5000多部最新电影下载链接,废话不多说~
让我们愉快地开始吧~
Python版本: 3.6.4
相关模块:
requests模块;
re模块;
csv模块;
以及一些Python自带的模块。
安装Python并添加到环境变量,pip安装需要的相关模块即可。
拿到链接之后,接下来就是继续访问这些链接,然后拿到电影的下载链接
但是这里还是有很多的小细节,例如我们需要拿到电影的总页数,其次这么多的页面,一个线程不知道要跑到什么时候,所以我们首先先拿到总页码,然后用多线程来进行任务的分配
我们首先先拿到总页码,然后用多线程来进行任务的分配
总页数其实我们用re正则来获取
爬取的内容存取到csv,也可以写个函数来存取
开启4个进程来下载链接
您学废了吗?最后祝大家天天进步!!学习Python最重要的就是心态。我们在学习过程中必然会遇到很多难题,可能自己想破脑袋都无法解决。这都是正常的,千万别急着否定自己,怀疑自己。如果大家在刚开始学习中遇到困难,想找一个python学习交流环境,可以加入我们,领取学习资料,一起讨论,会节约很多时间,减少很多遇到的难题。
5. Python爬虫实战(1)requests爬取豆瓣电影TOP250
爬取时间:2020/11/25
系统环境:Windows 10
所用工具:Jupyter NotebookPython 3.0
涉及的库:requestslxmlpandasmatplotlib
umpy
蛋肥想法: 先将电影名称、原名、评分、评价人数、分类信息从网站上爬取下来。
蛋肥想法: print数据列表后发现电影原名、分类信息等存在不需要的字符,需预先处理;同时因为后续想做一个豆瓣电影TOP250的维度分布图,而同一电影存在多个发行国家、类型(如“法国 美国 / 剧情 动作 犯罪”),为了简(偷)便(懒),这里均取第一个作为记入的数据;最后将数据保存为xlsx。
蛋肥想法: 蛋肥想知道在豆瓣电影TOP250中年份、国家、类型的维度数据,为了练手,使用刚才保存成xlsx的数据,并分别画成雷达图、柱形图、扇形图。
6. 怎样用python获取电影
实验室这段时间要采集电影的信息,给出了一个很大的数据集,数据集包含了4000多个电影名,需要我写一个爬虫来爬取电影名对应的电影信息。
其实在实际运作中,根本就不需要爬虫,只需要一点简单的Python基础就可以了。
前置需求:
Python3语法基础
HTTP网络基础
===================================
第一步,确定API的提供方。IMDb是最大的电影数据库,与其相对的,有一个OMDb的网站提供了API供使用。这家网站的API非常友好,易于使用。
第二步,确定网址的格式。
第三步,了解基本的Requests库的使用方法。
7. 濡備綍鍒╃敤Python鏉ョ埇鍙栫綉椤佃嗛戝憿锛
鍓嶅嚑澶╁啓浜嗕釜鐖铏锛岀敤path銆乺e銆丅eautifulSoup鐖鍙栫殑B绔檖ython瑙嗛戯紝浣嗘槸杩欎釜鐖铏鏈夋湁涓缂洪櫡锛屾病鑳借幏鍙栬嗛戠殑鍥剧墖淇℃伅锛屽傛灉浣犲幓灏濊瘯浣犱細鍙戠幇瀹冩牴鏈灏变笉鍦ㄨ繑鍥炵殑缁撴灉閲岄潰銆備粖澶╁氨鐢ㄥ垎鏋怉jax鐨勬柟娉曡幏鍙栧埌銆
鍒嗘瀽椤甸潰
鐐逛竴涓嬫悳绱锛岃繖涓猽rl鎵嶄細鍑虹幇锛屾垨鑰呯偣涓涓嬩笅涓椤
鐒跺悗灏辨瀯閫犺繖涓璇锋眰灏卞彲浠ヤ簡銆傞渶瑕佹敞鎰忕殑鏄鏈鍚庝竴涓鍙傛暟涓嶈兘娣诲姞銆
浠g爜瀹炴垬
浠g爜閲岄潰鏈変簺瑙i噴宸茬粡寰堟竻妤氫簡锛屽湪杩欓噷鍐嶆″嶄範涓涓
re.sub()
杩欎釜鍑芥暟浼犲叆浜斾釜鍙傛暟锛屽墠涓変釜鏄蹇呴』浼犲叆鐨刾attern,銆乺epl銆乻tring
绗涓涓鏄琛ㄧず鐨勬槸姝e垯琛ㄨ揪寮忎腑妯″紡瀛楃︿覆
绗浜屼釜鏄瑕佽鏇挎崲鐨勫瓧绗︿覆
绗涓変釜鏄鏂囨湰瀛楃︿覆鍓╀笅涓や釜鍙閫夊弬鏁帮紝涓涓鏄痗ount涓涓鏄痜lag銆
鏃堕棿鎴宠浆鎹㈡垚鏍囧噯鏍煎紡鐨勬椂闂寸涓绉嶆柟娉
绗浜岀嶆柟娉
缁间笂灏辨槸杩欐$殑鍏ㄩ儴鍐呭癸紝澶氬姞缁冧範缁х画鍔犳补锛