A. 第5课 实例二:爬取电影
1. 选择一个网站: https://www.douban.com
2. 在进行爬取之前,我们先去看看它的robots协议。
协议网址: https://www.douban.com /robots.txt
3. 进入首页 https://movie.douban.com/top250?start=0&filter= ,打开检查工具,在Elements里查看这个网页,是什么结构。
点击开发者工具左上角的小箭头,选中“肖申克的救赎”,这样就定位了电影名的所在位置,审查元素中显示<span class="title">:<span>标签内的文本,class属性;推荐语和评分也是如此,<span class='inq'>,<span class='rating_num'>;序号:<em class>,<em>标签内的文本,class属性;推荐语<span class='inq'>;链接是<a>标签里href的值。最后,它们最小共同父级标签,是<li>。
4. 我们再换个电影验证下找的规律是否正确。
5. check后,我们再看一共10页,每页的url有什么相关呢?
第1页: https://movie.douban.com/top250?start=0&filter=
第3页: https://movie.douban.com/top250?start=50&filter=
第7页: https://movie.douban.com/top250?start=150&filter=
发现只有start后面是有变化,规律就是第N页,start=(N-1)*25
6. 基于以上分析,我们有两种写爬虫的思路。
思路一:先爬取最小共同父级标签 <li>,然后针对每一个父级标签,提取里面的序号/电影名/评分/推荐语/链接。
思路二:分别提取所有的序号/所有的电影名/所有的评分/所有的推荐语/所有的链接,然后再按顺序一一对应起来。
import requests# 引用requests库
from bs4 import BeautifulSoup# 引用BeautifulSoup库
res_films=requests.get('https://movie.douban.com/')# 获取数据
bs_films=BeautifulSoup(res_films.text,'html.parser')# 解析数据
fil_title=bs_films.find_all(class_='title')
fil_num=bs_films.find_all(class_="")
list_all=[]# 创建一个空列表,用于存储信息
for x in range(len(fil_num)):
list_films=[fil_num[x].text[18:-14],fil_title[x].find('a')['href']]
list_all.append(list_films)
print(list_all)
B. 如何下载网页上的电影或视频
下载以下三个软件(任选其一),他们能单独使用,也可以联合使用,各自有各自的用途和优点(常用星光高清视频下载),无需注册,还不分什么网,什么优酷、土豆的:
1.用“星光高清视频下载”直接下载视频的软件;
2.用“RealPlayer
11
简体中文正式版”直接录制视频的软件;
3.用一款“VideoCacheView
(视频缓存中提取)V1.52
汉化绿色版”的软件提取视频,也就播放完了才提取。
说明:1.是下载软件,“工具箱”中有“视频地址嗅探”、“视频格式转换”还有“视频截取与合并”功能;
2.是录制软件,里面也有转换等功能
;
3.是视频提取软件。有了这3个软件一般都能搞定,除非是加密视频(不懂Hi我)如果还不行就用“视频录像机”录制
下载以后如果不能播放就转换格式及参数,下载“3GP、MP4视频转换精灵3.1(免安装版)它能识别视频参数”或者“狂雷手机视频转换器”(里边有对应的手机型号)来转换
C. 如何嗅探在线电影的真实下载地址
第一步:安装WinPcap 首先需要安装WinPcap,最新版本下载地址是:点击下载。WinPcap是一种抓包驱动程序,它能够分析在线播放的流媒体直接下载地址信息。 第二步:设置网卡 这是非常重要的一步,因为只有正确选择网卡,才能捕捉到影音文件的网络地址。运行软件,单击“设置”菜单下的“选择网卡”,在弹出的窗口中将列出机器中的所有网卡,如图1所示。选择正在使用的网卡,然后单击“确定”按钮。如果你不知道现在使用哪个网卡,可挨个试验,直到能捕捉到数据为止。 图1 选择网卡 第三步:设置捕捉类型 该软件不但能探测影音文件,还能探测图片、Flash动画、电子邮件等其他文件。默认情况下软件只探测影音文件,如果想探测其他文件,需要进行设置一番。 单击“设置”菜单下的“高级设置”,进入设置窗口,如图2所示。点击“嗅探类型”,在右侧窗口中就会列出所有支持的类型,如你想探测Flash动画,只要在前面打勾即可。另外还可以根据自己的需要,来按文件扩展名进行探测。 图2 高级设置 第四步:捕捉地址 设置完毕后,单击“开始捕捉”,软件就开始进行影音地址捕捉工作了。进入某个只提供在线收看的电影网站,选择某部电影后点击在线观看,网站就会连接到存放电影的站点,此时就是电影的缓冲阶段。这时,电影的真实地址已经列在软件的列表栏中了。在链接地址上点击鼠标右键,在弹出的快捷菜单中可以选择直接使用NetTransport或FlashGet来下载,也可以将网址复制到剪贴板中。 使用本软件不但能找出在线电影、电视的真实地址,还能将手机铃声、Flash动画甚至网页中的电子邮件、图片的地址搜寻出来,的确是流媒体下载软件的好助手!
希望采纳
D. 如何直接从网页上下载电影
第一部:下载QVOD播放器并安装
第二部:到网站
www.dyhezi.com
找到想要下载的电影
第三部:打开电影播放页面,如果没有qvod此时会提示你下载安装,如果安装过就可以播放了
如果不想在线看只想下载,等到网页上的播放器出现开始缓冲1%..之类的提示
就可以把网页关闭了
任务栏右下角有QVOD的托盘图标
点击打开就能看到刚才的电影列表
网页关闭播放器中也停止下载了
在电影名称上点右键
“开始接收”
就可以下载了
下载到一个叫media的文件夹下
安装QVOD的时候可选位置
就这样了
E. 网页上的电影怎么下载
1、打开IE浏览器,随便找一个视频网站,我们这里以优槐梁激酷作为例子。打开一个视频,点击播放。等它缓冲完,或者播放完。
(5)如何爬取下载电影扩展阅读:
软件功能:
1、网页视频下载软件内置页签式浏览器,可访问所有网页。
2、音视频文件搜索功能,能快速定位感兴趣的音视频。
3、支持使用HTTP、RTMP、RTMPT、RTMPTE等协议,基于flash的音视频文件下载功能。
4、下载任务管理渣察功能,对下载下来的文件或是本机音视频文件进行转换功能,提供可自定义的配置文件。
5、快速将FLV(h.264/aac)文件转换成MP4。
6、内置万能播放器,支持多种音视频格式,可以观看下载下来的视频和转换出来的文件。
F. 怎样从网页下载电影呢
如果网站提供了下载链接,你点击链接就可以下载了(首先下载迅雷或快车下载工具)。
如果视频没有下载链接请用下面的方法:
1、在网上观看视频节目时,并没有提供下载地址怎么办呢?其实利用新版的迅雷就可以直接下载隐藏得很深的网络视频节目。在迅雷的主窗口中点击菜单工具/配置,在配置窗口的左侧列表中点击“监视”按钮,右侧窗口中勾选“在Flash和流媒体文件上显示下载图标”项,同时在“监视文件类型”中添加流媒体文件类型(例如:rmvb等),不同类型之间以分号分隔,之后点击确定按钮保存设置。当迅雷处于运行状态时,打开包含流媒体视频的网页再将鼠标移动到播放届面上,稍后片刻即可出现下载图标,迅雷既可深测到网络视频的真实地址信息,同时弹出新建下载任务对话框,这样就可以将隐藏的网络视频下载到本地了。
上面的方法如果不行,可以试试下面的方法:
2、可到www.xmlbar.com/上下载视频探测器,可以下载很多视频网站上的视频,有YouTube, ku6,56,tudou等,国内外的很多视频网站都可以下载下来,试试吧。
3、还可以使用FLV视频探测器,“uumeflv spy”(下载网址: http://download.cpcw.com)等工具来下载视频,基本没有什么视频是他们搞不定的。另外,你还可以到 http://www.quchao.com/video看看,该网站目前能够分析121个视频共享网站FLV下载地址,你只要输入视频所在页面的地址,即可或得视频的下载地址。
4、用维棠FLV视频下载工具 下载。
http://www.newhua.com/soft/53237.htm
5、疾风视频 1.8.08下载视频网站节目。
使用说明http://news.newhua.com/news1/Teach_tools/2008/823/.html
下载网址: http://www.newhua.com/soft/59655.htm
6、有专门的软件解决这种问题。土豆网就提供了一个下载工具,iTudou。
看下这个页面:
http://www.tudou.com/my/soft/itudou.php
在线播放完的视频文件都保存到了
你的系统盘:\Documents and Settings\你的用户名\Local Settings\Temporary Internet Files(隐藏文件),但是需要软件将其提取。
VideoCacheView v1.36 汉化版_将视频从缓存中提取出来并保存。
当在某个网站观看完一个视频后,您可能想将视频文件保存下来以便将来离线播放。如果此视频文件保存在您的浏览器的缓存里,则VideoCacheView可以帮您将视频文件从缓存中提取出来并保存它以便将来观看。
VideoCacheView自动扫描Internet Explorer和基于Mozilla的网络浏览器(包括FireFox)的整个缓存,查找当前存储于其中的所有视频文件。它能让您很容易地复制缓存的视频文件或其它目录以便将来进行播放和观看。如果您有一个关联了FLV文件的视频播放器,您还可直接播放缓存中的视频文件。
传给你一个VideoCacheView v1.36 汉化版。
http://www.crsky.com/soft/11823.html
实在不行用最后一个方法,看完视频后可以将IE临时文件中的视频文件截取下来。
G. Python爬虫实战,Python多线程抓取5千多部最新电影下载链接
利用Python多线程爬了5000多部最新电影下载链接,废话不多说~
让我们愉快地开始吧~
Python版本: 3.6.4
相关模块:
requests模块;
re模块;
csv模块;
以及一些Python自带的模块。
安装Python并添加到环境变量,pip安装需要的相关模块即可。
拿到链接之后,接下来就是继续访问这些链接,然后拿到电影的下载链接
但是这里还是有很多的小细节,例如我们需要拿到电影的总页数,其次这么多的页面,一个线程不知道要跑到什么时候,所以我们首先先拿到总页码,然后用多线程来进行任务的分配
我们首先先拿到总页码,然后用多线程来进行任务的分配
总页数其实我们用re正则来获取
爬取的内容存取到csv,也可以写个函数来存取
开启4个进程来下载链接
您学废了吗?最后祝大家天天进步!!学习Python最重要的就是心态。我们在学习过程中必然会遇到很多难题,可能自己想破脑袋都无法解决。这都是正常的,千万别急着否定自己,怀疑自己。如果大家在刚开始学习中遇到困难,想找一个python学习交流环境,可以加入我们,领取学习资料,一起讨论,会节约很多时间,减少很多遇到的难题。
H. 如何把网页上看到的电影下载下来
其实下载视频和音频文件根本不用软件根本不用刻意的去下载,方法简单的让人看了都直发笑,只是有的朋友不知道而已,在试看视频或试听音频文件等缓冲完后,滚仔这时候想文件已经下载到我们电脑里了,下载网页里的和暴风影音酷我音乐盒QQ空间网络贴吧等等方法完全一样,下面我说一下怎么下载音频或视频文件:
1:打开浏览器或某个网页后,选择:工具-internet选项-删除文件-确定。(这样做的目的是方便一会儿查找文件)
2:这时候开始去试听或试看你想要下载的文件。(记住,一定要等播放的视频或音频文件缓冲完成后再回头去大裂汪找这个源做已经下载到电脑里的文件)
3:找到已经下载到电脑里的我们刚才试听或试看的文件,音频文件为MP3格式,视频文件为FLV或MP4或HLV或DAT等格式的文件。(找文件的方法:工具-internet选项-设置-查看文件-这时,在打开的C盘的画面的空白处点右键-排列图标-大小,其实点右键选择图标再选择大小的目的只是为了方便不太熟悉的朋友寻找文件,这时候最后的一个文件就是我们想下载的文件了,在最后的一个文件上点右键选择复制,之后粘贴到桌面或其他地方就可以了,如果需要,自己就更改一下文件的名字,播放的时候选择一下播放器就可以了,右键视频文件,选择程序,如果你电脑里有暴风影音直接就可以运行文件了,如果想下载到手机,找个格式转换软件转换一下格式就OK了)
看我写了这么多好象很麻烦,其实真的简单的不能再简单了!
天天开心!!!
I. 怎么下载电影
方法如下:
工具:华灶和硕电脑,windows10,网络浏览器v8.21
1、点击浏览器的右上角“管理”,点击“段兆添加”。