Ⅰ 豆瓣电影的评分标准是什么有何算法
豆瓣的注册用户看完一部电影,心情好的话会来打个一到五星的分(有时候心情不好也会来)。比方说一部电影有42万用户打分。我们的程序把这42万个一到五星换算成零到十分,加起来除以42万,就得到了豆瓣评分。
这个评分会自动出现在豆瓣各处,中间没有审核,平时也没有编辑盯着看。每过若干分钟,程序会自动重跑一遍,把最新打分的人的意见包括进来。
那42万用户里可能包括资深电影评论家,可能包括你、你的亲戚、你的小学同学、早晨卖你油条的那个人,也可能包括阿北我个人。但每个人都是一票。这个是“大众评审团”应该的含义:不是说团里的人全都大众,而是说和大众一样一人一票。
豆瓣的工作人员偶然收到“我明明给这个片子打了五星,为什么评分一点没变”的投诉的时候,除了心里嘀咕一下“哎,你拿这些红人/独生子女/八零后/九零后/零零后/数学不好的人怎么办”以外,会(或者应该)这样耐心解释:评分实际是变了,只是在小数点后四位,被四舍五入掉了。
但如果有几千个人和你一样都打五星的时候,分数就会变。
“一人一票”唯一的例外,是豆瓣的程序判断是“非正常打分”的帐号。这些打分会被排除在外。具体下面会说到。
豆瓣电影评分的主旨和原则,是“尽力还原普通观影大众对一部电影的平均看法”。这个主旨过去十年没变过,将来也不想变。
它并不是专家、影视从业人员或者资深人士对电影的看法,虽然这些看法会被豆瓣算在“普通观影大众”之内。所以有次听到“豆瓣电影评分不专业”的说法的时候,我的反应这是在说“大众不专业”,应该怪语文才是。个人认为汇总专家意见会是另一个很有价值的服务,但这个确实不是豆瓣评分的宗旨。
豆瓣简介
豆瓣(douban)是一家社区网站。网站由杨勃(网名“阿北”)[3]创立于2005年3月6日。该网站以书影音起家,提供关于书籍、电影、音乐等作品的信息,无论描述还是评论都由用户提供,是中国Web 2.0网站中具有特色的一个网站。
网站还提供书影音推荐、线下同城活动、小组话题交流等多种服务功能,它更像一个集品味系统(读书、电影、音乐)、表达系统(我读、我看、我听)和交流系统(同城、小组、友邻)于一体的创新网络服务,一直致力于帮助都市人群发现生活中有用的事物。2012年,豆瓣阅读上线,开始进入网上电子书版权领域。
(1)电影评分数据分析定义扩展阅读:
豆瓣其他产品
1.豆瓣FM
豆瓣FM是你专属的个性化音乐收听工具,打开就能收听,可以用“红心”、“垃圾桶”或者“跳过” 告诉豆瓣FM你的喜好。豆瓣FM将根据你的操作和反馈,从海量曲库中自动发现并播出符合你音乐口味的歌曲,提供公共、私人和红心三种收听方式。在红心兆赫离线也能收听。
2.豆瓣读书- 豆瓣读书自2005年上线,已成为国内信息最全、用户数量最大且最为活跃的读书网站。我们专注于为用户提供全面、且精细化的读书服务,同时不断探索新的产品模式。到2012年豆瓣读书每个月有超过800万的来访用户,过亿的访问次数。
3.豆瓣阅读
豆瓣阅读是豆瓣读书2012年推出的数字阅读服务,支持 Web、iPhone、iPad、Android、Kindle等桌面和移动设备,自2012年5月7日作品商店上线以来,商店作品达600余部,用户评论3000余篇,有50万用户购买过付费或者免费作品。
豆瓣阅读的现有内容涵盖了小说、历史、科技、艺术与设计、生活等多种门类,定位为短篇作品和图书于一体的综合平台。
4.豆瓣音乐
豆瓣音乐是中国最大的音乐分享、评论、音乐人推广社区,拥有最完整的全球音乐信息库、最权威的用户音乐评论,和最具创造力的独立音乐人资源。汇集90多万音乐条目,包括小凡say、幼稚园杀手、MC光光、呆宝静等21000多位独立音乐人入驻,2011年全年平均每5分钟诞生一首原创音乐,覆盖粉丝超千万。
5.豆瓣同城
豆瓣同城是国内最大的线下活动信息发布平台,包括音乐/演出、话剧、展览、电影、讲座/沙龙、戏剧/曲艺、生活/聚会、体育、旅行、公益……专注于一线城市业余生活方式。
6.豆瓣小组
豆瓣小组于2005年上线,定位于“对同一个话题感兴趣的人的聚集地”,至今已有30多万个小组被用户创建,月独立用户超过5500万。内容包括娱乐、美容、时尚、旅行等生活的方方面面。用户在这里发布内容,同时也通过互动或浏览,发现更多感兴趣的内容。
Ⅱ 数据分析——实战|IMDB-Movie分析案例
本数据报告以IMDB-Movie为数据集,通过相关的指标对电影进行分析,具体指标包括:电影时长和评分分布,评分平均数,导演人数,演员人数等,本例主要围绕pandas在实际中的应用为主(字符串离散化、数据合并、数据分组聚合,数据索引)。
链接:https://pan..com/s/1P6MF3JEMJdC1I-sg5bCsAw
提取码:enz7
1.电影时长分布
2.评分分布
3.评分平均数
4.导演人数
5.演员人数
结果再次不显示了
一部电影多个分类,要统计电影分类情况
参考链接:https://mp.weixin.qq.com/s?__biz=MzIyNTg3ODM0Ng==&mid=2247483699&idx=1&sn=&chksm=b61925&token=498825246&lang=zh_CN&scene=21#wechat_redirect
Ⅲ 豆瓣电影数据分析报告
近年来电影产业迅猛发展,其已成为重要的艺术和娱乐。同时,电影也是说明一个国家的经济水平。因此分析电影书有助于电影工业的发展趋势。
1、 每年的电影的数量,以及每年的电影平均评分
2、 电影那种类型最多,以及前三名的百分比
3、 各个国家的电影数量最多
4、 中国跟美国各个年代对比
1、 每年的电影的数量,以及每年的电影分均分
由图可见,从 2000 年开始电影年产量的趋势不断上升,而近年些年的评分越来越
低,从评分均值上看一直属于下滑状态。可以推测出,电影的数量会有大幅的上升,
而电影的质量整体下滑。
2、 电影那种类型最多,以及前三名的百分比
从词云图的电影类型可见,剧情、动作、喜剧的电影类型出现的频率很高。而从环形图
中可以看出动作、喜剧、剧情这三个电影类型对比,历年来剧情的电影类型是最多的,其
次是喜剧,由此可以了解观众的喜好。
3、电影数量在前五名国家的评分情况?
从树状图可以看出美国的电影数量最多,其次是中国、日本、英国、法国。
4、中国跟美国各个年代对比?
从图中可以看出中国的电影发展趋势一直处以上升阶段,而美国的发展趋势不太乐
观。以目前中国的发展趋势很快就会追上美国,目前美国还是领先阶段。
Ⅳ 豆瓣电影数据分析的背景与意义
豆瓣电影数据分析的背景与意义是电影发展的衡量标准。根据查询相关资料信息显示:豆瓣已经成为国内电影爱好者、影评人士的聚集地,豆瓣评分已经成为国内一个评价电影的重要指标,豆瓣上积攒了大量电影数据为电影行业分析提供了重要资源,通过豆瓣电影来衡量国内外的电影的发展情况。
Ⅳ 电影评分数据统计分析的作用和意义
通过观众对电影的评分的分析,可以在一定程度上给电影行业启发。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
Ⅵ 豆瓣电影数据分析
这篇报告是我转行数据分析后的第一篇报告,当时学完了Python,SQL,BI以为再做几个项目就能找工作了,事实上……分析思维、业务,这两者远比工具重要的多。一个多月后回过头来看,这篇报告虽然写得有模有样,但和数据分析报告还是有挺大差别的,主要原因在于:a.只是针对豆瓣电影数据分析太过宽泛了,具体关键指标到底是哪些呢?;b.没有一个确切有效的分析模型/框架,会有种东一块西一块的拼接感。
即便有着这些缺点,我还是想把它挂上来,主要是因为:1.当做Pandas与爬虫(Selenium+Request)练手,总得留下些证明;2.以豆瓣电影进行分析确实很难找到一条业务逻辑线支撑,总体上还是描述统计为主;3.比起网上能搜到的其他豆瓣电影数据分析,它更为详细,可视化效果也不错;
本篇报告旨在针对豆瓣电影1990-2020的电影数据进行分析,首先通过编写Python网络爬虫爬取了51375条电影数据,采集对象包括:电影名称、年份、导演、演员、类型、出品国家、语言、时长、评分、评论数、不同评价占比、网址。经过去重、清洗,最后得到29033条有效电影数据。根据电影评分、时长、地区、类型进行分析,描述了评分与时长、类型的关系,并统计了各个地区电影数量与评分。之后,针对演员、导演对数据进行聚合,给出产量与评分最高的名单。在分析过程中,还发现电影数量今年逐步增加,但评分下降,主要原因是中国地区今年低质量影视作品的增加。
另外,本篇报告还爬取了电影票房网( http://58921.com/ )1995-2020年度国内上映的影片票房,共采集4071条数据,其中3484条有效。进一步,本文分析了国内院线电影票房年度变化趋势,票房与评分、评价人数、时长、地区的关系,票房与电影类型的关联,并给出了票房最高的导演、演员与电影排名。
清洗、去重后,可以看到29033条数据长度、评分、评论数具有以下特点:
结合图1(a)(b)看,可以看到电影数据时长主要集中在90-120分钟之间,向两极呈现阶梯状递减,将数据按照短(60-90分钟),中(90-120分钟),长(120-150分钟),特长(>150分钟)划分,各部分占比为21.06%, 64.15%, 11.95%, 2.85%。
结合图2(a)看,可以看到我们采集到的电影数据评分主要集中在6.0-8.0之间,向两极呈现阶梯状递减,在此按照评分划分区间:2.0-4.0为口碑极差,4.0-6.0为口碑较差,6.0-7.0为口碑尚可,7.0-8.0为口碑较好,8.0-10.0为口碑极佳。
这5种电影数据的占比分别为:5.78%, 23.09%, 30.56%, 29.22%, 11.34%
再将评分数据细化到每年进行观察,可以发现,30年内电影数量与年度电影均分呈反相关,年度均分整体呈现下降趋势,2016年电影均分最低,电影数量最多。
进一步做出每个年份下不同评级等级的电影数据占比,可以发现,近年来,评分在[2.0,6.0)的电影数据占比有着明显提升,评分在[6.0,7.0)的数据占比不变,评分在[7.0,10.0)的数据占比减少,可能原因有:
对照图5,可以发现,评分与时长、评论人数的分布大致呈现漏斗状,高分电影位于漏斗上部,低分电影位于漏斗下部。这意味着,如果一部电影的评论人数很多(特别是超过30w人观影),时长较长(大于120min),那么它大概率是一部好电影。
根据各个国家的电影数量作图,可以得到图6,列出电影数量前十的国家可得表格2,发现美国在电影数量上占第一,达到8490部,中国其次,达6222部。此外,法国,英国,日本的电影数量也超过1000,其余各国电影数量相对较少。这可以说明美国电影有着较大的流量输入,在中国产生了较大的影响。
进一步分析各国电影的质量,依据评分绘制评分箱线图可得图7,在电影数量排名前20的国家中:
接着我们可以探索,哪个国家的电影对豆瓣评分随年份下降的贡献最大,考虑到电影数量对应着评分的权重。根据上述各国的电影评分表现,我们可以猜测电影数量较多的国家可能对年度均分的下降有较大影响。于是,我们再计算出这些国家的年度电影均分,并与整体均分进行比较分析。
再作出中国大陆,中国台湾,中国香港的均分箱线图图9(a),可以看到,大陆电影均分低于港台电影,且存在大量低分电影拉低了箱体的位置。
分析相关性可得,大陆、香港、台湾电影年度均分与全部评分关联度分别为R=0.979,0.919,0.822,说明滤去台湾和香港电影,大陆电影年度均分的变化趋势与全部评分变化更接近。图9(b)可以进一步反映这一点。
可以看到,大部分类型集中在X×Y=[10000,30000]×[6.00,7.50]的区间范围内,剧情、喜剧、爱情、犯罪、动作类电影数量上较多,说明这些题材的电影是近三十年比较热门的题材,其中剧情类电影占比最多,音乐、传记类电影平均得分更高,但在数量上较少,动作、惊悚类电影评论人数虽多,但评价普遍偏低。
除此之外,还有两块区域值得关注:
根据类型对电影数据进行聚合,整理得到各类型电影评分的时间序列,计算它们与整体均分时间序列的相关性,可得表格4与图11,可以看到剧情,喜剧,悬疑这三种类型片与总分趋势变化相关性最强,同时剧情、喜剧类电影在电影数量上也最多,因此可以认为这两类电影对于下跌趋势影响最大,但其余类别电影的相关性也达到了0.9以上,说明几种热门的电影得分的变化趋势与总体均分趋势一致。
前面已经得知,中美两国电影占比最高,且对于均分时间序列的影响最大。在此,进一步对两国电影进行类型分析,选取几种主要的类型(数量上较多,且相关性较高)进行分析,分别是剧情,喜剧,爱情,惊悚,动作,悬疑类电影,绘制近年来几类电影的数量变化柱状图与评分箱线图可得图12,13,14,15。
对导演与演员进行聚合,得到数据中共有15011名导演,46223名演员。按照作品数量在(0,2], (2,5], (5,10], (10,20], (20,999]进行分组统计导演数量,可以发现,15009名导演中有79.08%只拍过1-2部作品,46220名演员中有75.93%只主演过1-2部作品。忽略那些客串、跑龙套的演员,数据总体符合二八定律,即20%的人占据了行业内的大量资源。
在此,可以通过电影得分、每部电影评论人数以及电影数目寻找优秀的电影导演与演员。这三项指标分别衡量了导演/演员的创作水平,人气以及产能。考虑到电影数据集中可能有少量影视剧/剧场版动画,且影视剧/剧场版动画受众少于电影,但得分普遍要高于电影,这里根据先根据每部电影评论数量、作品数量来筛选导演/演员,再根据电影得分进行排名,并取前30名进行作图,可得图17,18。
结合电影票房网( http://58921.com/ )采集到的3353条票房数据,与豆瓣数据按照电影名称进行匹配,可以得到1995-2020年在中国大陆上映的电影信息,分别分析中国内地电影的数量、票房变化趋势,票房与评分、评价人数、时长、地区以及类型的关系,此外还给出了不同导演与演员的票房表现以及影片票房排名。
如图19所示,国内票房数据与上映的电影数量逐年递增,2020年记录的只是上半年的数据,且由于受疫情影响,票房与数量骤减。这说明在不发生重大事件的情况下,国内电影市场规模正在不断扩大。
对电影数据根据类型进行聚合,绘制散点图21,可以发现:
提取导演/演员姓名,对导演/演员字段进行聚合,计算每个导演/演员的票房总和,上映电影均分、以及执导/参与电影数目进行计算,作出票房总和前30名的导演/演员,可得图22,23,图中导演/演员标号反映了票房排名,具体每位导演/演员的上映影片数量、均分、每部电影评价人数、平均时长与总票房在表5、表6中给出。
最后根据电影票房进行排名,得到票房排名前20的电影如表格7所示,可以看到绝大部分上榜电影都是中国电影,索引序号为3、10、12、14、18、19为美国电影,这也反映了除国产电影之外,好莱坞大片占据较大的市场。
本篇报告采集了1990-2020年间豆瓣电影29033组有效数据,从豆瓣电影的评分、时长、地区、类型、演员、导演以及票房等信息进行分析评价,主要有以下结论:
Ⅶ 一般而言,一部电影是如何评分的。
IMDB网站上公布的TOP250评分标准:
imdb
top
250用的是贝叶斯统计的算法得出的加权分(Weighted
Rank-WR),公式如下:
weighted
rank
(WR)
=
(v
÷
(v+m))
×
R
+
(m
÷
(v+m))
×
C
其中:
R
=
average
for
the
movie
(mean)
=
(Rating)
(是用普通的方法计算出的平均分)
v
=
number
of
votes
for
the
movie
=
(votes)
(投票人数,需要注意的是,只有经常投票者才会被计算在内,这个下面详细解释)
m
=
minimum
votes
required
to
be
listed
in
the
top
250
(currently
1250)
(进入imdb
top
250需要的最小票数,只有三两个人投票的电影就算得满分也没用的)
C
=
the
mean
vote
across
the
whole
report
(currently
6.9)
Ⅷ 电影,什么叫IMDB评分
国外的专业的影评网
IMDb的评分包括两个分值,一个是算术平均值(arithmetic mean),一个是中值(median)。算术平均值大概就是平均数,中值是统计学中的中间数值,该值和比它大及比它小的数值是等差的。而最后我们查到的分数却既不是算术平均值,也不是中值。
IMDb的评分计算方法不是就做一下平均就ok了,在它的网页上也提到了它的计算方法是保密的。不过IMDb250佳影片用的是贝叶斯定理得出的加权分(Weighted Rank-WR),公式如下:weighted rank (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
其中:
R = average for the movie (mean) = (Rating) (是用普通的方法计算出的骄�郑?br>v = number of votes for the movie = (votes) (投票人数,需要注意的是,只有经常投票者才会被计算在内,这个下面详细解释)
m = minimum votes required to be listed in the top 250 (currently 1250) (进入imdb top 250需要的最小票数,只有三两个人投票的电影就算得满分也没用的)
C = the mean vote across the whole report (currently 6.9) (目前所有电影的平均得分)
此外,还有一个重点,根据这个注释:note: for this top 250, only votes from regular voters are considered.
只有'regular voters'的投票才会被计算在IMDB top 250之内,这就是IMDb防御因为某种电影的fans拉票而影响top 250结果,把top 250尽量限制在资深影迷投票范围内的主要方法。regular voter的标准不详,估计至少是“投票电影超过xxx部以上”这样的水平,搞不好还会加上投票的时间分布,为支持自己的心爱电影一天内给N百部电影投票估计也不行。
因此,细心的人可以注意到,列入IMDb top 250的电影,其主页面上的分数与250列表中的分数是不同的。以魔戒1 为例,它在自己的页面中的分数是8.8,而列表中是8.7。一般250表中的得分都会低于自己页面中的得分,越是娱乐片差距越大。这大概是因为 regular voter对于电影的要求通常较高的关系。) 而IMDb的过人之处不仅仅在于这儿,它除了给出分数,还给了一个更详细的投票人的列表
投票人的列表会根据年龄、性别、国别等不同的情况,列出了不同的分数表格。而且你点击每个选项,都会出现一个不同的表格。这个其实是比较有用的。比如你在要选择动画片的时候,就应该点选一下小于18岁,或者30~44岁这个选项看看他们的评分,因为他们才是这部电影的最大观众群,其他人的分数都是仅供参考的。
碟报员或者我们在选择影片的时候,可以不仅仅看个总得分,多花一点时间,看看影片各个年龄段的得分会更有帮助的。有些影片我们觉得不好看,但是分数很高,你也可以参照一下,“US users”和“non-US users”这部分的数据,如果美国投票用户远远大于海外用户,那说明此片的确是有相当深厚的美国文化底蕴的,不觉得好看也是正常。相反的,如果我们觉得不错,但是IMDB的分数很低,这也许是老美的评分人数多,打的分低,就把总分给拉下来了。
Ⅸ 从豆瓣电影评分算法说起
在PingWest看到一篇《豆瓣电影打分规则竟如此简单粗暴…》,作者写这篇文章是因为豆瓣创始人阿北最近写了一篇博文《豆瓣电影评分八问》,阿北博文是为了回应一些外界对豆瓣电影评分的质疑,然后作者看到这篇博文后,觉得豆瓣电影的评分算法有点low,就写了这样一篇吐槽文章。
那么这个很low的算法究竟是什么样子的呢?此处引用阿北原文。
简单说就是计算每部电影评论的算数平均值,并按此值来排名。
对这个算法持怀疑态度,因为如果按照这个算法的话,假设一部小众文艺片有10个用户给了全五星,和一部经典老片比如《十二怒汉》相比,小众文艺片排名比《十二怒汉》还要高,不过这在豆瓣电影TOP250里面不太可能。阿北可能只是为了文章写作方便或是保密起见,把算法故意说简单了,因为假如豆瓣公布了详细的算法,那电影发行方的水军们十分有可能针对这个算法制定出有效的刷分策略的。可怜我还真信了。
下面是阿北当年在知乎上的 回答 。
顺着PingWest这篇文章给的链接,我又去阮一峰博客看了他在2012年写的《基于用户投票的排名算法》系列文章,以及这些文章里的参考文章,发现排名算法很好玩很有趣,非常有收获,推荐阅读。
看完这些文章,我就想知道知乎的评论排名算法是怎么样的,于是去知乎找到他们产品经理 @黄涛的回答 ,知乎在2014年底更新的算法使用的正是Reddit在2009年引入的评论排名算法,也就是阮一峰老师在系列文章第5篇中介绍的「威尔逊区间」算法。在用这个算法之前,知乎用的是直接利用好评减去差评的结果来给评论排序,这种算法的缺点我就不介绍了,可以查看参考资料[1]。
「威尔逊区间」算法的数学基础是数学家Edwin B. Wilson在1927年提出的威尔逊区间修正公式,后来芝加哥工程师Evan Miller在2009年写了一篇 博客 ,认为该修正公式可以用来做排名。
这个算法的核心思想是这样的:
因为常见的置信区间计算公式「正态区间」不能很好的照顾小样本数量的准确性,而威尔逊提出的修正公式能很好地修正小样本数量的准确性问题,所以大家采用「威尔逊区间」算法较多,像Reddit、Yelp、Digg,还有知乎。
不过这种算法也有缺点,缺点就是对于那些得票少的新评论很难获得出头之日,因为得票少,置信区间就会宽,排名位置就会低,得到的关注也就会更少。
前面阿北的回答里面提到了IMDB,IMDB是亚马逊旗下的一个类似豆瓣的电影排名网站,他们在处理TOP250电影排名问题时采用了「贝叶斯平均」算法来解决,这个算法的核心思想是既然新兴产品的评分数量很少,那我就为你人工补偿一定的投票。关于这种算法在阮一峰老师系列文章第6篇中有介绍。
更多参考资料: