导航:首页 > 电影题材 > 数据可视化电影数据分析

数据可视化电影数据分析

发布时间:2022-12-22 07:35:29

A. 数据可视化的16个经典案例

[数据可视化]

本文编译自:Ross Crooks

数据可视化是指将数据以视觉的形式来呈现,如图表或地图,以帮助人们了解这些数据的意义。通过观察数字、统计数据的转换以获得清晰的结论并不是一件容易的事。而人类大脑对视觉信息的处理优于对文本的处理——因此使用图表、图形和设计元素,数据可视化可以帮你更容易的解释数据模式、趋势、统计数据和数据相关性,而这些内容在其他呈现方式下可能难以被发现。

数据可视化可以是静态的或交互的。几个世纪以来,人们一直在使用静态数据可视化,如图表和地图。交互式的数据可视化则相对更为先进:人们能够使用电脑和移动设备深入到这些图表和图形的具体细节,然后用交互的方式改变他们看到的数据及数据的处理方式。

我们必须用一个合乎逻辑的、易于理解的方式来呈现数据。但是,并非所有数据可视化作品的效果都一样好。那么,如何将数据组织起来,使其既有吸引力又易于理解?让我们通过下面的16个有趣的例子获得启发,它们是既注重风格也注重内容的数据可视化经典案例。

1:为什么会有“巴士群”现象

这里有一个关于复杂数据集的很好的例子,它看起来感觉像一个游戏。在这个例子里,Setosa网站为我们呈现了“巴士群”现象是如何发生的,即当一辆巴士被延迟,就会导致多辆巴士在同一时间到站。

只用数字讲述这个故事是非常困难的,所以取而代之的是,他们把它变成一个互动游戏。当巴士沿着路线旋转时,我们可以点击并按住一个按钮来使巴士延迟。然后,我们所要做的就是观察一个短暂的延迟如何使巴士在一段时间以后聚集起来。

2:世界上的语言

这个由DensityDesign设计的互动作品令人印象深刻,它将世界上众多(或者说,我们大多数人)语言用非语言的方法表现出来,一共有2678种。

这件作品可以让你浏览使用共同语言的家庭,看看哪些语言是最常用的,并查看语言在世界各地的使用范围。这是一种了不起的视觉叙事方法:将一个有深度的主题用一种易于理解的方式进行解读。

3:按年龄段分布的美国人口百分比

应该用什么方式去呈现一种单一的数据?这是一个令人信服的好榜样。

Pew Research创造了这个GIF动画,显示人口统计数量随着时间推移的的变化。这是一个好方法,它将一个内容较多的故事压缩成了一个小的动图包。此外,这种类型的微内容很容易在社交网络上分享或在博客中嵌入,扩大了内容的传播范围。

4:NFL(国家橄榄球联盟)的完整历史

体育世界有着丰富的数据,但这些数据并不总是能有效地呈现。然而,FiveThirtyEight网站做得特别好。

在下面这个交互式可视化评级中,他们对国家橄榄球联盟史上的每一场比赛计算“等级分” – – 根据比赛结果对球队实力进行简单的衡量 。总共有超过30,000个评级,观众可以通过比较各个队伍的等级分来了解每个队伍在数十年间的比赛表现。

5:Google Flights 上的美国感恩节

下面是将一段时间内在空中移动的物体进行可视化的好方法。这是由Google Trends驱动的项目,它跟踪感恩节前出发、到达和穿越美国的航班。

可视化始于当天很早的时间,随着时间的推移,像播放电影一样显示在全国各地飞行中的航班。不需要显示时间外的任何数字,观众即可以看到当天哪段时间是国际航班、国内航班以及往返于全国各地不同枢纽的航班的热门时间。

6:是什么真正造成了全球变暖?

我们都知道,“不要只简单地展示数据,讲个故事吧”。这正是彭博商业正在做的可视化 ——用互动的方式来讲述故事的来龙去脉。。

此图的关键是要反驳用自然原因解释全球变暖的理论。首先你会看到从1880年至今观测到的温度上升情况。为了使故事内容更加丰富,当你向下滚动时,这个可视化图会让你清楚的了解到相较于已被观测到的因素,造成全球变暖的不同因素到底有多少。作者希望观众能够得到非常清晰的结论。

7:在叙利亚,谁和谁在战斗?

许多不同的团体之间的关系可能令人很难理解 – 尤其是当有11个这样的团体存在的时候。这些团体之间有的结盟,有的敌对,反之亦然。这让人难以理解。

但是,Slate网站通过表格的形式和熟悉的视觉表达,将这些数据简化为一种简单的、易于理解和可交互的形式。观众可以点击任一张脸来查看双方关系的简要描述。

8:最有价值的运动队

这是通过叠加数据来讲述深层故事的一个典型例子。

这个交互由Column Five设计,受福布斯“2014年最具价值的运动队50强”名单得到的启发。但是它不仅将列表可视化,用户还可以通过它看到每支队伍参赛的时间以及夺得总冠军的数量。这为各队的历史和成功提供了更全面的概况信息。

9:美国风图

下面是一个类似感恩节航班的可视化图,除了图中显示的时刻,它还能实时显示美国本土的风速和风向。

它是直观设计的一个很好的案例:风速用线条移动的快慢来表示,方向通过线条移动的路径来表示。它会即时显示美国风向的总体趋势,无需任何数字,除非你在地图上点击鼠标。另外,使用时设定最多两个变量会使它更容易操作。

10:政治新闻受众渠道分布图

据Pew研究中心称,当设计师在信息内容很多又不能删的时候,他们通常会把信息放到数据表中,以使其更紧凑。但是,他们在这里使用分布图来代替。

为什么呢?因为分布图可以让观众在频谱上看到每个媒体的渠道。在分布图上,每个媒体的渠道之间的距离尤为显著。如果这些点仅仅是在表中列出,那么观众就无法看到每个渠道之间的对比效果。

11:著名创意人士的日程安排

这个数据可视化图是用奇特的想法描绘出的一个简单概念。这个表格利用Mason Currey的《日常惯例》一书中的信息展示了那些著名创意人士的日程安排,解读其时间和活动安排。这不仅是一个数据分析的例子(因为你可以通过单独的活动来浏览日程安排),也是一个品牌宣传的佳作。

12:今年发生了哪些新闻?

最好的数据可视化方式,就是用直观和美丽的方式传达信息。Echelon Insights致力于这一方式,将2014年Twitter上最受关注的新闻进行了可视化。

1亿8450万条推文是什么样子?就是如下图所示的艺术品。

13:问题的深度

当你想强调规模的时候,静态数据可视化是表达你的观点的极佳方式。下面这张来自《华盛顿邮报》的信息图长得令人难以置信…这是故意的。他们在图中展示了一架飞机可以探测到的深海信号是多么的深,通过比较飞机的探测深度与高层建筑、已知哺乳动物的最大深度、泰坦尼克号沉船的深度等。这是简单的视觉效果和颜色梯度的极佳使用方式。

最后,将数据添加到新闻报道中(文中为失踪的马航)是提供背景的好方式。

14:前沿预算

上述图表相对简单,以下是创造设计精致的、传递大量数据的图表的方法。秘诀何在?——用简单和干净的格式,便于读者理解数据。

这个由GOOD Magazine 和 Column Five制作的图表,解读了NASA的五年预算,显示资金将怎么花、花在哪里。此外,它还有一个主题设计,这真是一个全面成功的作品!

15: Kontakladen慈善年报

不是所有的数据可视化都需要用动画的形式来表达。当现实世界的数据通过现实生活中的例子进行可视化,结果会令人惊叹。设计师Marion Luttenberger把包含在Kontakladen慈善年报中的数据以一种独特的方法表现出来。

该组织为奥地利的吸毒者提供支持,所以Luttenberger就通过现实生活中的视觉元素来宣传他们的使命。例如,这辆购物车的形象表现出受助者每一天可以负担得起多少生活必需品。

16:奥地利太阳能年报

虽然有许多方法都能使数据可视化,但是其中,使用真实信息主体去创建数据可视化作品的做法非常了不起。这份来自Austria Solar的年度报告,通过在页面上使用太阳光感墨水,用真正的太阳能给公司数据赋予生命。

一句话总结:他们是天才。

B. 可视化数据分析报告

可视化数据分析报告

可视化数据分析报告,如果职场上有这些现象也不用惊慌,在职场上不能将这些问题一概而论,如果没有一步步的学习深造就不会做出成绩,学会放下自己的职场压力也是很重要的,我这就带你了解可视化数据分析报告。

可视化数据分析报告1

什么是数据可视化?

数据可视化是指将数据以视觉形式来呈现,如图表或地图,以帮助人们了解这些数据的意义。

文本形式的数据很混乱(更别提有多空洞了),而可视化的数据可以帮助人们快速、轻松地提取数据中的含义。用可视化方式,您可以充分展示数据的模式,趋势和相关性,而这些可能会在其他呈现方式难以被发现。

数据可视化可以是静态的或交互的。几个世纪以来,人们一直在使用静态数据可视化,如图表和地图。交互式的数据可视化则相对更为先进:人们能够使用电脑和移动设备深入到这些图表和图形的具体细节,然后用交互的方式改变他们看到的数据及数据的处理方式。

谈谈数据可视化

人类的大脑对视觉信息的处理优于对文本的处理——因此使用图表、图形和设计元素,数据可视化可以帮你更容易的解释趋势和统计数据。

但是,并非所有的数据可视化是平等的。

那么,如何将数据组织起来,使其既有吸引力又易于理解?通过下面的16个有趣的例子获得启发,它们是既注重风格和也注重内容的数据可视化案例。

(1)世界上的语言

这个由DensityDesign设计的互动是个令人印象深刻的成果,它将世界上众多(或者说,我们大多数人)的语言用非语言的方法表现出来。一共有2678种。

这件作品可以让你浏览使用共同语言的家庭,看看哪些语言是最常用的,并查看语言在世界各地的使用范围。这是一种了不起的视觉叙事方法:将一个有深度的主题用一种易于理解的方式解读。

(2)按年龄段分布的美国人口百分比

这是如何以令人信服的方式呈现一种单一的数据的好榜样。PewResearch创造了这个GIF动画,显示随着时间推移的人口统计数量的变化。这是一个好方法,它将一个内容较多的故事压缩成了一个小的package。

此外,这种类型的微内容很容易在社交网络上分享或在博客中嵌入,扩大了内容的传播范围。如果你想自己用Photoshop做GIF,这里有一个详细的教程。

(3)NFL(国家橄榄球联盟)的完整历史

体育世界有着丰富的数据,但这些数据并不总是能有效地呈现(或者准确的说,对于这个问题)。然而,FiveThirtyEight网站做的特别好。在下面这个交互式可视化评级中,他们计算所谓“等级分”–根据比赛结果对球队实力进行简单的衡量–在国家橄榄球联盟史上的每一场比赛。总共有超过30,000个评级。观众可以通过比较各个队伍的等级来了解每个队伍在数十年间的比赛表现。

(4)政治新闻受众渠道分布图

据Pew研究中心称,通常,当设计师在信息内容很多又不能删节的时候,他们通常会把信息放到数据表中,以使其更紧凑。但是,他们使用分布图来代替。为什么呢?因为分布图可以让观众在频谱上看到每个媒体的渠道。在分布图上,每个媒体的渠道之间的距离尤为显著。如果这些点仅仅是在表中列出,观众无法看到每个渠道之间的比较。

(5)Kontakladen慈善年度报告

不是所有的数据可视化都需要用动画的形式来表达。当现实世界的数据通过现实生活中的例子进行可视化,结果会令人惊叹。设计师MarionLuttenberger把包含在Kontakladen慈善年报中的数据以一种独特的方法表现出来。该组织为奥地利的吸毒者提供支持,所以Luttenberger的使命就是通过真实的视觉来宣传。例如,这辆购物车形象的表现了受助者每一天可以负担得起多少生活必需品。

可视化数据分析报告2

什么是可视化数据分析报告?

所谓的可视化数据分析报告就是用视觉表现形式的数据,对其进行全方位的透析,从而提供决策者有根据、有依据地进行判断。

简单来说就是用图形的方式来表征数据的.规律。

一般来说,数据分析报告分为三类:日常运营报告、专项研究报告、行业分析报告。

但无论是哪一类型的报告,都可能不可避免的需要做可视化,那么可视化数据分析报告要怎么做呢?

首先在写报告前,要知道包含哪些内容:目标确定、数据获取、数据清洗、数据整理、描述分析、洞察结论,最后才是撰写数据分析报告。

这是我依据XX学校的学生成绩数据做的三年级学生成绩分析报告,不仅有可视化图表支持分析,还有分析原因,图文并茂,更加容易找出问题原因。

同时还能打印报告和线上分享,电子报告+纸质报告,方便校长审阅与同事们的查看。

这样的可视化数据分析报告我只用了三步:

确定目标:三年级学生成绩整理数据:将所有的三年级学生成绩数据导入库中,然后依据分析目标来做可视化数据分析图表,比如,各班期初、期中、期末考试情况……利用数据报告的功能,通过简单的拖拽操作,快速生成你想要的数据可视化报告并附加分析原因。这样一份又直观、又好看的分析报告就好了。

为什么要做可视化数据分析报告?

传递速度快更直观的展示信息,从而优化运营和管理流程响应分析需求,多角度分析挖掘信息最后要明白一点,可视化数据分析报告的核心是分析,只有数据分析内涵丰富、价值高,数据可视化才能内容丰富、有价值。

可视化数据分析报告3

1、将数据,数据相关绘图,数据无关绘图分离

这点可以说是ggplot2最为吸引人的一点。众所周知,数据可视化就是将我们从数据中探索的信息与图形要素对应起来的过程。

ggplot2将数据,数据到图形要素的映射,以及和数据无关的图形要素绘制分离,有点类似java的MVC框架思想。这让ggplot2的使用者能清楚分明的感受到一张数据分析图真正的组成部分,有针对性的进行开发,调整。

2、图层式的开发逻辑

在ggplot2中,图形的绘制是一个个图层添加上去的。举个例子来说,我们首先决定探索一下身高与体重之间的关系;然后画了一个简单的散点图;然后决定最好区分性别,图中点的色彩对应于不同的性别;然后决定最好区分地区,拆成东中西三幅小图;最后决定加入回归直线,直观地看出趋势。这是一个层层推进的结构过程,在每一个推进中,都有额外的信息被加入进来。在使用ggplot2的过程中,上述的每一步都是一个图层,并能够叠加到上一步并可视化展示出来。

3、各种图形要素的自由组合

由于ggplot2的图层式开发逻辑,我们可以自由组合各种图形要素,充分自由发挥想象力

C. 数据可视化分析的几种展现形式

随着互联网的不断发展,数据分析已经成为企业的重要运营方法之一。而今天我们就一起来了解一下,关于数据可视化分析都有哪些常见的类型。




数据可视化是数据科学家工作中的重要组成部分。在项目的早期阶段,你通常会进行探索性数据分析(ExploratoryDataAnalysis,EDA)以获取对数据的一些理解。创建可视化方法确实有助于使事情变得更加清晰易懂,特别是对于大型、高维数据集。在项目结束时,以清晰、简洁和引人注目的方式展现终结果是非常重要的,因为你的受众往往是非技术型客户,只有这样他们才可以理解。


散点图


散点图非常适合展示两个变量之间的关系,因为你可以直接看到数据的原始分布。如下面一张图所示的,你还可以通过对组进行简单地颜色编码来查看不同组数据的关系。想要可视化三个变量之间的关系?没问题!仅需使用另一个参数(如点大小)就可以对变量进行编码。


折线图


当你可以看到一个变量随着另一个变量明显变化的时候,比如说它们有一个大的协方差,那好使用折线图。我们可以清晰地看到对于所有的主线随着时间都有大量的变化。使用散点绘制这些将会极其混乱,难以真正明白和看到发生了什么。折线图对于这种情况则非常好,因为它们基本上提供给我们两个变量(百分比和时间)的协方差的快速总结。另外,我们也可以通过彩色编码进行分组。


直方图


直方图对于查看(或真正地探索)数据点的分布是很有用的。查看下面我们以频率和IQ做的直方图。我们可以清楚地看到朝中间聚集,并且能看到中位数是多少。我们也可以看到它呈正态分布。使用直方图真得能清晰地呈现出各个组的频率之间的相对差别。组的使用(离散化)真正地帮助我们看到了“更加宏观的图形”,然而当我们使用所有没有离散组的数据点时,将对可视化可能造成许多干扰,使得看清真正发生了什么变得困难。


柱状图


当你试图将类别很少(可能小于10)的分类数据可视化的时候,柱状图是有效的。如果我们有太多的分类,那么这些柱状图就会非常杂乱,很难理解。柱状图对分类数据很好,因为你可以很容易地看到基于柱的类别之间的区别(比如大小);分类也很容易划分和用颜色进行编码。我们将会看到三种不同类型的柱状图:常规的,分组的,堆叠的。


箱形图


我们之前看了直方图,它很好地可视化了变量的分布。但是如果我们需要更多的信息呢?也许我们想要更清晰的看到标准偏差?也许中值与均值有很大不同,我们有很多离群值?如果有这样的偏移和许多值都集中在一边呢?


这就是箱形图所适合干的事情了。箱形图给我们提供了上面所有的信息。昆明电脑培训http://www.kmbdqn.cn/认为实线框的底部和顶部总是一个和三个四分位(比如25%和75%的数据),箱体中的横线总是二个四分位(中位数)。像胡须一样的线(虚线和结尾的条线)从这个箱体伸出,显示数据的范围。


D. 如何将数据分析结果进行可视化展现

数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,将海量的信息数据在经过分布式数据挖掘处理后将结果可视化。数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息。依据数据及其内在模式和关系,利用计算机生成的图像来获得深入认识和知识。(ITJOB)

利用人类感觉系统的广阔带宽来操纵和解释错综复杂的过程、涉及不同学科领域的数据集以及来源多样的大型抽象数据集合的模拟。但是,这并不就意味着,数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。(ITJOB)

对于数据可视化应用软件的开发就迫在眉睫,数据可视化软件的开发既要保证实现其功能用途,同时又要兼顾美学形式,这样就对数据可视化软件提出了更高的要求。目前,在国内能同时兼顾这两方面的数据可视化软件屈指可数。其中,比较受用户欢迎的是一款名为大数据魔镜的可视化分析软件。企业通过大数据魔镜可以将积累的各种来自内部和外部的数据整合起来实时分析,推动自身实现数据智能化管理,增强核心竞争力,将数据价值转化为商业价值,获取最大化利润。(ITJOB)

E. 什么是数据可视化

数据可视化指的是,通过商业智能BI以图形化手段为基础,将复杂、抽象和难以理解的数据用图表进行表达,清晰有效地传达信息。数据可视化是商业智能BI数据分析的延伸,分析人员借助统计分析方法,将数据转化为信息,然后进行可视化展现。

数据可视化-派可数据商业智能BI

在商业智能BI中,数据可视化能分别为PC、移动端、大屏制作可视化报表,只需拖拉拽就能完成数据可视化分析,制作可视化报表,还拥有详细的用户权限设置功能保护数据安全。

F. 数据分析之常见的数据可视化方法有哪些

【导读】现如今已然是大数据时代,许多企业的发展离不开数据分析。大数据可视化分为不同的类型:探索型和解释型。勘探类型帮助人们发现数据背后的故事,而解析数据方便给人们看。那么,在数据分析中,常见的数据可视化方法有哪些呢?今天就跟随小编一起来了解下吧!

时态

时态可视化是数据以线性的方式展示。最为关键的是时态数据可视化有一个起点和一个终点。时态可视化的一个例子可以是连接的散点图,显示诸如某些区域的温度信息。

多维

可以通过使用常用的多维方法来展示目前二维或高维度的数据。多维的展示使得效果更加多元化,满足企业的需求。

分层

分层方法用于呈现多组数据。这些数据可视化通常展示的是大群体里面的小群体。分层数据可视化的例子包括一个树形图,可以显示语言组。

网络

在网络中展示数据间的关系,它是一种常见的展示大数据量的方法。结构较为复杂。

以上就是小编今天给大家整理分享关于“数据分析之常见的数据可视化方法有哪些?”的相关内容希望对大家有所帮助。小编认为要想在大数据行业有所建树,需要考取部分含金量高的数据分析师证书,这样更有核心竞争力与竞争资本。

G. 什么是数据可视化

数据可视化是什么意思

数据可视化理解起来很简单,只需要将其拆分为“数据”和“可视化”两个词,就很容易明白,数据可视化指的是利用图形化、可视化手段,将数据转化为可视化图表,然后通过统计分析方法,获取数据背后隐含的价值信息,以更直观的形式为企业提供信息支撑,辅助管理人员进行发展决策。

数据可视化 - 派可数据

H. 数据分析可视化是什么

顾名思义,数据可视化就是将数据转换成图或表等,以一种更直观的方式展现和呈现数据。通过“可视化”的方式。

I. 豆瓣电影数据分析

这篇报告是我转行数据分析后的第一篇报告,当时学完了Python,SQL,BI以为再做几个项目就能找工作了,事实上……分析思维、业务,这两者远比工具重要的多。一个多月后回过头来看,这篇报告虽然写得有模有样,但和数据分析报告还是有挺大差别的,主要原因在于:a.只是针对豆瓣电影数据分析太过宽泛了,具体关键指标到底是哪些呢?;b.没有一个确切有效的分析模型/框架,会有种东一块西一块的拼接感。
即便有着这些缺点,我还是想把它挂上来,主要是因为:1.当做Pandas与爬虫(Selenium+Request)练手,总得留下些证明;2.以豆瓣电影进行分析确实很难找到一条业务逻辑线支撑,总体上还是描述统计为主;3.比起网上能搜到的其他豆瓣电影数据分析,它更为详细,可视化效果也不错;

本篇报告旨在针对豆瓣电影1990-2020的电影数据进行分析,首先通过编写Python网络爬虫爬取了51375条电影数据,采集对象包括:电影名称、年份、导演、演员、类型、出品国家、语言、时长、评分、评论数、不同评价占比、网址。经过去重、清洗,最后得到29033条有效电影数据。根据电影评分、时长、地区、类型进行分析,描述了评分与时长、类型的关系,并统计了各个地区电影数量与评分。之后,针对演员、导演对数据进行聚合,给出产量与评分最高的名单。在分析过程中,还发现电影数量今年逐步增加,但评分下降,主要原因是中国地区今年低质量影视作品的增加。

另外,本篇报告还爬取了电影票房网( http://58921.com/ )1995-2020年度国内上映的影片票房,共采集4071条数据,其中3484条有效。进一步,本文分析了国内院线电影票房年度变化趋势,票房与评分、评价人数、时长、地区的关系,票房与电影类型的关联,并给出了票房最高的导演、演员与电影排名。

清洗、去重后,可以看到29033条数据长度、评分、评论数具有以下特点:

结合图1(a)(b)看,可以看到电影数据时长主要集中在90-120分钟之间,向两极呈现阶梯状递减,将数据按照短(60-90分钟),中(90-120分钟),长(120-150分钟),特长(>150分钟)划分,各部分占比为21.06%, 64.15%, 11.95%, 2.85%。

结合图2(a)看,可以看到我们采集到的电影数据评分主要集中在6.0-8.0之间,向两极呈现阶梯状递减,在此按照评分划分区间:2.0-4.0为口碑极差,4.0-6.0为口碑较差,6.0-7.0为口碑尚可,7.0-8.0为口碑较好,8.0-10.0为口碑极佳。

这5种电影数据的占比分别为:5.78%, 23.09%, 30.56%, 29.22%, 11.34%

再将评分数据细化到每年进行观察,可以发现,30年内电影数量与年度电影均分呈反相关,年度均分整体呈现下降趋势,2016年电影均分最低,电影数量最多。

进一步做出每个年份下不同评级等级的电影数据占比,可以发现,近年来,评分在[2.0,6.0)的电影数据占比有着明显提升,评分在[6.0,7.0)的数据占比不变,评分在[7.0,10.0)的数据占比减少,可能原因有:

对照图5,可以发现,评分与时长、评论人数的分布大致呈现漏斗状,高分电影位于漏斗上部,低分电影位于漏斗下部。这意味着,如果一部电影的评论人数很多(特别是超过30w人观影),时长较长(大于120min),那么它大概率是一部好电影。

根据各个国家的电影数量作图,可以得到图6,列出电影数量前十的国家可得表格2,发现美国在电影数量上占第一,达到8490部,中国其次,达6222部。此外,法国,英国,日本的电影数量也超过1000,其余各国电影数量相对较少。这可以说明美国电影有着较大的流量输入,在中国产生了较大的影响。

进一步分析各国电影的质量,依据评分绘制评分箱线图可得图7,在电影数量排名前20的国家中:

接着我们可以探索,哪个国家的电影对豆瓣评分随年份下降的贡献最大,考虑到电影数量对应着评分的权重。根据上述各国的电影评分表现,我们可以猜测电影数量较多的国家可能对年度均分的下降有较大影响。于是,我们再计算出这些国家的年度电影均分,并与整体均分进行比较分析。

再作出中国大陆,中国台湾,中国香港的均分箱线图图9(a),可以看到,大陆电影均分低于港台电影,且存在大量低分电影拉低了箱体的位置。

分析相关性可得,大陆、香港、台湾电影年度均分与全部评分关联度分别为R=0.979,0.919,0.822,说明滤去台湾和香港电影,大陆电影年度均分的变化趋势与全部评分变化更接近。图9(b)可以进一步反映这一点。

可以看到,大部分类型集中在X×Y=[10000,30000]×[6.00,7.50]的区间范围内,剧情、喜剧、爱情、犯罪、动作类电影数量上较多,说明这些题材的电影是近三十年比较热门的题材,其中剧情类电影占比最多,音乐、传记类电影平均得分更高,但在数量上较少,动作、惊悚类电影评论人数虽多,但评价普遍偏低。

除此之外,还有两块区域值得关注:

根据类型对电影数据进行聚合,整理得到各类型电影评分的时间序列,计算它们与整体均分时间序列的相关性,可得表格4与图11,可以看到剧情,喜剧,悬疑这三种类型片与总分趋势变化相关性最强,同时剧情、喜剧类电影在电影数量上也最多,因此可以认为这两类电影对于下跌趋势影响最大,但其余类别电影的相关性也达到了0.9以上,说明几种热门的电影得分的变化趋势与总体均分趋势一致。

前面已经得知,中美两国电影占比最高,且对于均分时间序列的影响最大。在此,进一步对两国电影进行类型分析,选取几种主要的类型(数量上较多,且相关性较高)进行分析,分别是剧情,喜剧,爱情,惊悚,动作,悬疑类电影,绘制近年来几类电影的数量变化柱状图与评分箱线图可得图12,13,14,15。

对导演与演员进行聚合,得到数据中共有15011名导演,46223名演员。按照作品数量在(0,2], (2,5], (5,10], (10,20], (20,999]进行分组统计导演数量,可以发现,15009名导演中有79.08%只拍过1-2部作品,46220名演员中有75.93%只主演过1-2部作品。忽略那些客串、跑龙套的演员,数据总体符合二八定律,即20%的人占据了行业内的大量资源。

在此,可以通过电影得分、每部电影评论人数以及电影数目寻找优秀的电影导演与演员。这三项指标分别衡量了导演/演员的创作水平,人气以及产能。考虑到电影数据集中可能有少量影视剧/剧场版动画,且影视剧/剧场版动画受众少于电影,但得分普遍要高于电影,这里根据先根据每部电影评论数量、作品数量来筛选导演/演员,再根据电影得分进行排名,并取前30名进行作图,可得图17,18。

结合电影票房网( http://58921.com/ )采集到的3353条票房数据,与豆瓣数据按照电影名称进行匹配,可以得到1995-2020年在中国大陆上映的电影信息,分别分析中国内地电影的数量、票房变化趋势,票房与评分、评价人数、时长、地区以及类型的关系,此外还给出了不同导演与演员的票房表现以及影片票房排名。

如图19所示,国内票房数据与上映的电影数量逐年递增,2020年记录的只是上半年的数据,且由于受疫情影响,票房与数量骤减。这说明在不发生重大事件的情况下,国内电影市场规模正在不断扩大。

对电影数据根据类型进行聚合,绘制散点图21,可以发现:

提取导演/演员姓名,对导演/演员字段进行聚合,计算每个导演/演员的票房总和,上映电影均分、以及执导/参与电影数目进行计算,作出票房总和前30名的导演/演员,可得图22,23,图中导演/演员标号反映了票房排名,具体每位导演/演员的上映影片数量、均分、每部电影评价人数、平均时长与总票房在表5、表6中给出。

最后根据电影票房进行排名,得到票房排名前20的电影如表格7所示,可以看到绝大部分上榜电影都是中国电影,索引序号为3、10、12、14、18、19为美国电影,这也反映了除国产电影之外,好莱坞大片占据较大的市场。

本篇报告采集了1990-2020年间豆瓣电影29033组有效数据,从豆瓣电影的评分、时长、地区、类型、演员、导演以及票房等信息进行分析评价,主要有以下结论:

J. 数据分析可视化是什么

数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。

它是一个处于不断演变之中的概念,其边界在不断地扩大。主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。

可视化并不是单独的一门学科,它是对于计算机图形学和统计学等一些学科的更深层次的延伸,比如说社交网络的图谱应用到了很多图形学的边算法,当然,很多时候是和数据挖掘关系最紧密,因为前者是为后者提供数据,后者是为了更好的展现数据。

数据可视化是和数据挖掘不可分割的,可视化作者想要表达的侧重点对于可视化的传达结果是有直接关联的。也就是说,当数据本身的特点与规律并不明显的时候,你需要进行大量的测试与研究来探寻出数据的规律,之后才能传达出正确而且有规律可循的可视化图案。

阅读全文

与数据可视化电影数据分析相关的资料

热点内容
抖音电影票怎么领 浏览:480
郑州有哪些地方拍电影 浏览:120
小电影都有哪些风格 浏览:493
根据片段如何查找完整版电影 浏览:74
电影天堂号手就位 浏览:516
成长微电影剧本 浏览:875
苹果如何免费观看VIP的电影 浏览:587
电影狂暴世纪浩劫主题曲叫什么意思 浏览:486
电影片段打电话爸爸过世 浏览:871
电影解说的声音怎么练 浏览:750
羊与猎人电影在找免费观看 浏览:873
刘三姐电影完整版迅雷 浏览:84
下载电影再什么网站下载 浏览:135
幼儿园毕业微电影精选简短 浏览:358
哪个软件能免费看的电影 浏览:446
山那边姜岚昕微电影 浏览:765
阿拉尔在哪个软件订电影票 浏览:842
电影适合朗读的片段 浏览:49
江湖再见微电影分析 浏览:606
迅雷电影在线观看高清韩剧 浏览:961