A. 數據可視化的16個經典案例
[數據可視化]
本文編譯自:Ross Crooks
數據可視化是指將數據以視覺的形式來呈現,如圖表或地圖,以幫助人們了解這些數據的意義。通過觀察數字、統計數據的轉換以獲得清晰的結論並不是一件容易的事。而人類大腦對視覺信息的處理優於對文本的處理——因此使用圖表、圖形和設計元素,數據可視化可以幫你更容易的解釋數據模式、趨勢、統計數據和數據相關性,而這些內容在其他呈現方式下可能難以被發現。
數據可視化可以是靜態的或交互的。幾個世紀以來,人們一直在使用靜態數據可視化,如圖表和地圖。互動式的數據可視化則相對更為先進:人們能夠使用電腦和移動設備深入到這些圖表和圖形的具體細節,然後用交互的方式改變他們看到的數據及數據的處理方式。
我們必須用一個合乎邏輯的、易於理解的方式來呈現數據。但是,並非所有數據可視化作品的效果都一樣好。那麼,如何將數據組織起來,使其既有吸引力又易於理解?讓我們通過下面的16個有趣的例子獲得啟發,它們是既注重風格也注重內容的數據可視化經典案例。
1:為什麼會有「巴士群」現象
這里有一個關於復雜數據集的很好的例子,它看起來感覺像一個游戲。在這個例子里,Setosa網站為我們呈現了「巴士群」現象是如何發生的,即當一輛巴士被延遲,就會導致多輛巴士在同一時間到站。
只用數字講述這個故事是非常困難的,所以取而代之的是,他們把它變成一個互動游戲。當巴士沿著路線旋轉時,我們可以點擊並按住一個按鈕來使巴士延遲。然後,我們所要做的就是觀察一個短暫的延遲如何使巴士在一段時間以後聚集起來。
2:世界上的語言
這個由DensityDesign設計的互動作品令人印象深刻,它將世界上眾多(或者說,我們大多數人)語言用非語言的方法表現出來,一共有2678種。
這件作品可以讓你瀏覽使用共同語言的家庭,看看哪些語言是最常用的,並查看語言在世界各地的使用范圍。這是一種了不起的視覺敘事方法:將一個有深度的主題用一種易於理解的方式進行解讀。
3:按年齡段分布的美國人口百分比
應該用什麼方式去呈現一種單一的數據?這是一個令人信服的好榜樣。
Pew Research創造了這個GIF動畫,顯示人口統計數量隨著時間推移的的變化。這是一個好方法,它將一個內容較多的故事壓縮成了一個小的動圖包。此外,這種類型的微內容很容易在社交網路上分享或在博客中嵌入,擴大了內容的傳播范圍。
4:NFL(國家橄欖球聯盟)的完整歷史
體育世界有著豐富的數據,但這些數據並不總是能有效地呈現。然而,FiveThirtyEight網站做得特別好。
在下面這個互動式可視化評級中,他們對國家橄欖球聯盟史上的每一場比賽計算「等級分」 – – 根據比賽結果對球隊實力進行簡單的衡量 。總共有超過30,000個評級,觀眾可以通過比較各個隊伍的等級分來了解每個隊伍在數十年間的比賽表現。
5:Google Flights 上的美國感恩節
下面是將一段時間內在空中移動的物體進行可視化的好方法。這是由Google Trends驅動的項目,它跟蹤感恩節前出發、到達和穿越美國的航班。
可視化始於當天很早的時間,隨著時間的推移,像播放電影一樣顯示在全國各地飛行中的航班。不需要顯示時間外的任何數字,觀眾即可以看到當天哪段時間是國際航班、國內航班以及往返於全國各地不同樞紐的航班的熱門時間。
6:是什麼真正造成了全球變暖?
我們都知道,「不要只簡單地展示數據,講個故事吧」。這正是彭博商業正在做的可視化 ——用互動的方式來講述故事的來龍去脈。。
此圖的關鍵是要反駁用自然原因解釋全球變暖的理論。首先你會看到從1880年至今觀測到的溫度上升情況。為了使故事內容更加豐富,當你向下滾動時,這個可視化圖會讓你清楚的了解到相較於已被觀測到的因素,造成全球變暖的不同因素到底有多少。作者希望觀眾能夠得到非常清晰的結論。
7:在敘利亞,誰和誰在戰斗?
許多不同的團體之間的關系可能令人很難理解 – 尤其是當有11個這樣的團體存在的時候。這些團體之間有的結盟,有的敵對,反之亦然。這讓人難以理解。
但是,Slate網站通過表格的形式和熟悉的視覺表達,將這些數據簡化為一種簡單的、易於理解和可交互的形式。觀眾可以點擊任一張臉來查看雙方關系的簡要描述。
8:最有價值的運動隊
這是通過疊加數據來講述深層故事的一個典型例子。
這個交互由Column Five設計,受福布斯「2014年最具價值的運動隊50強」名單得到的啟發。但是它不僅將列表可視化,用戶還可以通過它看到每支隊伍參賽的時間以及奪得總冠軍的數量。這為各隊的歷史和成功提供了更全面的概況信息。
9:美國風圖
下面是一個類似感恩節航班的可視化圖,除了圖中顯示的時刻,它還能實時顯示美國本土的風速和風向。
它是直觀設計的一個很好的案例:風速用線條移動的快慢來表示,方向通過線條移動的路徑來表示。它會即時顯示美國風向的總體趨勢,無需任何數字,除非你在地圖上點擊滑鼠。另外,使用時設定最多兩個變數會使它更容易操作。
10:政治新聞受眾渠道分布圖
據Pew研究中心稱,當設計師在信息內容很多又不能刪的時候,他們通常會把信息放到數據表中,以使其更緊湊。但是,他們在這里使用分布圖來代替。
為什麼呢?因為分布圖可以讓觀眾在頻譜上看到每個媒體的渠道。在分布圖上,每個媒體的渠道之間的距離尤為顯著。如果這些點僅僅是在表中列出,那麼觀眾就無法看到每個渠道之間的對比效果。
11:著名創意人士的日程安排
這個數據可視化圖是用奇特的想法描繪出的一個簡單概念。這個表格利用Mason Currey的《日常慣例》一書中的信息展示了那些著名創意人士的日程安排,解讀其時間和活動安排。這不僅是一個數據分析的例子(因為你可以通過單獨的活動來瀏覽日程安排),也是一個品牌宣傳的佳作。
12:今年發生了哪些新聞?
最好的數據可視化方式,就是用直觀和美麗的方式傳達信息。Echelon Insights致力於這一方式,將2014年Twitter上最受關注的新聞進行了可視化。
1億8450萬條推文是什麼樣子?就是如下圖所示的藝術品。
13:問題的深度
當你想強調規模的時候,靜態數據可視化是表達你的觀點的極佳方式。下面這張來自《華盛頓郵報》的信息圖長得令人難以置信…這是故意的。他們在圖中展示了一架飛機可以探測到的深海信號是多麼的深,通過比較飛機的探測深度與高層建築、已知哺乳動物的最大深度、泰坦尼克號沉船的深度等。這是簡單的視覺效果和顏色梯度的極佳使用方式。
最後,將數據添加到新聞報道中(文中為失蹤的馬航)是提供背景的好方式。
14:前沿預算
上述圖表相對簡單,以下是創造設計精緻的、傳遞大量數據的圖表的方法。秘訣何在?——用簡單和干凈的格式,便於讀者理解數據。
這個由GOOD Magazine 和 Column Five製作的圖表,解讀了NASA的五年預算,顯示資金將怎麼花、花在哪裡。此外,它還有一個主題設計,這真是一個全面成功的作品!
15: Kontakladen慈善年報
不是所有的數據可視化都需要用動畫的形式來表達。當現實世界的數據通過現實生活中的例子進行可視化,結果會令人驚嘆。設計師Marion Luttenberger把包含在Kontakladen慈善年報中的數據以一種獨特的方法表現出來。
該組織為奧地利的吸毒者提供支持,所以Luttenberger就通過現實生活中的視覺元素來宣傳他們的使命。例如,這輛購物車的形象表現出受助者每一天可以負擔得起多少生活必需品。
16:奧地利太陽能年報
雖然有許多方法都能使數據可視化,但是其中,使用真實信息主體去創建數據可視化作品的做法非常了不起。這份來自Austria Solar的年度報告,通過在頁面上使用太陽光感墨水,用真正的太陽能給公司數據賦予生命。
一句話總結:他們是天才。
B. 可視化數據分析報告
可視化數據分析報告
可視化數據分析報告,如果職場上有這些現象也不用驚慌,在職場上不能將這些問題一概而論,如果沒有一步步的學習深造就不會做出成績,學會放下自己的職場壓力也是很重要的,我這就帶你了解可視化數據分析報告。
什麼是數據可視化?
數據可視化是指將數據以視覺形式來呈現,如圖表或地圖,以幫助人們了解這些數據的意義。
文本形式的數據很混亂(更別提有多空洞了),而可視化的數據可以幫助人們快速、輕松地提取數據中的含義。用可視化方式,您可以充分展示數據的模式,趨勢和相關性,而這些可能會在其他呈現方式難以被發現。
數據可視化可以是靜態的或交互的。幾個世紀以來,人們一直在使用靜態數據可視化,如圖表和地圖。互動式的數據可視化則相對更為先進:人們能夠使用電腦和移動設備深入到這些圖表和圖形的具體細節,然後用交互的方式改變他們看到的數據及數據的處理方式。
談談數據可視化
人類的大腦對視覺信息的處理優於對文本的處理——因此使用圖表、圖形和設計元素,數據可視化可以幫你更容易的解釋趨勢和統計數據。
但是,並非所有的數據可視化是平等的。
那麼,如何將數據組織起來,使其既有吸引力又易於理解?通過下面的16個有趣的例子獲得啟發,它們是既注重風格和也注重內容的數據可視化案例。
(1)世界上的語言
這個由DensityDesign設計的互動是個令人印象深刻的成果,它將世界上眾多(或者說,我們大多數人)的語言用非語言的方法表現出來。一共有2678種。
這件作品可以讓你瀏覽使用共同語言的家庭,看看哪些語言是最常用的,並查看語言在世界各地的使用范圍。這是一種了不起的視覺敘事方法:將一個有深度的主題用一種易於理解的方式解讀。
(2)按年齡段分布的美國人口百分比
這是如何以令人信服的方式呈現一種單一的數據的好榜樣。PewResearch創造了這個GIF動畫,顯示隨著時間推移的人口統計數量的變化。這是一個好方法,它將一個內容較多的故事壓縮成了一個小的package。
此外,這種類型的微內容很容易在社交網路上分享或在博客中嵌入,擴大了內容的傳播范圍。如果你想自己用Photoshop做GIF,這里有一個詳細的教程。
(3)NFL(國家橄欖球聯盟)的完整歷史
體育世界有著豐富的數據,但這些數據並不總是能有效地呈現(或者准確的說,對於這個問題)。然而,FiveThirtyEight網站做的特別好。在下面這個互動式可視化評級中,他們計算所謂「等級分」–根據比賽結果對球隊實力進行簡單的衡量–在國家橄欖球聯盟史上的每一場比賽。總共有超過30,000個評級。觀眾可以通過比較各個隊伍的等級來了解每個隊伍在數十年間的比賽表現。
(4)政治新聞受眾渠道分布圖
據Pew研究中心稱,通常,當設計師在信息內容很多又不能刪節的時候,他們通常會把信息放到數據表中,以使其更緊湊。但是,他們使用分布圖來代替。為什麼呢?因為分布圖可以讓觀眾在頻譜上看到每個媒體的渠道。在分布圖上,每個媒體的渠道之間的距離尤為顯著。如果這些點僅僅是在表中列出,觀眾無法看到每個渠道之間的比較。
(5)Kontakladen慈善年度報告
不是所有的數據可視化都需要用動畫的形式來表達。當現實世界的數據通過現實生活中的例子進行可視化,結果會令人驚嘆。設計師MarionLuttenberger把包含在Kontakladen慈善年報中的數據以一種獨特的方法表現出來。該組織為奧地利的吸毒者提供支持,所以Luttenberger的使命就是通過真實的視覺來宣傳。例如,這輛購物車形象的表現了受助者每一天可以負擔得起多少生活必需品。
什麼是可視化數據分析報告?
所謂的可視化數據分析報告就是用視覺表現形式的數據,對其進行全方位的透析,從而提供決策者有根據、有依據地進行判斷。
簡單來說就是用圖形的方式來表徵數據的.規律。
一般來說,數據分析報告分為三類:日常運營報告、專項研究報告、行業分析報告。
但無論是哪一類型的報告,都可能不可避免的需要做可視化,那麼可視化數據分析報告要怎麼做呢?
首先在寫報告前,要知道包含哪些內容:目標確定、數據獲取、數據清洗、數據整理、描述分析、洞察結論,最後才是撰寫數據分析報告。
這是我依據XX學校的學生成績數據做的三年級學生成績分析報告,不僅有可視化圖表支持分析,還有分析原因,圖文並茂,更加容易找出問題原因。
同時還能列印報告和線上分享,電子報告+紙質報告,方便校長審閱與同事們的查看。
這樣的可視化數據分析報告我只用了三步:
確定目標:三年級學生成績整理數據:將所有的三年級學生成績數據導入庫中,然後依據分析目標來做可視化數據分析圖表,比如,各班期初、期中、期末考試情況……利用數據報告的功能,通過簡單的拖拽操作,快速生成你想要的數據可視化報告並附加分析原因。這樣一份又直觀、又好看的分析報告就好了。
為什麼要做可視化數據分析報告?
傳遞速度快更直觀的展示信息,從而優化運營和管理流程響應分析需求,多角度分析挖掘信息最後要明白一點,可視化數據分析報告的核心是分析,只有數據分析內涵豐富、價值高,數據可視化才能內容豐富、有價值。
1、將數據,數據相關繪圖,數據無關繪圖分離
這點可以說是ggplot2最為吸引人的一點。眾所周知,數據可視化就是將我們從數據中探索的信息與圖形要素對應起來的過程。
ggplot2將數據,數據到圖形要素的映射,以及和數據無關的圖形要素繪制分離,有點類似java的MVC框架思想。這讓ggplot2的使用者能清楚分明的感受到一張數據分析圖真正的組成部分,有針對性的進行開發,調整。
2、圖層式的開發邏輯
在ggplot2中,圖形的繪制是一個個圖層添加上去的。舉個例子來說,我們首先決定探索一下身高與體重之間的關系;然後畫了一個簡單的散點圖;然後決定最好區分性別,圖中點的色彩對應於不同的性別;然後決定最好區分地區,拆成東中西三幅小圖;最後決定加入回歸直線,直觀地看出趨勢。這是一個層層推進的結構過程,在每一個推進中,都有額外的信息被加入進來。在使用ggplot2的過程中,上述的每一步都是一個圖層,並能夠疊加到上一步並可視化展示出來。
3、各種圖形要素的自由組合
由於ggplot2的圖層式開發邏輯,我們可以自由組合各種圖形要素,充分自由發揮想像力
C. 數據可視化分析的幾種展現形式
隨著互聯網的不斷發展,數據分析已經成為企業的重要運營方法之一。而今天我們就一起來了解一下,關於數據可視化分析都有哪些常見的類型。
數據可視化是數據科學家工作中的重要組成部分。在項目的早期階段,你通常會進行探索性數據分析(ExploratoryDataAnalysis,EDA)以獲取對數據的一些理解。創建可視化方法確實有助於使事情變得更加清晰易懂,特別是對於大型、高維數據集。在項目結束時,以清晰、簡潔和引人注目的方式展現終結果是非常重要的,因為你的受眾往往是非技術型客戶,只有這樣他們才可以理解。
散點圖
散點圖非常適合展示兩個變數之間的關系,因為你可以直接看到數據的原始分布。如下面一張圖所示的,你還可以通過對組進行簡單地顏色編碼來查看不同組數據的關系。想要可視化三個變數之間的關系?沒問題!僅需使用另一個參數(如點大小)就可以對變數進行編碼。
折線圖
當你可以看到一個變數隨著另一個變數明顯變化的時候,比如說它們有一個大的協方差,那好使用折線圖。我們可以清晰地看到對於所有的主線隨著時間都有大量的變化。使用散點繪制這些將會極其混亂,難以真正明白和看到發生了什麼。折線圖對於這種情況則非常好,因為它們基本上提供給我們兩個變數(百分比和時間)的協方差的快速總結。另外,我們也可以通過彩色編碼進行分組。
直方圖
直方圖對於查看(或真正地探索)數據點的分布是很有用的。查看下面我們以頻率和IQ做的直方圖。我們可以清楚地看到朝中間聚集,並且能看到中位數是多少。我們也可以看到它呈正態分布。使用直方圖真得能清晰地呈現出各個組的頻率之間的相對差別。組的使用(離散化)真正地幫助我們看到了「更加宏觀的圖形」,然而當我們使用所有沒有離散組的數據點時,將對可視化可能造成許多干擾,使得看清真正發生了什麼變得困難。
柱狀圖
當你試圖將類別很少(可能小於10)的分類數據可視化的時候,柱狀圖是有效的。如果我們有太多的分類,那麼這些柱狀圖就會非常雜亂,很難理解。柱狀圖對分類數據很好,因為你可以很容易地看到基於柱的類別之間的區別(比如大小);分類也很容易劃分和用顏色進行編碼。我們將會看到三種不同類型的柱狀圖:常規的,分組的,堆疊的。
箱形圖
我們之前看了直方圖,它很好地可視化了變數的分布。但是如果我們需要更多的信息呢?也許我們想要更清晰的看到標准偏差?也許中值與均值有很大不同,我們有很多離群值?如果有這樣的偏移和許多值都集中在一邊呢?
這就是箱形圖所適合乾的事情了。箱形圖給我們提供了上面所有的信息。昆明電腦培訓http://www.kmbdqn.cn/認為實線框的底部和頂部總是一個和三個四分位(比如25%和75%的數據),箱體中的橫線總是二個四分位(中位數)。像胡須一樣的線(虛線和結尾的條線)從這個箱體伸出,顯示數據的范圍。
D. 如何將數據分析結果進行可視化展現
數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理,將海量的信息數據在經過分布式數據挖掘處理後將結果可視化。數據可視化主要是藉助於圖形化手段,清晰有效地傳達與溝通信息。依據數據及其內在模式和關系,利用計算機生成的圖像來獲得深入認識和知識。(ITJOB)
利用人類感覺系統的廣闊帶寬來操縱和解釋錯綜復雜的過程、涉及不同學科領域的數據集以及來源多樣的大型抽象數據集合的模擬。但是,這並不就意味著,數據可視化就一定因為要實現其功能用途而令人感到枯燥乏味,或者是為了看上去絢麗多彩而顯得極端復雜。為了有效地傳達思想概念,美學形式與功能需要齊頭並進,通過直觀地傳達關鍵的方面與特徵,從而實現對於相當稀疏而又復雜的數據集的深入洞察。(ITJOB)
對於數據可視化應用軟體的開發就迫在眉睫,數據可視化軟體的開發既要保證實現其功能用途,同時又要兼顧美學形式,這樣就對數據可視化軟體提出了更高的要求。目前,在國內能同時兼顧這兩方面的數據可視化軟體屈指可數。其中,比較受用戶歡迎的是一款名為大數據魔鏡的可視化分析軟體。企業通過大數據魔鏡可以將積累的各種來自內部和外部的數據整合起來實時分析,推動自身實現數據智能化管理,增強核心競爭力,將數據價值轉化為商業價值,獲取最大化利潤。(ITJOB)
E. 什麼是數據可視化
數據可視化指的是,通過商業智能BI以圖形化手段為基礎,將復雜、抽象和難以理解的數據用圖表進行表達,清晰有效地傳達信息。數據可視化是商業智能BI數據分析的延伸,分析人員藉助統計分析方法,將數據轉化為信息,然後進行可視化展現。
數據可視化-派可數據商業智能BI
在商業智能BI中,數據可視化能分別為PC、移動端、大屏製作可視化報表,只需拖拉拽就能完成數據可視化分析,製作可視化報表,還擁有詳細的用戶許可權設置功能保護數據安全。
F. 數據分析之常見的數據可視化方法有哪些
【導讀】現如今已然是大數據時代,許多企業的發展離不開數據分析。大數據可視化分為不同的類型:探索型和解釋型。勘探類型幫助人們發現數據背後的故事,而解析數據方便給人們看。那麼,在數據分析中,常見的數據可視化方法有哪些呢?今天就跟隨小編一起來了解下吧!
時態
時態可視化是數據以線性的方式展示。最為關鍵的是時態數據可視化有一個起點和一個終點。時態可視化的一個例子可以是連接的散點圖,顯示諸如某些區域的溫度信息。
多維
可以通過使用常用的多維方法來展示目前二維或高維度的數據。多維的展示使得效果更加多元化,滿足企業的需求。
分層
分層方法用於呈現多組數據。這些數據可視化通常展示的是大群體裡面的小群體。分層數據可視化的例子包括一個樹形圖,可以顯示語言組。
網路
在網路中展示數據間的關系,它是一種常見的展示大數據量的方法。結構較為復雜。
以上就是小編今天給大家整理分享關於「數據分析之常見的數據可視化方法有哪些?」的相關內容希望對大家有所幫助。小編認為要想在大數據行業有所建樹,需要考取部分含金量高的數據分析師證書,這樣更有核心競爭力與競爭資本。
G. 什麼是數據可視化
數據可視化是什麼意思
數據可視化理解起來很簡單,只需要將其拆分為「數據」和「可視化」兩個詞,就很容易明白,數據可視化指的是利用圖形化、可視化手段,將數據轉化為可視化圖表,然後通過統計分析方法,獲取數據背後隱含的價值信息,以更直觀的形式為企業提供信息支撐,輔助管理人員進行發展決策。
數據可視化 - 派可數據
H. 數據分析可視化是什麼
顧名思義,數據可視化就是將數據轉換成圖或表等,以一種更直觀的方式展現和呈現數據。通過「可視化」的方式。
I. 豆瓣電影數據分析
這篇報告是我轉行數據分析後的第一篇報告,當時學完了Python,SQL,BI以為再做幾個項目就能找工作了,事實上……分析思維、業務,這兩者遠比工具重要的多。一個多月後回過頭來看,這篇報告雖然寫得有模有樣,但和數據分析報告還是有挺大差別的,主要原因在於:a.只是針對豆瓣電影數據分析太過寬泛了,具體關鍵指標到底是哪些呢?;b.沒有一個確切有效的分析模型/框架,會有種東一塊西一塊的拼接感。
即便有著這些缺點,我還是想把它掛上來,主要是因為:1.當做Pandas與爬蟲(Selenium+Request)練手,總得留下些證明;2.以豆瓣電影進行分析確實很難找到一條業務邏輯線支撐,總體上還是描述統計為主;3.比起網上能搜到的其他豆瓣電影數據分析,它更為詳細,可視化效果也不錯;
本篇報告旨在針對豆瓣電影1990-2020的電影數據進行分析,首先通過編寫Python網路爬蟲爬取了51375條電影數據,採集對象包括:電影名稱、年份、導演、演員、類型、出品國家、語言、時長、評分、評論數、不同評價佔比、網址。經過去重、清洗,最後得到29033條有效電影數據。根據電影評分、時長、地區、類型進行分析,描述了評分與時長、類型的關系,並統計了各個地區電影數量與評分。之後,針對演員、導演對數據進行聚合,給出產量與評分最高的名單。在分析過程中,還發現電影數量今年逐步增加,但評分下降,主要原因是中國地區今年低質量影視作品的增加。
另外,本篇報告還爬取了電影票房網( http://58921.com/ )1995-2020年度國內上映的影片票房,共採集4071條數據,其中3484條有效。進一步,本文分析了國內院線電影票房年度變化趨勢,票房與評分、評價人數、時長、地區的關系,票房與電影類型的關聯,並給出了票房最高的導演、演員與電影排名。
清洗、去重後,可以看到29033條數據長度、評分、評論數具有以下特點:
結合圖1(a)(b)看,可以看到電影數據時長主要集中在90-120分鍾之間,向兩極呈現階梯狀遞減,將數據按照短(60-90分鍾),中(90-120分鍾),長(120-150分鍾),特長(>150分鍾)劃分,各部分佔比為21.06%, 64.15%, 11.95%, 2.85%。
結合圖2(a)看,可以看到我們採集到的電影數據評分主要集中在6.0-8.0之間,向兩極呈現階梯狀遞減,在此按照評分劃分區間:2.0-4.0為口碑極差,4.0-6.0為口碑較差,6.0-7.0為口碑尚可,7.0-8.0為口碑較好,8.0-10.0為口碑極佳。
這5種電影數據的佔比分別為:5.78%, 23.09%, 30.56%, 29.22%, 11.34%
再將評分數據細化到每年進行觀察,可以發現,30年內電影數量與年度電影均分呈反相關,年度均分整體呈現下降趨勢,2016年電影均分最低,電影數量最多。
進一步做出每個年份下不同評級等級的電影數據佔比,可以發現,近年來,評分在[2.0,6.0)的電影數據佔比有著明顯提升,評分在[6.0,7.0)的數據佔比不變,評分在[7.0,10.0)的數據佔比減少,可能原因有:
對照圖5,可以發現,評分與時長、評論人數的分布大致呈現漏斗狀,高分電影位於漏鬥上部,低分電影位於漏斗下部。這意味著,如果一部電影的評論人數很多(特別是超過30w人觀影),時長較長(大於120min),那麼它大概率是一部好電影。
根據各個國家的電影數量作圖,可以得到圖6,列出電影數量前十的國家可得表格2,發現美國在電影數量上占第一,達到8490部,中國其次,達6222部。此外,法國,英國,日本的電影數量也超過1000,其餘各國電影數量相對較少。這可以說明美國電影有著較大的流量輸入,在中國產生了較大的影響。
進一步分析各國電影的質量,依據評分繪制評分箱線圖可得圖7,在電影數量排名前20的國家中:
接著我們可以探索,哪個國家的電影對豆瓣評分隨年份下降的貢獻最大,考慮到電影數量對應著評分的權重。根據上述各國的電影評分表現,我們可以猜測電影數量較多的國家可能對年度均分的下降有較大影響。於是,我們再計算出這些國家的年度電影均分,並與整體均分進行比較分析。
再作出中國大陸,中國台灣,中國香港的均分箱線圖圖9(a),可以看到,大陸電影均分低於港台電影,且存在大量低分電影拉低了箱體的位置。
分析相關性可得,大陸、香港、台灣電影年度均分與全部評分關聯度分別為R=0.979,0.919,0.822,說明濾去台灣和香港電影,大陸電影年度均分的變化趨勢與全部評分變化更接近。圖9(b)可以進一步反映這一點。
可以看到,大部分類型集中在X×Y=[10000,30000]×[6.00,7.50]的區間范圍內,劇情、喜劇、愛情、犯罪、動作類電影數量上較多,說明這些題材的電影是近三十年比較熱門的題材,其中劇情類電影佔比最多,音樂、傳記類電影平均得分更高,但在數量上較少,動作、驚悚類電影評論人數雖多,但評價普遍偏低。
除此之外,還有兩塊區域值得關註:
根據類型對電影數據進行聚合,整理得到各類型電影評分的時間序列,計算它們與整體均分時間序列的相關性,可得表格4與圖11,可以看到劇情,喜劇,懸疑這三種類型片與總分趨勢變化相關性最強,同時劇情、喜劇類電影在電影數量上也最多,因此可以認為這兩類電影對於下跌趨勢影響最大,但其餘類別電影的相關性也達到了0.9以上,說明幾種熱門的電影得分的變化趨勢與總體均分趨勢一致。
前面已經得知,中美兩國電影佔比最高,且對於均分時間序列的影響最大。在此,進一步對兩國電影進行類型分析,選取幾種主要的類型(數量上較多,且相關性較高)進行分析,分別是劇情,喜劇,愛情,驚悚,動作,懸疑類電影,繪制近年來幾類電影的數量變化柱狀圖與評分箱線圖可得圖12,13,14,15。
對導演與演員進行聚合,得到數據中共有15011名導演,46223名演員。按照作品數量在(0,2], (2,5], (5,10], (10,20], (20,999]進行分組統計導演數量,可以發現,15009名導演中有79.08%只拍過1-2部作品,46220名演員中有75.93%只主演過1-2部作品。忽略那些客串、跑龍套的演員,數據總體符合二八定律,即20%的人占據了行業內的大量資源。
在此,可以通過電影得分、每部電影評論人數以及電影數目尋找優秀的電影導演與演員。這三項指標分別衡量了導演/演員的創作水平,人氣以及產能。考慮到電影數據集中可能有少量影視劇/劇場版動畫,且影視劇/劇場版動畫受眾少於電影,但得分普遍要高於電影,這里根據先根據每部電影評論數量、作品數量來篩選導演/演員,再根據電影得分進行排名,並取前30名進行作圖,可得圖17,18。
結合電影票房網( http://58921.com/ )採集到的3353條票房數據,與豆瓣數據按照電影名稱進行匹配,可以得到1995-2020年在中國大陸上映的電影信息,分別分析中國內地電影的數量、票房變化趨勢,票房與評分、評價人數、時長、地區以及類型的關系,此外還給出了不同導演與演員的票房表現以及影片票房排名。
如圖19所示,國內票房數據與上映的電影數量逐年遞增,2020年記錄的只是上半年的數據,且由於受疫情影響,票房與數量驟減。這說明在不發生重大事件的情況下,國內電影市場規模正在不斷擴大。
對電影數據根據類型進行聚合,繪制散點圖21,可以發現:
提取導演/演員姓名,對導演/演員欄位進行聚合,計算每個導演/演員的票房總和,上映電影均分、以及執導/參與電影數目進行計算,作出票房總和前30名的導演/演員,可得圖22,23,圖中導演/演員標號反映了票房排名,具體每位導演/演員的上映影片數量、均分、每部電影評價人數、平均時長與總票房在表5、表6中給出。
最後根據電影票房進行排名,得到票房排名前20的電影如表格7所示,可以看到絕大部分上榜電影都是中國電影,索引序號為3、10、12、14、18、19為美國電影,這也反映了除國產電影之外,好萊塢大片占據較大的市場。
本篇報告採集了1990-2020年間豆瓣電影29033組有效數據,從豆瓣電影的評分、時長、地區、類型、演員、導演以及票房等信息進行分析評價,主要有以下結論:
J. 數據分析可視化是什麼
數據可視化,是關於數據視覺表現形式的科學技術研究。其中,這種數據的視覺表現形式被定義為,一種以某種概要形式抽提出來的信息,包括相應信息單位的各種屬性和變數。
它是一個處於不斷演變之中的概念,其邊界在不斷地擴大。主要指的是技術上較為高級的技術方法,而這些技術方法允許利用圖形、圖像處理、計算機視覺以及用戶界面,通過表達、建模以及對立體、表面、屬性以及動畫的顯示,對數據加以可視化解釋。
可視化並不是單獨的一門學科,它是對於計算機圖形學和統計學等一些學科的更深層次的延伸,比如說社交網路的圖譜應用到了很多圖形學的邊演算法,當然,很多時候是和數據挖掘關系最緊密,因為前者是為後者提供數據,後者是為了更好的展現數據。
數據可視化是和數據挖掘不可分割的,可視化作者想要表達的側重點對於可視化的傳達結果是有直接關聯的。也就是說,當數據本身的特點與規律並不明顯的時候,你需要進行大量的測試與研究來探尋出數據的規律,之後才能傳達出正確而且有規律可循的可視化圖案。