導航:首頁 > 電影題材 > 電影類型票房數據分析

電影類型票房數據分析

發布時間:2023-02-12 08:42:06

A. 貓眼電影票房計算方式 簡單給讀者們介紹一下

喜歡看電影的讀者朋友一定都想知道貓眼電影的電影票房是怎麼統計的,接下來的這篇文章里就跟大家簡單的聊聊這個話題讓大家有更多的了解!

首先要給各位讀者介紹一下貓眼電影,貓眼電影其實是美團旗下的一家集媒體內容、在線購票、用戶互動社交、電影衍生品銷售等服務的一站式電影互聯網平台。早在2015年6月時貓眼電影就覆蓋了影院超過4000家,這些影院的票房貢獻佔比超過總票房的90%。貓眼也就占網路購票70%的市場份額,每三張電影票就有至少一張出自貓眼電影  ,是影迷下載量較多、也是使用率較高的電影應用軟體。同時貓眼電影為合作影院和電影製片發行方,提供覆蓋海量電影消費者的最佳營銷方案助力影片票房上升 。

而貓眼專業版就是由貓眼電影出品,為電影行業從業者提供及時、准確、專業的電影票房數據分析甚至能做到秒級實時票房、排片、影院經營數據等,也為影視從業者提供信息互通平台,提高影視作品的製作效率可以有劇組成員招募、行業精英對接、找劇組、投資、導演、演員、攝影等服務 。

最近這些年網路售票的異軍突起,我國的電影票房統計工作進步可以說是一日千里。通過實時的網路售票選座信息和票價,再結合現場電影院所選的座位以及它們的售價,貓眼這類售票軟體可以輕松的算出任意一個時間段的票房,這是很多其他國家都達不到的水準。

以上就是一些關於貓眼電影的介紹以及這個軟體是如何來計算票房的,希望這篇文章能夠加深大家對於這個行業的了解,也希望國內的電影行業發展的更快更好,感興趣想要投資影視行業的更應該深入的了解一下!

B. 豆瓣電影數據分析

這篇報告是我轉行數據分析後的第一篇報告,當時學完了Python,SQL,BI以為再做幾個項目就能找工作了,事實上……分析思維、業務,這兩者遠比工具重要的多。一個多月後回過頭來看,這篇報告雖然寫得有模有樣,但和數據分析報告還是有挺大差別的,主要原因在於:a.只是針對豆瓣電影數據分析太過寬泛了,具體關鍵指標到底是哪些呢?;b.沒有一個確切有效的分析模型/框架,會有種東一塊西一塊的拼接感。
即便有著這些缺點,我還是想把它掛上來,主要是因為:1.當做Pandas與爬蟲(Selenium+Request)練手,總得留下些證明;2.以豆瓣電影進行分析確實很難找到一條業務邏輯線支撐,總體上還是描述統計為主;3.比起網上能搜到的其他豆瓣電影數據分析,它更為詳細,可視化效果也不錯;

本篇報告旨在針對豆瓣電影1990-2020的電影數據進行分析,首先通過編寫Python網路爬蟲爬取了51375條電影數據,採集對象包括:電影名稱、年份、導演、演員、類型、出品國家、語言、時長、評分、評論數、不同評價佔比、網址。經過去重、清洗,最後得到29033條有效電影數據。根據電影評分、時長、地區、類型進行分析,描述了評分與時長、類型的關系,並統計了各個地區電影數量與評分。之後,針對演員、導演對數據進行聚合,給出產量與評分最高的名單。在分析過程中,還發現電影數量今年逐步增加,但評分下降,主要原因是中國地區今年低質量影視作品的增加。

另外,本篇報告還爬取了電影票房網( http://58921.com/ )1995-2020年度國內上映的影片票房,共採集4071條數據,其中3484條有效。進一步,本文分析了國內院線電影票房年度變化趨勢,票房與評分、評價人數、時長、地區的關系,票房與電影類型的關聯,並給出了票房最高的導演、演員與電影排名。

清洗、去重後,可以看到29033條數據長度、評分、評論數具有以下特點:

結合圖1(a)(b)看,可以看到電影數據時長主要集中在90-120分鍾之間,向兩極呈現階梯狀遞減,將數據按照短(60-90分鍾),中(90-120分鍾),長(120-150分鍾),特長(>150分鍾)劃分,各部分佔比為21.06%, 64.15%, 11.95%, 2.85%。

結合圖2(a)看,可以看到我們採集到的電影數據評分主要集中在6.0-8.0之間,向兩極呈現階梯狀遞減,在此按照評分劃分區間:2.0-4.0為口碑極差,4.0-6.0為口碑較差,6.0-7.0為口碑尚可,7.0-8.0為口碑較好,8.0-10.0為口碑極佳。

這5種電影數據的佔比分別為:5.78%, 23.09%, 30.56%, 29.22%, 11.34%

再將評分數據細化到每年進行觀察,可以發現,30年內電影數量與年度電影均分呈反相關,年度均分整體呈現下降趨勢,2016年電影均分最低,電影數量最多。

進一步做出每個年份下不同評級等級的電影數據佔比,可以發現,近年來,評分在[2.0,6.0)的電影數據佔比有著明顯提升,評分在[6.0,7.0)的數據佔比不變,評分在[7.0,10.0)的數據佔比減少,可能原因有:

對照圖5,可以發現,評分與時長、評論人數的分布大致呈現漏斗狀,高分電影位於漏鬥上部,低分電影位於漏斗下部。這意味著,如果一部電影的評論人數很多(特別是超過30w人觀影),時長較長(大於120min),那麼它大概率是一部好電影。

根據各個國家的電影數量作圖,可以得到圖6,列出電影數量前十的國家可得表格2,發現美國在電影數量上占第一,達到8490部,中國其次,達6222部。此外,法國,英國,日本的電影數量也超過1000,其餘各國電影數量相對較少。這可以說明美國電影有著較大的流量輸入,在中國產生了較大的影響。

進一步分析各國電影的質量,依據評分繪制評分箱線圖可得圖7,在電影數量排名前20的國家中:

接著我們可以探索,哪個國家的電影對豆瓣評分隨年份下降的貢獻最大,考慮到電影數量對應著評分的權重。根據上述各國的電影評分表現,我們可以猜測電影數量較多的國家可能對年度均分的下降有較大影響。於是,我們再計算出這些國家的年度電影均分,並與整體均分進行比較分析。

再作出中國大陸,中國台灣,中國香港的均分箱線圖圖9(a),可以看到,大陸電影均分低於港台電影,且存在大量低分電影拉低了箱體的位置。

分析相關性可得,大陸、香港、台灣電影年度均分與全部評分關聯度分別為R=0.979,0.919,0.822,說明濾去台灣和香港電影,大陸電影年度均分的變化趨勢與全部評分變化更接近。圖9(b)可以進一步反映這一點。

可以看到,大部分類型集中在X×Y=[10000,30000]×[6.00,7.50]的區間范圍內,劇情、喜劇、愛情、犯罪、動作類電影數量上較多,說明這些題材的電影是近三十年比較熱門的題材,其中劇情類電影佔比最多,音樂、傳記類電影平均得分更高,但在數量上較少,動作、驚悚類電影評論人數雖多,但評價普遍偏低。

除此之外,還有兩塊區域值得關註:

根據類型對電影數據進行聚合,整理得到各類型電影評分的時間序列,計算它們與整體均分時間序列的相關性,可得表格4與圖11,可以看到劇情,喜劇,懸疑這三種類型片與總分趨勢變化相關性最強,同時劇情、喜劇類電影在電影數量上也最多,因此可以認為這兩類電影對於下跌趨勢影響最大,但其餘類別電影的相關性也達到了0.9以上,說明幾種熱門的電影得分的變化趨勢與總體均分趨勢一致。

前面已經得知,中美兩國電影佔比最高,且對於均分時間序列的影響最大。在此,進一步對兩國電影進行類型分析,選取幾種主要的類型(數量上較多,且相關性較高)進行分析,分別是劇情,喜劇,愛情,驚悚,動作,懸疑類電影,繪制近年來幾類電影的數量變化柱狀圖與評分箱線圖可得圖12,13,14,15。

對導演與演員進行聚合,得到數據中共有15011名導演,46223名演員。按照作品數量在(0,2], (2,5], (5,10], (10,20], (20,999]進行分組統計導演數量,可以發現,15009名導演中有79.08%只拍過1-2部作品,46220名演員中有75.93%只主演過1-2部作品。忽略那些客串、跑龍套的演員,數據總體符合二八定律,即20%的人占據了行業內的大量資源。

在此,可以通過電影得分、每部電影評論人數以及電影數目尋找優秀的電影導演與演員。這三項指標分別衡量了導演/演員的創作水平,人氣以及產能。考慮到電影數據集中可能有少量影視劇/劇場版動畫,且影視劇/劇場版動畫受眾少於電影,但得分普遍要高於電影,這里根據先根據每部電影評論數量、作品數量來篩選導演/演員,再根據電影得分進行排名,並取前30名進行作圖,可得圖17,18。

結合電影票房網( http://58921.com/ )採集到的3353條票房數據,與豆瓣數據按照電影名稱進行匹配,可以得到1995-2020年在中國大陸上映的電影信息,分別分析中國內地電影的數量、票房變化趨勢,票房與評分、評價人數、時長、地區以及類型的關系,此外還給出了不同導演與演員的票房表現以及影片票房排名。

如圖19所示,國內票房數據與上映的電影數量逐年遞增,2020年記錄的只是上半年的數據,且由於受疫情影響,票房與數量驟減。這說明在不發生重大事件的情況下,國內電影市場規模正在不斷擴大。

對電影數據根據類型進行聚合,繪制散點圖21,可以發現:

提取導演/演員姓名,對導演/演員欄位進行聚合,計算每個導演/演員的票房總和,上映電影均分、以及執導/參與電影數目進行計算,作出票房總和前30名的導演/演員,可得圖22,23,圖中導演/演員標號反映了票房排名,具體每位導演/演員的上映影片數量、均分、每部電影評價人數、平均時長與總票房在表5、表6中給出。

最後根據電影票房進行排名,得到票房排名前20的電影如表格7所示,可以看到絕大部分上榜電影都是中國電影,索引序號為3、10、12、14、18、19為美國電影,這也反映了除國產電影之外,好萊塢大片占據較大的市場。

本篇報告採集了1990-2020年間豆瓣電影29033組有效數據,從豆瓣電影的評分、時長、地區、類型、演員、導演以及票房等信息進行分析評價,主要有以下結論:

C. 數據挖掘 | 數據理解和預處理

數據挖掘 | 數據理解和預處理
小編遇到過很多人(咳咳,請不要對號入座),拿到數據後不管三七二十一,先丟到模型中去跑,管它具體什麼樣呢,反正「大數據」嘛,總能整出點東西來。
但就像上次說過的,「大數據」很有可能帶來「大錯誤」!所以在數據挖掘工作開始前,認真的理解數據、檢查數據,對數據進行預處理是至關重要的。
很多人說,數據准備工作真是個「體力活」,耗時耗力不說,還異常的枯燥無味。這點小編承認,建模之前的數據處理確實是平淡的,它往往不需要多高的智商,多牛的編程技巧,多麼高大上的統計模型。
但是,它卻能時時觸發你的興奮點,因為它需要足夠的耐心和細心,稍不留神就前功盡棄。
在這次的內容里,小編首先會從「數據理解」、「變數類型」和「質量檢查」三個方面進行闡述,然後會以一個自己做過的實際數據為例進行展示。
一、數據理解
拿到數據後要做的第一步就是理解數據。
什麼是理解數據呢?不是簡單看下有多少Excel表,有多少行,多少列,而是要結合自己的分析目標,帶著具體的業務需求去看。
首先,我們需要明確數據記錄的詳細程度,比方說某個網站的訪問量數據是以每小時為單位還是每天為單位;一份銷售數據記錄的是每家門店的銷售額還是每個地區的總銷售額。
其次,我們需要確定研究群體。研究群體的確定一定和業務目標是密切相關的。
比方說,如果我們想研究用戶對產品的滿意度與哪些因素有關,就應該把購買該產品的所有客戶作為研究群體;如果我們想研究用戶的購買行為受哪些因素影響,就應該同時考察購買人群和非購買人群,在兩類人群的對比中尋找關鍵因素。
研究群體的確定有時也和數據的詳細程度有關。
比如我們想研究「觀眾影評」對「電影票房」的影響,我們既可以把「每部電影」看成一個個體,研究「影評總數」對「電影總票房」的影響,也可以把「每部電影每天的票房」看成一個個體,研究「每天的影評數」對「每天的電影票房」的影響。
具體選擇哪一種取決於我們手上有什麼樣的數據,如果只有總票房和總影評數的數據,那我們只能選擇第一種;如果有更詳細的數據,那就可以考慮第二種方案。
需要注意的是,這兩種方案還會影響我們對於模型的選擇。
例如,如果研究「每天的影評數」對「每天電影票房」的影響,那每部電影又被細分為很多天,同一部電影不同時間的票房會有較高的相似性,這就形成了一種層次結構,可以考慮使用層次模型(hierarchical model)進行分析。
最後,當我們確定了研究目標和研究群體後,我們需要逐一理解每個變數的含義。有些變數和業務目標明顯無關,可以直接從研究中剔除。
有些變數雖然有意義,但是在全部樣本上取值都一樣,這樣的變數就是冗餘變數,也需要從研究中剔除。
還有一些變數具有重復的含義,如「省份名稱」和「省份簡稱」,這時只需要保留一個就可以了。
二、變數類型
所有變數按其測量尺度可以分成兩大類,一類是「分類變數」,一類是「數值變數」。不同類型的變數在處理方法和後期的模型選擇上會有顯著差別。
【分類變數】
分類變數又稱屬性變數或離散變數,它的取值往往用有限的幾個類別名稱就可以表示了,例如「性別」,「教育程度」,「收入水平」,「星期幾」等。細分的話,分類變數又可分為兩類,一類是「名義變數」,即各個類別間沒有順序和程度的差別,就像「手機系統」中ios和安卓並沒有明顯的好壞差別,「電影類型」中「動作片」和「科幻片」也都是一樣的,說不上哪個更好或更差。
另外一類是定序變數,即不同類別之間存在有意義的排序,如「空氣污染程度」可以用「差、良、優」來表示、「教育程度」可以用「小學、初中、高中、大學」來表示。
當研究的因變數是分類變數時,往往對應特定的分析方法,我們在後面的章節會陸續講到,這里暫且不談。
當研究中的自變數是分類變數時,也會限制模型選擇的范圍。有些數據挖掘模型可以直接處理分類自變數,如決策樹模型;但很多數據挖掘模型不能直接處理分類自變數,如線性回歸、神經網路等,因此需要將分類變數轉換成數值變數。
對於定序自變數,最常用的轉換方法就是按照類別程度將其直接轉換成數值自變數,例如將空氣污染程度 「差、良、優」轉換為「1,2,3」。
對於名義自變數,最常用的轉換方法就是構造0-1型啞變數。例如,對於「性別」,可以定義「1=男,0=女」。
當某個名義變數有K個類別取值時,則需要構造K-1個啞變數。例如教育程度「小學,初中,高中,大學及以上」,可以構造三個啞變數分別為:x1:1=小學,0=其它;x2:1=初中,0=其它;x3:1=高中,0=其它。當x1,x2,x3三個啞變數取值都為0時,則對應著「大學及以上」。
需要注意的是,有時候名義變數的取值太多,會生成太多的啞變數,這很容易造成模型的過度擬合。
這時可以考慮只把觀測比較多的幾個類別單獨拿出來,而把剩下所有的類別都歸為「其它」。
例如,中國一共包含56個民族,如果每個民族都生成一個啞變數就會有55個,這時我們可以只考慮設置「是否為漢族」這一個0-1啞變數。
【數值變數】
我們再來看看數值變數。數值變數就是用數值描述,並且可以直接進行代數運算的變數,如「銷售收入」、「固定資本」、「評論總數」、「訪問量」、「學生成績」等等都是數值變數。
需要注意的是,用數值表示的變數不一定就是數值型變數,只有在代數運算下有意義的變數才是數值型變數。
例如財務報表的年份,上市時間等,雖然也是用數值表示的,但我們通常不將它們按照數值型變數來處理。
上面我們講到,分類變數通常要轉換成數值型變數,其實有些時候,數值型變數也需要轉換成分類變數,這就用到了「數據分箱」的方法。
為什麼要進行數據分箱呢?通常有以下幾個原因:
1. 數據的測量可能存在一定誤差,沒有那麼准確,因此按照取值范圍轉換成不同類別是一個有效的平滑方法;
2.有些演算法,如決策樹模型,雖然可以處理數值型變數,但是當該變數有大量不重復的取值時,使用大於、小於、等於這些運算符時會考慮很多的情況,因此效率會很低,數據分箱的方法能很好的提高演算法效率;
3.有些模型演算法只能處理分類型自變數(如關聯規則),因此也需要將數值變數進行分箱處理。
數據分箱後,可以使用每個分箱內的均值、中位數、臨界值等作為這個類別的代表值,也可以直接將不同取值范圍定義成不同的類別,如:將污染程度劃分後定義為「低、中、高」等。
那如何進行數據分箱呢?常用的數據分箱的方法有:等寬分箱(將變數的取值范圍劃分成等寬的幾個區間)、等頻分箱(按照變數取值的分位數進行劃分)、基於k均值聚類的分箱(將所有數據進行k均值聚類,所得的不同類別即為不同的分箱),還有一些有監督分箱方法,如:使分箱後的結果達到最小熵或最小描述長度等。這里不詳細介紹了,有興趣的童鞋可以自行網路。
三、質量檢查
對數據中的各個變數有了初步了解後,我們還需要對數據進行嚴格的質量檢查,如果數據質量不過關,還需要進行數據的清洗或修補工作。
一般來說,質量檢查包括檢查每個變數的缺失程度以及取值范圍的合理性。
【缺失檢查】
原始數據中經常會存在各種各樣的缺失現象。
有些指標的缺失是合理的,例如顧客只有使用過某個產品才能對這個產品的滿意度進行評價,一筆貸款的抵押物中只有存在房地產,才會記錄相應的房地產的價值情況等。
像這種允許缺失的變數是最難搞的,因為我們很難判斷它的缺失是合理的,還是由於漏報造成的。
但無論哪種情況,如果變數的缺失率過高,都會影響數據的整體質量,因為數據所反映的信息實在太少,很難從中挖掘到有用的東西。
對於不允許缺失的變數來說,如果存在缺失情況,就必須進行相應的處理。如果一個變數的缺失程度非常大,比方說達到了70%,那就考慮直接踢掉吧,估計沒救了。
如果缺失比例還可以接受的話,可以嘗試用缺失值插補的方法進行補救。
插補的目的是使插補值能最大可能的接近其真實的取值,所以如果可以從其他途徑得到變數的真實值,那一定優先選擇這種方法。
比如某個公司的財務信息中缺失了「最終控制人類型」和「是否國家控股」這兩個取值,這些可以通過網上的公開信息得到真實值;再比如缺失了「凈利潤率」這個指標的取值,但是卻有「凈利潤」和「總收入」的取值,那就可以通過變數間的關系得到相應的缺失值,即凈利潤率=凈利潤/總收入。
當然,更多的時候,我們無法得到缺失值的真實信息,這時就只能借用已有的數據來進行插補了。
對數值變數來說,可以用已觀測值的均值、中位數來插補缺失值;對分類型變數來說,可以用已觀測數據中出現比例最高的類別取值來進行插補。
這些方法操作起來非常簡單,但它們都是對所有缺失值賦予了相同的取值,所以當缺失比例較大時,可能會扭曲被插補變數與其餘變數的關系。
更復雜一點的,我們可以選擇模型插補方法,即針對被插補變數和其它自變數之間的關系建立統計模型(如回歸、決策樹等),將模型預測值作為插補值。
如何處理缺失值是一個很大的研究課題,我們這里只是介紹了最簡單可行的方法,有興趣的讀者可以參閱Little和Rubin 2002年的專著「Statistical Analysis with Missing Data」。
【變數取值合理性檢查】
除了缺失外,我們還要考察每個變數的取值合理性。每個變數都會有自己的取值范圍,比如「用戶訪問量」、「下載次數」一定是非負的,「投資收益率」一定在0~1之間。通過判斷變數的取值是否超出它應有的取值范圍,可以簡單的對異常值進行甄別。
除了根據變數的取值范圍來檢查變數質量外,還可以根據變數之間的相互關系進行判斷。例如一家公司的「凈利潤率」不應該大於「總利潤率」等。
只有通過了各個方面檢測的數據才是一份高質量的數據,才有可能帶來有價值的模型結果。
四、實例分析——電影票房分析
最後,我們給出一個實例分析。在這個例子中,我們的目標是研究電影哪些方面的特徵對電影票房有影響。
我們有兩方面的數據,一是描述電影特徵的數據,二是描述電影票房的數據。
由於我們關注的是北美的票房市場,所以描述電影特徵的數據可以從IMDB網站得到,它是一個關於演員、電影、電視節目、電視明星和電影製作的在線資料庫,裡面可以找到每部上映電影的眾多信息;電影每天的票房數據可以從美國權威的票房網站Box Office Mojo得到,上面記錄了每部電影上映期間內每天的票房數據。
我們將從IMDB得到的數據放到「movieinfor.csv」文件中,將從Box Office Mojo中得到的數據放到「boxoffice.csv」文件中。
這里,我們以2012年北美票房市場最高的前100部電影為例進行講解。下表給出了這兩個數據集中包含的所有變數以及相應的解釋。
在這兩個數據中,movieinfor.csv數據的記錄是精確到每部電影的,而boxoffice.csv數據精確到了每部電影中每天的票房數據,是精確到天的。上表中給出的變數中,除了電影名稱和ID外,「電影類型」「MPAA評級」(美國電影協會對電影的評級)和「星期幾」是分類型變數;「放映時長」、「製作預算」、「電影每天的票房」和「每天放映的影院數」是數值型變數。兩份數據都不存在缺失值。
我們首先對兩個數據集分別進行變數預處理,然後再根據電影ID將兩個數據整合到一起。下面給出了每個變數的處理方法:
【電影類型】
電影類型是一個分類變數。在這個變數中我們發現每部電影都不止一個類型,例如「The Dark Knight Rises」這部電影就有「Action」、「Crime」和「Thriller」三個類型,並且它們以「|」為分隔符寫在了一起。
同時,不同電影之間可能有相同的類型,也可能有不同的類型,例如票房排名第二的電影「Skyfall」,它的類型是「Action |Adventure |Thriller」。
因此,我們首先需要做的是把每部電影所屬的類型逐一取出來,然後將所有出現過的類型分別形成一個0-1啞變數,如果這部電影在某個類型上出現了,則相應變數的取值就是1,否則是0.
通過上面一步,我們知道這個數據集中出現過的所有電影類型一共有11個。
那是不是按照之前所講的,應該把它轉換為10個啞變數呢?這里需要注意的是,所有的電影類型之間並不是互斥的(即有了action,就不能有其他的類型),所以我們無需因為共線性的原因去掉其中一個。
也就是說,如果把每一個電影類型單獨作為一個獨立的變數,可以衍生出11個新的0-1變數,這完全沒有問題。但11個變數未免有點過多,所以我們根據不同電影類型的頻數分布情況,只把出現次數明顯較多的類型單獨拿出來,最終生成了6個0-1型變數,分別為Adventure,Fantasy,Comedy,Action,Animation,Others。
【MPAA評級】
對於這個分類型變數,我們首先可以看一下數據中它所包含的全部取值,發現一共有「PG」,「PG-13」和「R」三個。
和上面的電影類型(Genre)不同,對於一部電影而言,它只能有一個MPAA取值。因此,在MPAA變數中,我們需要選擇一個作為基準,將另外兩個構造成啞變數。
例如,我們以「PG」為基準,構造的兩個啞變數分別為PG13和R,如果這兩個啞變數的取值同時為0,那就相當於電影的MPAA評級是PG。
【放映當天是星期幾】
這個變數同MPAA評級一樣,每部電影只能有一個取值。
如果它在星期一到星期日上都有取值的話,我們可以衍生出6個0-1型啞變數。
因為這里我們更關注周末和非周末對電影票房的影響,而並不關注具體是哪一天,所以我們將其進一步概括成一個變數,即「是否是周末」。
【放映時長和製作預算】
放映時長和製作預算這兩個變數都是取值大於0的數值型變數,我們可以分別檢查它們的取值是否在合理的范圍內,然後直接保留它們的數值信息。
同時,對「製作預算」而言,假設我們這里關心的不是製作預算的具體數值,而是「小成本電影」和「大成本電影」的票房差異,那我們就可以將這個數值型變數進行分箱處理,轉換為一個0-1型的分類變數,即 「是否為小成本電影」。
在決定按照什麼標准來劃分是否為小成本電影時,我們根據之前文獻里的研究結果,將製作預算在100 million以下的電影看成是小成本電影。
上述所有變數的處理過程都可以使用R中最基本的語句(table,rep,which等)完成,由於篇幅限制,小編這里就不列出詳細的code了,大家感興趣的話,可以閱讀狗熊會的「R語千尋」系列(戳這里),相信會在R語言的學習上受到更多啟發。
最後,我們將所有新生成的變數按照電影ID整合到一起,就大功告成啦。
五、總結
最後總結一下,小編在這次內容中向大家介紹了拿到數據後的數據理解和預處理工作,內容雖然不難,但同樣需要我們認真對待。就好像生活一樣,只有踏踏實實走好前面的路,才有可能迎接後面的高潮迭起!

D. 中國電影票房排行榜是怎樣的哪部電影最受歡迎

截止2021年2月26日,根據貓眼專業實時票房數據:

排名第一的是《你好,李煥英》,上映15天,票房累計44.97億元。

排名第二的是《唐人街探案3》,上映15天,票房累計41.98億元。

排名第三的是《刺殺小說家》,上映15天,累計票房8.18億元。

其後的是《熊出沒狂野大陸》、《人潮洶涌》、《新神榜:哪吒重生》

根據票房顯示,最受歡迎的電影應該是賈玲導演的《你好,李煥英》。

比如她搭建了一個編劇班子,編劇團隊對於小品的電影化改造,去除了小品的篇幅局限,

同時,增加的人物,以及角色之間交叉產生的故事,對過去時代與社會風貌的精準還原。

以父愛母愛為題材的電影,縱觀中外電影史也多是文藝佳作居多,票房大賺的商業大片幾乎沒有。

話又說回來,從賈玲的角度來講,能拍攝這樣一部作品去紀念自己的母親,已經算是莫大的成功了,這是普天下多少子女都想做的事情啊!

E. 2021中國電影年票房472.58億,我國的電影市場有哪些特點

我國的電影年票房可謂是年年攀高,2021年中國電影年票房以472.58億的成績,宣告著電影行業已經從寒冬中蘇醒,從這驚人的票房數字,我們不難發現中國的電影市場存在著以下幾個明顯的特點:主旋律影片受到追捧、商業爆米花片仍舊是主流、影片上映時間集中

一、主旋律影片受到追捧

從2021年春節檔起至年底,《你好,李煥英》、《長津湖》、《我和我的父輩》等一系列優秀的國產主旋律作品就受到了大家的喜愛,主旋律電影因其符合普適性原則,其中蘊含的情感能夠引起大多數中國人的共鳴,並且影片拍攝的手法都比較細致入微,大多數是從細節入手去刻畫人物之間的情感從而成功牽動起觀眾的情緒,讓人沉浸於影片當中,因此票房成績都很好看。

中國的電影市場還有很大的進步空間,大家認為中國的電影市場還存在哪些特點呢?

F. 2022年端午檔電影總票房1.78億,與往年相比有何變化

2021年端午檔電影總票房是4.68億元,而2022年端午檔電影總票房則是1.78億。這個數據與上一年相比票房跌落嚴重,為什麼各地疫情漸好中國電影票房仍然低落呢。在2019年端午檔總電影票房高達7.85億元,這其中變化之大,原因主要除了疫情之外,還有電影行業本身的問題。近幾年爛片層出不窮,好片只有那麼幾部,觀眾花錢買票並不想看爛片。

電影票房的低下不止證明了疫情之下中國經濟的蕭條,電影院的關門更使得電影院工作人員陸續下崗,社會問題增多。希望疫情趕緊過去,國內電影電視劇行業可以更加努力,推動中國電影新發展。

G. python藝恩網2022年電影票房狀況

近日,藝恩發布了《2022年春節檔中國電影市場報告》(以下簡稱「報告」),報告通過梳理春節檔電影區域放映情況,結合春節檔電影放映市場及重點影片的情況分析,總結2022年春節檔電影市場總體情況。

總體市場來看,報告數據顯示,2022年春節檔七天票房總收入60.35億元,較去年下降23%左右;觀影人次1.14億,較去年下降28.9%,僅相當於2018年水平,觀影人次流失明顯;單日票房方面,大年初一票房14.5億,同比下降15%左右。

春節檔票房TOP10影片依次是:《長津湖之水門橋》,檔期內票房25.34億;《這個殺手不太冷靜》,檔期票房 13.90億;《奇跡·笨小孩》,檔期票房6.69億;《熊出沒·重返地球》,檔期內票房5.63;《四海》,檔期內票房4.76億;《狙擊手》,檔期內票房2.64億;《喜羊羊與灰太狼之筐出未來》,檔期內票房0.88億元;《小虎墩大英雄》,檔期內票房0.18億元;《汪汪隊立大功大電影》,檔期內票房0.07億;《好想去你的世界愛你》,檔期內票房0.05億。

H. 票房預測數據來源

中國電影票房數據分析
2016年中國電影票房分析
據不完全統計,截止到12月29日下午6時,2016年內地電影票房已達450.76億,已超過去年票房總成績440億。其實,從2003年至2015年中國電影一直保持平均35%的市場增長率,2015年我國電影票房市場已經達到441億,過去6年復合增速38.6%。但根據目前的整體票房走勢來看,2016年的票房增速約3%,這也是17年來,我國電影票房增長最慢的一年。票房增長率13年來首次低於25%截至12月23日,2016年內地電影票房突破441億,用時358天才艱難超過了去年440.69億元的全年總票房,與2015年僅用時9個多月就超過2014年電影票房的速率相差甚遠,今年全年票房增長率13年來將首次低於25%。數據來源:中商產業研究院整理從均觀影次數來看,近年來我國平均觀影人次逐年攀升,2015年中國人均觀影次數已經達到1.6次;預計2016年中國電影觀影人次將達1.7人次,但距發達國家人均3-4次的觀影次數仍有較大差距。數據來源:中商產業研究院整理僅九部電影票房超10億另外,2016年《美人魚》、《瘋狂動物城》和《魔獸》分別以33.9億、15.3億、14.7億元的成績成為今年內地電影票房冠、亞、季軍。《美國隊長3:英雄內戰》、《西遊記之孫悟空三打白骨精》、《湄公河行動》、《澳門風雲3》、《盜墓筆記》和《功夫熊貓》劉部國產片躋身10億元俱樂部,領銜今年華語片票房排行榜。截至目前,今年共有84部在內地公映的中外電影票房過億,其中華語片共有41部過億。不過《擺渡人》、《鐵道飛虎》12月23日剛剛首映,無論口碑如何,相信兩部電影票房過億都毫無懸念。2016年度國內電影票房前十排行榜數據來源:藝恩 中商產業研究院整理(截止2016年12月30日)未來預期目前,中國電影進入繁榮發展的黃金機遇期。中國電影產量位居全球第三,今年中國電影產量不減,預計年底將突破700部。今年電影市場增長速度減緩,但依然在增長。預計,2016年電影市場或將達到454億,增速3%,增長速度略緩。
另外,相關數據顯示,今年有84部影片過億,相比去年的81部有所提高。觀影人數約在13億,比去年12億也有所增長。而12月下旬,國家新聞出版廣電總局發布最新數據,中國電影銀幕已超過4萬塊,躍居世界第一。2016年,中國電影銀幕以每天增加26塊的速度遞增,超過了2015年每天增加22塊的速度。值得關注的是:近期,阿里巴巴影業聯合上戲、復星探索影視人才培養新模式。蘋果收購已破產流媒體音樂公司,吸收技術和人才;Instagram也將推出直播功能。這些都反映我國影視傳媒行業市場前景可期。中商產業研究院簡介中商產業研究院是深圳中商情大數據股份有限公司下轄的研究機構,研究范圍涵蓋智能裝備製造、新能源、新材料、新金融、新消費、大健康、「互聯網+」等新興領域。公司致力於為國內外企業、上市公司、投融資機構、會計師事務所、律師事務所等提供各類數據服務、研究報告及高價值的咨詢服務。中商行業研究服務內容行業研究是中商開展一切咨詢業務的基石,我們通過對特定行業長期跟蹤監測,分析行業需求、供給、經營特性、盈利能力、產業鏈和商業模式等多方面的內容,整合行業、市場、企業、用戶等多層面數據和信息資源,為客戶提供深度的行業市場研究報告,全面客觀的剖析當前行業發展的總體市場容量、競爭格局、進出口情況和市場需求特徵等,對行業重點企業進行產銷運營分析,並根據各行業的發展軌跡及實踐經驗,對各產業未來的發展趨勢做出准確分析與預測。中商行業研究報告是企業了解各行業當前最新發展動向、把握市場機會、做出正確投資和明確企業發展方向不可多得的精品資料。中商行業研究方法中商擁有10多年的行業研究經驗,利用中商Askci資料庫立了多種數據分析模型,在產業研究咨詢領域利用行業生命周期理論、SCP分析模型、PEST分析模型、波特五力競爭分析模型、SWOT分析模型、波士頓矩陣、國際競爭力鑽石模型等、形成了自身獨特的研究方法和產業評估體系。在市場預測分析方面,模型涵蓋對新產品需求預測、快速消費品銷售預測、市場份額預測等多種指標,實現針對性的進行市場預測分析。
中商研究報告數據及資料來源中商利用多種一手及二手資料來源核實所收集的數據或資料。一手資料來源於中商對行業內重點企業訪談獲取的一手信息數據;中商通過行業訪談、電話訪問等調研獲取一手數據時,調研人員會將多名受訪者的資料及意見、多種來源的數據或資料進行比對核查,公司內部也會預先探討該數據源的合法性,以確保數據的可靠性及合法合規。二手資料主要包括國家統計局、國家發改委、商務部、工信部、農業部、中國海關、金融機構、行業協會、社會組織等發布的各類數據、年度報告、行業年鑒等資料信息。
數據來源 數據種類
金融機構 金融機構公開發布的各類年度數據、季度數據、月度數據等
政府部門 宏觀經濟數據、行業經濟數據、產量數據、進出口貿易數據等
行業協會 年度報告數據、公報數據、行業運行數據、會員企業數據等
社會組織 國際性組織、社會團體公布的各類數據等
行業年鑒 農業、林業、醫療、衛生、教育、環境、裝備、房產、建築等各類行業數據
公司公告 資本市場各類公司發布的定期年報、半年報、公司公告等
期刊雜志 在開期刊雜志中獲取的僅限於允許公開引用、轉載的部分
中商調研 研究人員、調研人員通過實地調查、行業訪談、獲取的一手數據
中商的產業研究服務優勢
產業研究優勢 優勢體現
豐富的數據資源、強大數據挖掘能力 中商是中國首家自建資料庫系統的產業研究咨詢機構,公司自主研發的Askci資料庫和CISource中商情報通對各類數據建立中商企業資料庫、全球資料庫、宏觀經濟資料庫、行業資料庫、區域資料庫、調研資料庫等專業資料庫,覆蓋近5000多個細分產業數據。
知名的研究團隊,優質的研究咨詢服務 中商擁有具備專業背景知識和熟悉產業運營的復合型人才, 產業分析師、行業專家及咨詢顧問共計300餘名,在宏觀經濟、區域經濟、細分行業及政策法規研究方面具備很強的實力。公司研究團隊為客戶提供專業的產業研究咨詢服務及個性化的專項咨詢服務。
專門的客服團隊,滿足客戶個性化咨詢服務 公司建立了專門的客服團隊,能夠更為准確的了解客戶的需求並滿足,並且能夠對客戶的需求進行快速的處理,深入為客戶提供多樣化、個性化產品解決方案。通過加強員工培訓與業務創新,開創了民營銀行籌建、保險公司籌建等新型咨詢服務業務。
產業大數據平台成就最具影響力行業門戶 公司旗下中商情報網是是國內專業的商業大數據發布和查詢平台,經過多年的發展吸引培養了一批忠實用戶,已成為中國財經領域「最具影響力行業門戶」,為國內外企業、金融從業人員、創業人員、科研院所工作者等提供客觀、時效、高價值的商業資訊。
中商的影響力國家政府部門及權威媒體廣泛報道與引用中商產業研究院專業研究結論國內外主流財經媒體及國家政府部門大量引用中商數據及研究結論,如央視財經、鳳凰財經新浪財經、中國經濟信息網、國家商務部、發改委、國務院發展研究中心(國研網)等。

5
網路文庫VIP限時優惠現在開通,立享6億+VIP內容
立即獲取
中國電影票房數據分析
2016年中國電影票房分析
第 1 頁
據不完全統計,截止到12月29日下午6時,2016年內地電影票房已達450.76億,已超過去年票房總成績440億。其實,從2003年至2015年中國電影一直保持平均35%的市場增長率,2015年我國電影票房市場已經達到441億,過去6年復合增速38.6%。但根據目前的整體票房走勢來看,2016年的票房增速約3%,這也是17年來,我國電影票房增長最慢的一年。
票房增長率13年來首次低於25%
截至12月23日,2016年內地電影票房突破441億,用時358天才艱難超過了去年440.69億元的全年總票房,與2015年僅用時9個多月就超過2014年電影票房的速率相差甚遠,今年全年票房增長率13年來將首次低於25%。
第 2 頁
數據來源:中商產業研究院整理
從均觀影次數來看,近年來我國平均觀影人次逐年攀升,2015年中國人均觀影次數已經達到1.6次;預計2016年中國電影觀影人次將達1.7人次,但距發達國家人均3-4次的觀影次數仍有較大差距。
第 3 頁
數據來源:中商產業研究院整理
僅九部電影票房超10億
另外,2016年《美人魚》、《瘋狂動物城》和《魔獸》分別以33.9億、15.3億、14.7億元的成績成為今年內地電影票房冠、亞、季軍。《美國隊長3:英雄內戰》、《西遊記之孫悟空三打白骨精》、《湄公河行動》、《澳門風雲3》、《盜墓筆記》和《功夫熊貓》劉部國產片躋身10億元俱樂部,領銜今年華語片票房排行榜。
截至目前,今年共有84部在內地公映的中外電影票房過億,其中華語片共有41部過億。不過《擺渡人》、《鐵道飛虎》12月23日剛剛首映,無論口碑如何,相信兩部電影票房過億都毫無懸念。

I. 電影票房分析及預測

從20世紀初的西洋鏡戲法到今天占據全球電影業總產值的三分之一強,資本的加入讓好萊塢在過去百年的發展中變得越來越理智--比起商業片流水線締造者,它更像一個數學家--它精於計算每一項決定對利潤的貢獻:《蝙蝠俠》續集是否要接受男演員片酬的獅子大開口以獲得百分之幾的忠實粉絲買票入場;是否要在動作片的第37分鍾增加感情戲以爭取女性觀眾;是否要為這部爛透了的原著聘請收費高昂的劇本醫生;一個小金人編劇的名頭到底值多少錢……這就是在電影開機之前最為重要的環節:票房預測。

華爾街不僅給好萊塢帶來了密集的資金支持,也帶來了理性的金融工程技術,後者好像一把衡量藝術的尺子。一位浸淫於電影行業的金融人士一語中的:"在這個行業里充斥著曖昧不清、晦暗不明,有真正的藝術家、也有忽悠的吹水者,但到底怎麼判斷是否能合作,項目是否有投資價值,全憑經驗"。

如何預測
早在80年代,美國票房收入預測的先驅BarryLitman對美國80年代近700部電影進行分析推出票房收入預測模型。該系統對之後美國電影投資界產生了顛覆性的影響。電影票房預測系統能分析預測不同種類電影的票房價值,已經成為國際電影產業投融資的重要參考工具,對電影產品定價及衍生產品開發都具有較強的指導作用。

預測系統
電影票房量化分析及預測系統(Box Revenue Prediction)是在考察導演、主要演員、製片、發行及市場營銷、電影生命周期、電影類型、發行地區等影響電影票房的諸多因素基礎上,基於資產定價模型,綜合採用金融工程和回歸統計分析方法研發出的預測系統。它能分析預測不同種類電影的票房價值,成為電影產業投融資重要參考工具,對電影產品定價及衍生產品開發都具有較強的指導作用。

中國第一套BRP系統

2012年1月,中影集團聯合艾億新融資本推出了國內第一套基於電影票房預測的估值與定價分析系統--BRP系統。通過對過去4年中600多部影片的統計分析,該BRP系統發現了6條有趣的現象:

·低成本的影片一般會比大片更賣座

·無名小卒主演的影片要比明星主演的影片利潤率更高

·類型的藝術特徵跟利潤之間不存在直接關聯,但評論的多寡(無論好評或者劣評)跟利潤之間有密切關系

·不含暴力、色情成分的家庭影片最容易賺錢

·大片的續集要比普通新片更容易賺錢

·明星在為影片帶來更高票房的同時,也往往拉低了利潤率,因為大部分收入進了明星的口袋

閱讀全文

與電影類型票房數據分析相關的資料

熱點內容
韓國3d電影大全集 瀏覽:45
中國電影開始前的片段 瀏覽:266
2019中國的科幻電影有哪些 瀏覽:944
高跟鞋完整電影 瀏覽:445
四個人走向北京猜一個電影 瀏覽:354
微電影製作論文 瀏覽:116
電影北逃在哪裡觀看 瀏覽:617
杭州婚禮微電影 瀏覽:12
日本偷西瓜電影 瀏覽:381
國產偷手機在線電影 瀏覽:371
如何取消美團購貓眼電影票 瀏覽:3
搞笑明星有哪些電影 瀏覽:663
一生一世電影還有哪些相關 瀏覽:782
女裝大佬微電影 瀏覽:709
有沒有像漫威系列的電影 瀏覽:203
戰狼電影bt下載迅雷下載 瀏覽:302
剪輯電影發哪裡有收益 瀏覽:808
川工之家怎麼領電影票 瀏覽:232
網上可以陪人看電影的軟體 瀏覽:116
客戶約我看電影怎麼拒絕 瀏覽:845