1. 描述性統計分析怎麼寫
描述統計是將研究中所得的數據加以整理、歸類、簡化或繪製成圖表,以此描述和歸納數據的特徵及變數之間的關系的一種最基本的統計方法。描述統計主要涉及數據的集中趨勢、離散程度和相關強度,最常用的指標有平均數()、標准差(σx)、相關系數(r)等。
所謂描述性統計分析,就是在表示數量的中心位置的同時,還能表示數量的變異程度(即離散程度)。描述性統計分析一般有二種方法可以進行:
1、頻數分布分析
2、列聯表分析
綜述
描述性研究利用常規檢測記錄或通過專門調查獲得的數據資料(包括實驗室檢查結果),按不同地區、不同時間及不同人群特徵進行分組,描述人群中有關疾病或健康狀態以及有關特徵和暴露因素的分布狀況,在此基礎上進行比較分析,獲得疾病三間(人群、地區、時間)分布的特徵,進而獲得病因線索,提出病因假設和線索。是流行病研究工作的起點。
以上內容參考:網路-描述性統計
2. SPSS—描述性統計分析—列聯表
什麼是列聯表
列聯表又稱交互分類表,所謂交互分類,是指同時依據兩個變數的值,將所研究的個案分類。交互分類的目的是將兩變數分組,然後比較各組的分布狀況,以尋找變數間的關系。
這里是按兩個變數交叉分類的,該列聯表稱為兩維列聯表,若按3個變數交叉分類,所得的列聯表稱為3維列聯表,依次類推。3維及以上的列聯表通常稱為「多維列聯表」或「高維列聯表」,而一維列聯表就是頻數分布表。
列聯表的結構
二維列聯表
r * c 列聯表
觀察值的分布
百分比分布
期望頻數的分布
假設檢驗
獨立性檢驗
假設觀察頻數與期望頻數沒有差別,而統計量χ2值表示二者間的偏離程度。
相關系數
ψ相關系數
皮爾遜定義的列聯系數
V相關系數
Fisher精確檢驗
卡方統計量是近似的,而Fisher精確檢驗使用的是超幾何分布。
相對危險度(Relative Risk, RR)
參考下面的SPSS實例
優勢比(Odds Ratio, OR)
參考下面的SPSS實例
Kappa一致性檢驗
在數據分析中,比較兩種預測方法預測結果的一致性用到Kappa檢驗。
配對χ2檢驗
通過Kappa檢驗,解決了兩種測量間究竟有無關聯的問題,但是通過列聯表的觀察,發現兩位顧問的評價是否不太一致,這種假設又如何來加以分析呢?
McNemar配對χ2檢驗 就是經典的配對檢驗,專門用於解決這類問題。
分層χ2檢驗
分層χ2檢驗是把研究對象分解成不同層次,按各層對象來進行行變數與列變數的獨立性研究。Statistics中Cochran』s and Mantel-Haenszel statistics會自動給出結果。
分層χ2檢驗是一種很好的控制其他因素的方法,使分析者能得到更准確的結果。如果數據量足夠大 ,還可以引入更多的分層因素加以控制。 但是,和SAS中的CMH χ2不同,SPSS提供的CMH χ2檢驗只能進行二分類變數的檢驗,而不能進行多分類變數的檢驗。
檢驗比較
χ2檢驗
假設觀察頻數與期望頻數沒有差別,而統計量χ2值表示二者間的偏離程度。
卡方檢驗方法的適用條件
關聯程度的度量
χ2檢驗從定性的角度分析是否存在相關行,而各種關聯指標(相對危險度RR與優勢比OR)從定量的角度分析相關的程度如何。
Kappa一致性檢驗與配對χ2檢驗
Kappa一致性檢驗對兩種方法結果的一致程度進行評價,而配對χ2檢驗則用於分析兩種分類方法的分類結果是否有差異。
分層χ2檢驗
分層χ2檢驗是把研究對象分解成不同層次,按各層對象來進行行變數與列變數的獨立性研究。Statistics中Cochran』s and Mantel-Haenszel statistics會自動給出結果。
SPSS分析
菜單
Analyze -> Descriptive Statistics -> Crosstabs
實例一:卡方檢驗和風險評估
數據集(site.sav)
某公司實行資料庫營銷,其雜志銷售部每個月向資料庫中的人們發送征訂郵件,但是回應率極低。他們希望找到一種好的方法來定位潛在的客戶,只向這些客戶發放郵件,從而節省人力物力。資料庫中的資料包括:個人一般信息(年齡、性別、婚姻狀況、收入、受教育水平及是否退休等),個人行為特徵(主要交通工具、有無手機、呼機、電視、CD及是否訂閱報紙)。另外,在發送郵件後,還有一個變數也加入到了資料庫中:是否對郵件進行回應,即是否在郵件的提示性進行雜志購買。經研究發現,報紙訂閱與郵件發送有相關性。該部門經理想了解報紙訂閱者回應郵件的概率是非訂閱者的幾倍。
參數設置
統計量
結果分析
交叉製表
列聯表分析表明,並沒有太多人對雜志的郵件做出回應,但是其中訂閱人佔了較大比例。
卡方檢驗
p值為0.000,故認為訂閱報紙與郵件回應是相關的。那麼報紙訂閱者的回應概率是未訂閱者的多少倍呢?通過計算RR來解決。
風險估計
對於報紙訂閱者而言,郵件響應的相對危險度是其回應概率與非報紙訂閱者的回應概率的比值,其估計值是(380/2768) / (299/3632) = 13.7% / 8.2%=1.668,表明報紙訂閱者對郵件的響應概率是非報紙訂閱者的1.668倍。 或者說報紙訂閱者對郵件的無響應的概率是非報紙訂閱者的0.94倍。
而優勢比即一個事件的Odds Ratio是它發生的概率除以不發生的概率
實例二:Kappa一致性檢驗和配對卡方檢驗
數據集(site.sav)
某公司期望擴展業務,增開幾家分店,但對開店地址不太確定。於是選了20個地址,請兩位資深顧問分別對20個地址作了一個評價,把它們評為好、中、差三個等級,以便確定應對哪些地址進行更進一步調查,那麼這兩位資深顧問的評價結果是否一致。
參數設置
統計量
結果分析
交叉製表
Kappa一致性檢驗
Kappa檢驗的原假設:Kappa=0,即兩者完全無關。結果顯示Kappa=0.478,P<0.05,拒絕原假設,認為兩位顧問的評價結果存在一致性。
配對卡方檢驗
Kappa一致性檢驗對兩種方法結果的一致程度進行評價,而配對χ2檢驗則用於分析兩種分類方法的分類結果是否有差異。
此處原假設:兩顧問的評價結果無差別,而p=0.072>0.05,故接受原假設,認為基本上相同
實例三:分層卡方檢驗
數據集(cmh.sav)
某零售連鎖店對3家分店的客戶滿意度進行了調查,數據見cmh.sav,其中一項指標是在購物時是否經常向店員尋求幫助,現希望分析尋求幫助與性別有無聯系。
統計結果
未分層的卡方檢驗
將gender和contact分別作為行變數和列變數,並做χ2檢驗,p<0.05,認為兩者間有聯系。
因為每家分店的結果可能不一樣,上面的卡方檢驗收到分店因素的影響可能不準確,需要根據分店進行分層統計。
但是分層因素在幾個組之間的分布不均,既可能削弱了原本存在的行變數與列變數間的關系,也可能使得原本不存在關系的兩個變數關系呈現統計學顯著性。
按分店分層卡方檢驗
可以看到分店的卡方檢驗並無顯著性(p > 0.05),說明每個分店的尋求幫助與性別之間沒有強關聯。
但是,由於分層後樣本量大大減小,這究竟是因為檢驗效能不足導致的無差異,還是真的無差異?
為此可以使用Cochran』s and Mantel-Haenszel χ2檢驗來分析。這種方法可以在考慮了分層因素的影響後給出檢驗結果。
Cochran』s and Mantel-Haenszel χ2檢驗
首先給出的是層間差異的檢驗,即考察不同層間gender與contact的聯系是否相同。
原假設H0: 分店之間的聯系是相同的。
p = 0.638說明,在不同分店層間, gender與contact的聯系是相同的。
調整了分層因素作用後的綜合OR值=0.636,即去除了不同分店的混雜效應後,和女性相比,男性顧客尋求幫助的優勢比為0.636,或者說更不容易尋求幫助。
3. 描述性統計的介紹
描述性研究(descriptive study),又稱為描述流行病學(descriptive epidemiology),是流行病學研究方法中最基本的類型,主要用來描述人群中疾病或健康狀況及暴露因素的分布情況,目的是提出病因假設,為進一步調查研究提供線索,是分析性研究的基礎;還可以用來確定高危人群,評價公共衛生措施的效果等。描述性研究常見類型主要有:現狀研究(橫斷面研究)、生態學研究、病例報告、病例系列分析、個案研究、歷史資料分析、比例死亡比研究等。[1]
4. 數據分析之描述性統計
統計學包括 描述性統計 和 推論統計。
描述性統計 的含義——"A descriptive statistic is a summary statistic that quantitatively describes or summarizes features of a collection of information."
中文翻譯:描述性統計是一種匯總統計,用於定量描述或總結信息集合的特徵。
推論統計 :根據數據的形態建立出一個用以解釋其隨機性和不確定性的數學模型,以之來推論研究中的步驟及母體。
本文主要介紹描述性統計,描述性統計又分為 集中趨勢 和 離散趨勢 。
一、集中趨勢(Measures of central tendency)
能夠對總體的某一特徵具有代表性,表明所研究的對象在一定時間、空間條件下的共同性質和一般水平。
1. 眾數(Mode)
用於定性的數據,表示一組數據中出現頻次最高的數。
優點:不受極端值影響;當數據具有明顯的集中趨勢時,代表性好;
缺點:缺乏唯一性。
2. 分位數(Quantile)
亦稱分位點,是指將一個 隨機變數 的 概率分布 范圍分為幾個等份的數值點,常用的有 中位數 (即二分位數)、 四分位數 、 百分位數 等。
2.1 中位數(Median)
用於定量的數據,表示數值大小位於中間(奇偶總量處理不同)的值。
優點:不受極端值影響;缺點:缺乏敏感性。
2.2 四分位數
第一四分位數 (Q1) ,又稱「較小四分位數」,等於該樣本中所有數值由小到大排列後第25%的數字。
第二四分位數 (Q2) ,又稱中位數,等於該樣本中所有數值由小到大排列後第50%的數字。
第三四分位數 (Q3) ,又稱「較大四分位數」,等於該樣本中所有數值由小到大排列後第75%的數字。
第三四分位數與第一四分位數的差距又稱四分位距。
3. 平均數(Mean)
3.1 算術平均數:
優點:充分利用所有數據,適用性強;缺點:易受極值影響。
3.2 加權平均數: 根據權重比例來求平均值
3.3 幾何平均數
python實現:
二、離散趨勢(Measures of Dispersion)
1. 極差
一組數值型數據中最大值和最小值之差,max(x)-min(x),反映了數值樣本的數據范圍。
2. 方差和標准差
方差 用於衡量數據的分散程度,常見的有總體方差和樣本方差,計算方法類似。 標准差 為方差的平方根。
3. 平均差
是數據組中各數據值與其算術平均數離差絕對值的算術平均數。
4. 分位差
其數值越小表明數據越集中,數值越大表明數據越離散。常用的四分位差為:四分位差=(第三個四分位數-第一個四分位數)/2
5. 異眾比率
異眾比率越大,說明非眾數組的頻數占總頻數的比重越大,眾數的代表性就越差;異眾比率越小,說明非眾數組的頻數占總頻數的比重越小,眾數的代表性越好。
6. 離散系數
離散系數又稱變異系數,CV(Coefficient of Variance)表示。CV(Coefficient of Variance):標准差與均值的比值。離散系數越小,數據的離散程度就越小。
python實現:
三、分布形態
1. 偏態系數(Skewness)
偏態系數又稱偏差系數(deviation coefficient),偏態系數以平均值與中位數之差對標准差之比率來衡量偏斜的程度,用 SK 表示偏斜系數:偏態系數小於0,因為平均數在眾數之左,是一種左偏的分布,又稱為 負偏 。偏態系數大於0,因為均值在眾數之右,是一種右偏的分布,又稱為 正偏 。
偏態系數是根據眾數、中位數與均值各自的性質,通過比較眾數或中位數與均值來衡量偏斜度的。
2. 峰態系數(Kurtosis)
峰度系數是用來反映頻數分布曲線頂端尖峭或扁平程度的指標,用於衡量離群數據離群度,峰度系數越大,說明該數據集中的極端值越多。在正態分布情況下,峰度系數值是3。>3的峰度系數說明觀察量更集中,有比正態分布更短的尾部;<3的峰度系數說明觀測量不那麼集中,有比正態分布更長的尾部,類似於矩形的均勻分布。峰度系數的標准誤用來判斷分布的正態性。峰度系數與其標准誤的比值用來檢驗正態性。如果該比值絕對值大於2,將拒絕正態性。
5. 描述性分析是什麼
描述性分析
描述性分析是當今企業中最簡單,最常見的數據使用方式,因為它通過總結過去的數據(通常以儀錶板的形式)來回答「發生了什麼」類型的問題。它分析完整的數據或匯總的數值數據樣本,並顯示連續數據的平均值和偏差–分類數據的百分比和頻率。
業務中描述性分析的主要功能是跟蹤關鍵績效指標(KPI),這些指標描述了基於所選基準的業務績效。
描述性分析的業務應用包括:KPI儀錶板、月收入報告、銷售線索概述。
6. 到底什麼是描述性統計分析定義是怎樣
所謂描述性統計分析,就是對一組數據的各種特徵進行分析,以便於描述測量樣本的各種特徵及其所代表的總體的特徵。描述性統計分析的項目很多,常用的如平均數、標准差、中位數、頻數分布、正態或偏態程度等等。這些分析是復雜統計分析的基礎。
例如:對我國城鎮軍民的醫療保健消費情況進行統計分析,數據如下:
588.8
407.75
376.71
300.81
287.03
252.2
336
341.85
500.86
294.39
541.06
181.23
266
148.8
322.6
280.78
208.78
208.96
270.24
346.56
228.01
247.31
293.23
266.07
233.27
291.76
264.8
336.24
272.44
307.24
327.05
330.54
進行描述性統計分析結果為:
平均數
308.1053125
標准差
95.06485331
中位數
292.495
最小值
148.8
最大值
588.8
峰度
2.375103692
偏度
1.347690777
7. 描述性統計分析包括哪些內容
描述性統計分析主要包括數據的頻數分析、集中趨勢分析、離散程度分析、分布以及一些基本的統計圖形。
①數據的頻數分析。在數據的預處理部分,利用頻數分析和交叉頻數分析可以檢驗異常值。
②數據的集中趨勢分析。用來反映數據的一般水平,常用的指標有平均值、中位數和眾數等。
描述性研究(descriptive study)是指利用常規檢測記錄或通過專門調查獲得的數據資料(包括實驗室檢查結果),按不同地區、不同時間及不同人群特徵進行分組,描述人群中有關疾病或健康狀態以及有關特徵和暴露因素的分布狀況,在此基礎上進行比較分析,獲得疾病三間(人群、地區、時間)分布的特徵,進而獲得病因線索,提出病因假設和線索。是流行病研究工作的起點。
8. 什麼是描述性分析
描述性分析是社會調查統計分析的第一個步驟,對調查所得的大量數據資料進行初步的整理和歸納,以找出這些資料的內在規律——集中趨勢和分散趨勢。主要藉助各種數據所表示的統計量,如均數、百分比等,進行單因素分析。
事實證明,僅靠百分比或平均差是不能完全反映客觀事物的本質的,僅僅對一個樣本進行分析也是不夠的。這個樣本是否能夠反映其總體的特徵,還需要進行推斷性分析。
描述性分析的目的
1、描述某個有關群體的特徵;
2、估計某個群體中某種行為方式的發生比率;
3、測量有關產品的知識、偏好與滿意度;
4、確定不同營銷變數之間的關系;
5、進行預測。
9. 豆瓣電影數據分析
這篇報告是我轉行數據分析後的第一篇報告,當時學完了Python,SQL,BI以為再做幾個項目就能找工作了,事實上……分析思維、業務,這兩者遠比工具重要的多。一個多月後回過頭來看,這篇報告雖然寫得有模有樣,但和數據分析報告還是有挺大差別的,主要原因在於:a.只是針對豆瓣電影數據分析太過寬泛了,具體關鍵指標到底是哪些呢?;b.沒有一個確切有效的分析模型/框架,會有種東一塊西一塊的拼接感。
即便有著這些缺點,我還是想把它掛上來,主要是因為:1.當做Pandas與爬蟲(Selenium+Request)練手,總得留下些證明;2.以豆瓣電影進行分析確實很難找到一條業務邏輯線支撐,總體上還是描述統計為主;3.比起網上能搜到的其他豆瓣電影數據分析,它更為詳細,可視化效果也不錯;
本篇報告旨在針對豆瓣電影1990-2020的電影數據進行分析,首先通過編寫Python網路爬蟲爬取了51375條電影數據,採集對象包括:電影名稱、年份、導演、演員、類型、出品國家、語言、時長、評分、評論數、不同評價佔比、網址。經過去重、清洗,最後得到29033條有效電影數據。根據電影評分、時長、地區、類型進行分析,描述了評分與時長、類型的關系,並統計了各個地區電影數量與評分。之後,針對演員、導演對數據進行聚合,給出產量與評分最高的名單。在分析過程中,還發現電影數量今年逐步增加,但評分下降,主要原因是中國地區今年低質量影視作品的增加。
另外,本篇報告還爬取了電影票房網( http://58921.com/ )1995-2020年度國內上映的影片票房,共採集4071條數據,其中3484條有效。進一步,本文分析了國內院線電影票房年度變化趨勢,票房與評分、評價人數、時長、地區的關系,票房與電影類型的關聯,並給出了票房最高的導演、演員與電影排名。
清洗、去重後,可以看到29033條數據長度、評分、評論數具有以下特點:
結合圖1(a)(b)看,可以看到電影數據時長主要集中在90-120分鍾之間,向兩極呈現階梯狀遞減,將數據按照短(60-90分鍾),中(90-120分鍾),長(120-150分鍾),特長(>150分鍾)劃分,各部分佔比為21.06%, 64.15%, 11.95%, 2.85%。
結合圖2(a)看,可以看到我們採集到的電影數據評分主要集中在6.0-8.0之間,向兩極呈現階梯狀遞減,在此按照評分劃分區間:2.0-4.0為口碑極差,4.0-6.0為口碑較差,6.0-7.0為口碑尚可,7.0-8.0為口碑較好,8.0-10.0為口碑極佳。
這5種電影數據的佔比分別為:5.78%, 23.09%, 30.56%, 29.22%, 11.34%
再將評分數據細化到每年進行觀察,可以發現,30年內電影數量與年度電影均分呈反相關,年度均分整體呈現下降趨勢,2016年電影均分最低,電影數量最多。
進一步做出每個年份下不同評級等級的電影數據佔比,可以發現,近年來,評分在[2.0,6.0)的電影數據佔比有著明顯提升,評分在[6.0,7.0)的數據佔比不變,評分在[7.0,10.0)的數據佔比減少,可能原因有:
對照圖5,可以發現,評分與時長、評論人數的分布大致呈現漏斗狀,高分電影位於漏鬥上部,低分電影位於漏斗下部。這意味著,如果一部電影的評論人數很多(特別是超過30w人觀影),時長較長(大於120min),那麼它大概率是一部好電影。
根據各個國家的電影數量作圖,可以得到圖6,列出電影數量前十的國家可得表格2,發現美國在電影數量上占第一,達到8490部,中國其次,達6222部。此外,法國,英國,日本的電影數量也超過1000,其餘各國電影數量相對較少。這可以說明美國電影有著較大的流量輸入,在中國產生了較大的影響。
進一步分析各國電影的質量,依據評分繪制評分箱線圖可得圖7,在電影數量排名前20的國家中:
接著我們可以探索,哪個國家的電影對豆瓣評分隨年份下降的貢獻最大,考慮到電影數量對應著評分的權重。根據上述各國的電影評分表現,我們可以猜測電影數量較多的國家可能對年度均分的下降有較大影響。於是,我們再計算出這些國家的年度電影均分,並與整體均分進行比較分析。
再作出中國大陸,中國台灣,中國香港的均分箱線圖圖9(a),可以看到,大陸電影均分低於港台電影,且存在大量低分電影拉低了箱體的位置。
分析相關性可得,大陸、香港、台灣電影年度均分與全部評分關聯度分別為R=0.979,0.919,0.822,說明濾去台灣和香港電影,大陸電影年度均分的變化趨勢與全部評分變化更接近。圖9(b)可以進一步反映這一點。
可以看到,大部分類型集中在X×Y=[10000,30000]×[6.00,7.50]的區間范圍內,劇情、喜劇、愛情、犯罪、動作類電影數量上較多,說明這些題材的電影是近三十年比較熱門的題材,其中劇情類電影佔比最多,音樂、傳記類電影平均得分更高,但在數量上較少,動作、驚悚類電影評論人數雖多,但評價普遍偏低。
除此之外,還有兩塊區域值得關註:
根據類型對電影數據進行聚合,整理得到各類型電影評分的時間序列,計算它們與整體均分時間序列的相關性,可得表格4與圖11,可以看到劇情,喜劇,懸疑這三種類型片與總分趨勢變化相關性最強,同時劇情、喜劇類電影在電影數量上也最多,因此可以認為這兩類電影對於下跌趨勢影響最大,但其餘類別電影的相關性也達到了0.9以上,說明幾種熱門的電影得分的變化趨勢與總體均分趨勢一致。
前面已經得知,中美兩國電影佔比最高,且對於均分時間序列的影響最大。在此,進一步對兩國電影進行類型分析,選取幾種主要的類型(數量上較多,且相關性較高)進行分析,分別是劇情,喜劇,愛情,驚悚,動作,懸疑類電影,繪制近年來幾類電影的數量變化柱狀圖與評分箱線圖可得圖12,13,14,15。
對導演與演員進行聚合,得到數據中共有15011名導演,46223名演員。按照作品數量在(0,2], (2,5], (5,10], (10,20], (20,999]進行分組統計導演數量,可以發現,15009名導演中有79.08%只拍過1-2部作品,46220名演員中有75.93%只主演過1-2部作品。忽略那些客串、跑龍套的演員,數據總體符合二八定律,即20%的人占據了行業內的大量資源。
在此,可以通過電影得分、每部電影評論人數以及電影數目尋找優秀的電影導演與演員。這三項指標分別衡量了導演/演員的創作水平,人氣以及產能。考慮到電影數據集中可能有少量影視劇/劇場版動畫,且影視劇/劇場版動畫受眾少於電影,但得分普遍要高於電影,這里根據先根據每部電影評論數量、作品數量來篩選導演/演員,再根據電影得分進行排名,並取前30名進行作圖,可得圖17,18。
結合電影票房網( http://58921.com/ )採集到的3353條票房數據,與豆瓣數據按照電影名稱進行匹配,可以得到1995-2020年在中國大陸上映的電影信息,分別分析中國內地電影的數量、票房變化趨勢,票房與評分、評價人數、時長、地區以及類型的關系,此外還給出了不同導演與演員的票房表現以及影片票房排名。
如圖19所示,國內票房數據與上映的電影數量逐年遞增,2020年記錄的只是上半年的數據,且由於受疫情影響,票房與數量驟減。這說明在不發生重大事件的情況下,國內電影市場規模正在不斷擴大。
對電影數據根據類型進行聚合,繪制散點圖21,可以發現:
提取導演/演員姓名,對導演/演員欄位進行聚合,計算每個導演/演員的票房總和,上映電影均分、以及執導/參與電影數目進行計算,作出票房總和前30名的導演/演員,可得圖22,23,圖中導演/演員標號反映了票房排名,具體每位導演/演員的上映影片數量、均分、每部電影評價人數、平均時長與總票房在表5、表6中給出。
最後根據電影票房進行排名,得到票房排名前20的電影如表格7所示,可以看到絕大部分上榜電影都是中國電影,索引序號為3、10、12、14、18、19為美國電影,這也反映了除國產電影之外,好萊塢大片占據較大的市場。
本篇報告採集了1990-2020年間豆瓣電影29033組有效數據,從豆瓣電影的評分、時長、地區、類型、演員、導演以及票房等信息進行分析評價,主要有以下結論:
10. 電影票房分析及預測
從20世紀初的西洋鏡戲法到今天占據全球電影業總產值的三分之一強,資本的加入讓好萊塢在過去百年的發展中變得越來越理智--比起商業片流水線締造者,它更像一個數學家--它精於計算每一項決定對利潤的貢獻:《蝙蝠俠》續集是否要接受男演員片酬的獅子大開口以獲得百分之幾的忠實粉絲買票入場;是否要在動作片的第37分鍾增加感情戲以爭取女性觀眾;是否要為這部爛透了的原著聘請收費高昂的劇本醫生;一個小金人編劇的名頭到底值多少錢……這就是在電影開機之前最為重要的環節:票房預測。
華爾街不僅給好萊塢帶來了密集的資金支持,也帶來了理性的金融工程技術,後者好像一把衡量藝術的尺子。一位浸淫於電影行業的金融人士一語中的:"在這個行業里充斥著曖昧不清、晦暗不明,有真正的藝術家、也有忽悠的吹水者,但到底怎麼判斷是否能合作,項目是否有投資價值,全憑經驗"。
如何預測
早在80年代,美國票房收入預測的先驅BarryLitman對美國80年代近700部電影進行分析推出票房收入預測模型。該系統對之後美國電影投資界產生了顛覆性的影響。電影票房預測系統能分析預測不同種類電影的票房價值,已經成為國際電影產業投融資的重要參考工具,對電影產品定價及衍生產品開發都具有較強的指導作用。
預測系統
電影票房量化分析及預測系統(Box Revenue Prediction)是在考察導演、主要演員、製片、發行及市場營銷、電影生命周期、電影類型、發行地區等影響電影票房的諸多因素基礎上,基於資產定價模型,綜合採用金融工程和回歸統計分析方法研發出的預測系統。它能分析預測不同種類電影的票房價值,成為電影產業投融資重要參考工具,對電影產品定價及衍生產品開發都具有較強的指導作用。
中國第一套BRP系統
2012年1月,中影集團聯合艾億新融資本推出了國內第一套基於電影票房預測的估值與定價分析系統--BRP系統。通過對過去4年中600多部影片的統計分析,該BRP系統發現了6條有趣的現象:
·低成本的影片一般會比大片更賣座
·無名小卒主演的影片要比明星主演的影片利潤率更高
·類型的藝術特徵跟利潤之間不存在直接關聯,但評論的多寡(無論好評或者劣評)跟利潤之間有密切關系
·不含暴力、色情成分的家庭影片最容易賺錢
·大片的續集要比普通新片更容易賺錢
·明星在為影片帶來更高票房的同時,也往往拉低了利潤率,因為大部分收入進了明星的口袋