Ⅰ 豆瓣電影的評分標準是什麼有何演算法
豆瓣的注冊用戶看完一部電影,心情好的話會來打個一到五星的分(有時候心情不好也會來)。比方說一部電影有42萬用戶打分。我們的程序把這42萬個一到五星換算成零到十分,加起來除以42萬,就得到了豆瓣評分。
這個評分會自動出現在豆瓣各處,中間沒有審核,平時也沒有編輯盯著看。每過若干分鍾,程序會自動重跑一遍,把最新打分的人的意見包括進來。
那42萬用戶里可能包括資深電影評論家,可能包括你、你的親戚、你的小學同學、早晨賣你油條的那個人,也可能包括阿北我個人。但每個人都是一票。這個是「大眾評審團」應該的含義:不是說團里的人全都大眾,而是說和大眾一樣一人一票。
豆瓣的工作人員偶然收到「我明明給這個片子打了五星,為什麼評分一點沒變」的投訴的時候,除了心裡嘀咕一下「哎,你拿這些紅人/獨生子女/八零後/九零後/零零後/數學不好的人怎麼辦」以外,會(或者應該)這樣耐心解釋:評分實際是變了,只是在小數點後四位,被四捨五入掉了。
但如果有幾千個人和你一樣都打五星的時候,分數就會變。
「一人一票」唯一的例外,是豆瓣的程序判斷是「非正常打分」的帳號。這些打分會被排除在外。具體下面會說到。
豆瓣電影評分的主旨和原則,是「盡力還原普通觀影大眾對一部電影的平均看法」。這個主旨過去十年沒變過,將來也不想變。
它並不是專家、影視從業人員或者資深人士對電影的看法,雖然這些看法會被豆瓣算在「普通觀影大眾」之內。所以有次聽到「豆瓣電影評分不專業」的說法的時候,我的反應這是在說「大眾不專業」,應該怪語文才是。個人認為匯總專家意見會是另一個很有價值的服務,但這個確實不是豆瓣評分的宗旨。
豆瓣簡介
豆瓣(douban)是一家社區網站。網站由楊勃(網名「阿北」)[3]創立於2005年3月6日。該網站以書影音起家,提供關於書籍、電影、音樂等作品的信息,無論描述還是評論都由用戶提供,是中國Web 2.0網站中具有特色的一個網站。
網站還提供書影音推薦、線下同城活動、小組話題交流等多種服務功能,它更像一個集品味系統(讀書、電影、音樂)、表達系統(我讀、我看、我聽)和交流系統(同城、小組、友鄰)於一體的創新網路服務,一直致力於幫助都市人群發現生活中有用的事物。2012年,豆瓣閱讀上線,開始進入網上電子書版權領域。
(1)電影評分數據分析定義擴展閱讀:
豆瓣其他產品
1.豆瓣FM
豆瓣FM是你專屬的個性化音樂收聽工具,打開就能收聽,可以用「紅心」、「垃圾桶」或者「跳過」 告訴豆瓣FM你的喜好。豆瓣FM將根據你的操作和反饋,從海量曲庫中自動發現並播出符合你音樂口味的歌曲,提供公共、私人和紅心三種收聽方式。在紅心兆赫離線也能收聽。
2.豆瓣讀書- 豆瓣讀書自2005年上線,已成為國內信息最全、用戶數量最大且最為活躍的讀書網站。我們專注於為用戶提供全面、且精細化的讀書服務,同時不斷探索新的產品模式。到2012年豆瓣讀書每個月有超過800萬的來訪用戶,過億的訪問次數。
3.豆瓣閱讀
豆瓣閱讀是豆瓣讀書2012年推出的數字閱讀服務,支持 Web、iPhone、iPad、Android、Kindle等桌面和移動設備,自2012年5月7日作品商店上線以來,商店作品達600餘部,用戶評論3000餘篇,有50萬用戶購買過付費或者免費作品。
豆瓣閱讀的現有內容涵蓋了小說、歷史、科技、藝術與設計、生活等多種門類,定位為短篇作品和圖書於一體的綜合平台。
4.豆瓣音樂
豆瓣音樂是中國最大的音樂分享、評論、音樂人推廣社區,擁有最完整的全球音樂信息庫、最權威的用戶音樂評論,和最具創造力的獨立音樂人資源。匯集90多萬音樂條目,包括小凡say、幼稚園殺手、MC光光、呆寶靜等21000多位獨立音樂人入駐,2011年全年平均每5分鍾誕生一首原創音樂,覆蓋粉絲超千萬。
5.豆瓣同城
豆瓣同城是國內最大的線下活動信息發布平台,包括音樂/演出、話劇、展覽、電影、講座/沙龍、戲劇/曲藝、生活/聚會、體育、旅行、公益……專注於一線城市業餘生活方式。
6.豆瓣小組
豆瓣小組於2005年上線,定位於「對同一個話題感興趣的人的聚集地」,至今已有30多萬個小組被用戶創建,月獨立用戶超過5500萬。內容包括娛樂、美容、時尚、旅行等生活的方方面面。用戶在這里發布內容,同時也通過互動或瀏覽,發現更多感興趣的內容。
Ⅱ 數據分析——實戰|IMDB-Movie分析案例
本數據報告以IMDB-Movie為數據集,通過相關的指標對電影進行分析,具體指標包括:電影時長和評分分布,評分平均數,導演人數,演員人數等,本例主要圍繞pandas在實際中的應用為主(字元串離散化、數據合並、數據分組聚合,數據索引)。
鏈接:https://pan..com/s/1P6MF3JEMJdC1I-sg5bCsAw
提取碼:enz7
1.電影時長分布
2.評分分布
3.評分平均數
4.導演人數
5.演員人數
結果再次不顯示了
一部電影多個分類,要統計電影分類情況
參考鏈接:https://mp.weixin.qq.com/s?__biz=MzIyNTg3ODM0Ng==&mid=2247483699&idx=1&sn=&chksm=b61925&token=498825246&lang=zh_CN&scene=21#wechat_redirect
Ⅲ 豆瓣電影數據分析報告
近年來電影產業迅猛發展,其已成為重要的藝術和娛樂。同時,電影也是說明一個國家的經濟水平。因此分析電影書有助於電影工業的發展趨勢。
1、 每年的電影的數量,以及每年的電影平均評分
2、 電影那種類型最多,以及前三名的百分比
3、 各個國家的電影數量最多
4、 中國跟美國各個年代對比
1、 每年的電影的數量,以及每年的電影分均分
由圖可見,從 2000 年開始電影年產量的趨勢不斷上升,而近年些年的評分越來越
低,從評分均值上看一直屬於下滑狀態。可以推測出,電影的數量會有大幅的上升,
而電影的質量整體下滑。
2、 電影那種類型最多,以及前三名的百分比
從詞雲圖的電影類型可見,劇情、動作、喜劇的電影類型出現的頻率很高。而從環形圖
中可以看出動作、喜劇、劇情這三個電影類型對比,歷年來劇情的電影類型是最多的,其
次是喜劇,由此可以了解觀眾的喜好。
3、電影數量在前五名國家的評分情況?
從樹狀圖可以看出美國的電影數量最多,其次是中國、日本、英國、法國。
4、中國跟美國各個年代對比?
從圖中可以看出中國的電影發展趨勢一直處以上升階段,而美國的發展趨勢不太樂
觀。以目前中國的發展趨勢很快就會追上美國,目前美國還是領先階段。
Ⅳ 豆瓣電影數據分析的背景與意義
豆瓣電影數據分析的背景與意義是電影發展的衡量標准。根據查詢相關資料信息顯示:豆瓣已經成為國內電影愛好者、影評人士的聚集地,豆瓣評分已經成為國內一個評價電影的重要指標,豆瓣上積攢了大量電影數據為電影行業分析提供了重要資源,通過豆瓣電影來衡量國內外的電影的發展情況。
Ⅳ 電影評分數據統計分析的作用和意義
通過觀眾對電影的評分的分析,可以在一定程度上給電影行業啟發。數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,將它們加以匯總和理解並消化,以求最大化地開發數據的功能,發揮數據的作用。數據分析是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。
Ⅵ 豆瓣電影數據分析
這篇報告是我轉行數據分析後的第一篇報告,當時學完了Python,SQL,BI以為再做幾個項目就能找工作了,事實上……分析思維、業務,這兩者遠比工具重要的多。一個多月後回過頭來看,這篇報告雖然寫得有模有樣,但和數據分析報告還是有挺大差別的,主要原因在於:a.只是針對豆瓣電影數據分析太過寬泛了,具體關鍵指標到底是哪些呢?;b.沒有一個確切有效的分析模型/框架,會有種東一塊西一塊的拼接感。
即便有著這些缺點,我還是想把它掛上來,主要是因為:1.當做Pandas與爬蟲(Selenium+Request)練手,總得留下些證明;2.以豆瓣電影進行分析確實很難找到一條業務邏輯線支撐,總體上還是描述統計為主;3.比起網上能搜到的其他豆瓣電影數據分析,它更為詳細,可視化效果也不錯;
本篇報告旨在針對豆瓣電影1990-2020的電影數據進行分析,首先通過編寫Python網路爬蟲爬取了51375條電影數據,採集對象包括:電影名稱、年份、導演、演員、類型、出品國家、語言、時長、評分、評論數、不同評價佔比、網址。經過去重、清洗,最後得到29033條有效電影數據。根據電影評分、時長、地區、類型進行分析,描述了評分與時長、類型的關系,並統計了各個地區電影數量與評分。之後,針對演員、導演對數據進行聚合,給出產量與評分最高的名單。在分析過程中,還發現電影數量今年逐步增加,但評分下降,主要原因是中國地區今年低質量影視作品的增加。
另外,本篇報告還爬取了電影票房網( http://58921.com/ )1995-2020年度國內上映的影片票房,共採集4071條數據,其中3484條有效。進一步,本文分析了國內院線電影票房年度變化趨勢,票房與評分、評價人數、時長、地區的關系,票房與電影類型的關聯,並給出了票房最高的導演、演員與電影排名。
清洗、去重後,可以看到29033條數據長度、評分、評論數具有以下特點:
結合圖1(a)(b)看,可以看到電影數據時長主要集中在90-120分鍾之間,向兩極呈現階梯狀遞減,將數據按照短(60-90分鍾),中(90-120分鍾),長(120-150分鍾),特長(>150分鍾)劃分,各部分佔比為21.06%, 64.15%, 11.95%, 2.85%。
結合圖2(a)看,可以看到我們採集到的電影數據評分主要集中在6.0-8.0之間,向兩極呈現階梯狀遞減,在此按照評分劃分區間:2.0-4.0為口碑極差,4.0-6.0為口碑較差,6.0-7.0為口碑尚可,7.0-8.0為口碑較好,8.0-10.0為口碑極佳。
這5種電影數據的佔比分別為:5.78%, 23.09%, 30.56%, 29.22%, 11.34%
再將評分數據細化到每年進行觀察,可以發現,30年內電影數量與年度電影均分呈反相關,年度均分整體呈現下降趨勢,2016年電影均分最低,電影數量最多。
進一步做出每個年份下不同評級等級的電影數據佔比,可以發現,近年來,評分在[2.0,6.0)的電影數據佔比有著明顯提升,評分在[6.0,7.0)的數據佔比不變,評分在[7.0,10.0)的數據佔比減少,可能原因有:
對照圖5,可以發現,評分與時長、評論人數的分布大致呈現漏斗狀,高分電影位於漏鬥上部,低分電影位於漏斗下部。這意味著,如果一部電影的評論人數很多(特別是超過30w人觀影),時長較長(大於120min),那麼它大概率是一部好電影。
根據各個國家的電影數量作圖,可以得到圖6,列出電影數量前十的國家可得表格2,發現美國在電影數量上占第一,達到8490部,中國其次,達6222部。此外,法國,英國,日本的電影數量也超過1000,其餘各國電影數量相對較少。這可以說明美國電影有著較大的流量輸入,在中國產生了較大的影響。
進一步分析各國電影的質量,依據評分繪制評分箱線圖可得圖7,在電影數量排名前20的國家中:
接著我們可以探索,哪個國家的電影對豆瓣評分隨年份下降的貢獻最大,考慮到電影數量對應著評分的權重。根據上述各國的電影評分表現,我們可以猜測電影數量較多的國家可能對年度均分的下降有較大影響。於是,我們再計算出這些國家的年度電影均分,並與整體均分進行比較分析。
再作出中國大陸,中國台灣,中國香港的均分箱線圖圖9(a),可以看到,大陸電影均分低於港台電影,且存在大量低分電影拉低了箱體的位置。
分析相關性可得,大陸、香港、台灣電影年度均分與全部評分關聯度分別為R=0.979,0.919,0.822,說明濾去台灣和香港電影,大陸電影年度均分的變化趨勢與全部評分變化更接近。圖9(b)可以進一步反映這一點。
可以看到,大部分類型集中在X×Y=[10000,30000]×[6.00,7.50]的區間范圍內,劇情、喜劇、愛情、犯罪、動作類電影數量上較多,說明這些題材的電影是近三十年比較熱門的題材,其中劇情類電影佔比最多,音樂、傳記類電影平均得分更高,但在數量上較少,動作、驚悚類電影評論人數雖多,但評價普遍偏低。
除此之外,還有兩塊區域值得關註:
根據類型對電影數據進行聚合,整理得到各類型電影評分的時間序列,計算它們與整體均分時間序列的相關性,可得表格4與圖11,可以看到劇情,喜劇,懸疑這三種類型片與總分趨勢變化相關性最強,同時劇情、喜劇類電影在電影數量上也最多,因此可以認為這兩類電影對於下跌趨勢影響最大,但其餘類別電影的相關性也達到了0.9以上,說明幾種熱門的電影得分的變化趨勢與總體均分趨勢一致。
前面已經得知,中美兩國電影佔比最高,且對於均分時間序列的影響最大。在此,進一步對兩國電影進行類型分析,選取幾種主要的類型(數量上較多,且相關性較高)進行分析,分別是劇情,喜劇,愛情,驚悚,動作,懸疑類電影,繪制近年來幾類電影的數量變化柱狀圖與評分箱線圖可得圖12,13,14,15。
對導演與演員進行聚合,得到數據中共有15011名導演,46223名演員。按照作品數量在(0,2], (2,5], (5,10], (10,20], (20,999]進行分組統計導演數量,可以發現,15009名導演中有79.08%只拍過1-2部作品,46220名演員中有75.93%只主演過1-2部作品。忽略那些客串、跑龍套的演員,數據總體符合二八定律,即20%的人占據了行業內的大量資源。
在此,可以通過電影得分、每部電影評論人數以及電影數目尋找優秀的電影導演與演員。這三項指標分別衡量了導演/演員的創作水平,人氣以及產能。考慮到電影數據集中可能有少量影視劇/劇場版動畫,且影視劇/劇場版動畫受眾少於電影,但得分普遍要高於電影,這里根據先根據每部電影評論數量、作品數量來篩選導演/演員,再根據電影得分進行排名,並取前30名進行作圖,可得圖17,18。
結合電影票房網( http://58921.com/ )採集到的3353條票房數據,與豆瓣數據按照電影名稱進行匹配,可以得到1995-2020年在中國大陸上映的電影信息,分別分析中國內地電影的數量、票房變化趨勢,票房與評分、評價人數、時長、地區以及類型的關系,此外還給出了不同導演與演員的票房表現以及影片票房排名。
如圖19所示,國內票房數據與上映的電影數量逐年遞增,2020年記錄的只是上半年的數據,且由於受疫情影響,票房與數量驟減。這說明在不發生重大事件的情況下,國內電影市場規模正在不斷擴大。
對電影數據根據類型進行聚合,繪制散點圖21,可以發現:
提取導演/演員姓名,對導演/演員欄位進行聚合,計算每個導演/演員的票房總和,上映電影均分、以及執導/參與電影數目進行計算,作出票房總和前30名的導演/演員,可得圖22,23,圖中導演/演員標號反映了票房排名,具體每位導演/演員的上映影片數量、均分、每部電影評價人數、平均時長與總票房在表5、表6中給出。
最後根據電影票房進行排名,得到票房排名前20的電影如表格7所示,可以看到絕大部分上榜電影都是中國電影,索引序號為3、10、12、14、18、19為美國電影,這也反映了除國產電影之外,好萊塢大片占據較大的市場。
本篇報告採集了1990-2020年間豆瓣電影29033組有效數據,從豆瓣電影的評分、時長、地區、類型、演員、導演以及票房等信息進行分析評價,主要有以下結論:
Ⅶ 一般而言,一部電影是如何評分的。
IMDB網站上公布的TOP250評分標准:
imdb
top
250用的是貝葉斯統計的演算法得出的加權分(Weighted
Rank-WR),公式如下:
weighted
rank
(WR)
=
(v
÷
(v+m))
×
R
+
(m
÷
(v+m))
×
C
其中:
R
=
average
for
the
movie
(mean)
=
(Rating)
(是用普通的方法計算出的平均分)
v
=
number
of
votes
for
the
movie
=
(votes)
(投票人數,需要注意的是,只有經常投票者才會被計算在內,這個下面詳細解釋)
m
=
minimum
votes
required
to
be
listed
in
the
top
250
(currently
1250)
(進入imdb
top
250需要的最小票數,只有三兩個人投票的電影就算得滿分也沒用的)
C
=
the
mean
vote
across
the
whole
report
(currently
6.9)
Ⅷ 電影,什麼叫IMDB評分
國外的專業的影評網
IMDb的評分包括兩個分值,一個是算術平均值(arithmetic mean),一個是中值(median)。算術平均值大概就是平均數,中值是統計學中的中間數值,該值和比它大及比它小的數值是等差的。而最後我們查到的分數卻既不是算術平均值,也不是中值。
IMDb的評分計算方法不是就做一下平均就ok了,在它的網頁上也提到了它的計算方法是保密的。不過IMDb250佳影片用的是貝葉斯定理得出的加權分(Weighted Rank-WR),公式如下:weighted rank (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
其中:
R = average for the movie (mean) = (Rating) (是用普通的方法計算出的驕�鄭?br>v = number of votes for the movie = (votes) (投票人數,需要注意的是,只有經常投票者才會被計算在內,這個下面詳細解釋)
m = minimum votes required to be listed in the top 250 (currently 1250) (進入imdb top 250需要的最小票數,只有三兩個人投票的電影就算得滿分也沒用的)
C = the mean vote across the whole report (currently 6.9) (目前所有電影的平均得分)
此外,還有一個重點,根據這個注釋:note: for this top 250, only votes from regular voters are considered.
只有'regular voters'的投票才會被計算在IMDB top 250之內,這就是IMDb防禦因為某種電影的fans拉票而影響top 250結果,把top 250盡量限制在資深影迷投票范圍內的主要方法。regular voter的標准不詳,估計至少是「投票電影超過xxx部以上」這樣的水平,搞不好還會加上投票的時間分布,為支持自己的心愛電影一天內給N百部電影投票估計也不行。
因此,細心的人可以注意到,列入IMDb top 250的電影,其主頁面上的分數與250列表中的分數是不同的。以魔戒1 為例,它在自己的頁面中的分數是8.8,而列表中是8.7。一般250表中的得分都會低於自己頁面中的得分,越是娛樂片差距越大。這大概是因為 regular voter對於電影的要求通常較高的關系。) 而IMDb的過人之處不僅僅在於這兒,它除了給出分數,還給了一個更詳細的投票人的列表
投票人的列表會根據年齡、性別、國別等不同的情況,列出了不同的分數表格。而且你點擊每個選項,都會出現一個不同的表格。這個其實是比較有用的。比如你在要選擇動畫片的時候,就應該點選一下小於18歲,或者30~44歲這個選項看看他們的評分,因為他們才是這部電影的最大觀眾群,其他人的分數都是僅供參考的。
碟報員或者我們在選擇影片的時候,可以不僅僅看個總得分,多花一點時間,看看影片各個年齡段的得分會更有幫助的。有些影片我們覺得不好看,但是分數很高,你也可以參照一下,「US users」和「non-US users」這部分的數據,如果美國投票用戶遠遠大於海外用戶,那說明此片的確是有相當深厚的美國文化底蘊的,不覺得好看也是正常。相反的,如果我們覺得不錯,但是IMDB的分數很低,這也許是老美的評分人數多,打的分低,就把總分給拉下來了。
Ⅸ 從豆瓣電影評分演算法說起
在PingWest看到一篇《豆瓣電影打分規則竟如此簡單粗暴…》,作者寫這篇文章是因為豆瓣創始人阿北最近寫了一篇博文《豆瓣電影評分八問》,阿北博文是為了回應一些外界對豆瓣電影評分的質疑,然後作者看到這篇博文後,覺得豆瓣電影的評分演算法有點low,就寫了這樣一篇吐槽文章。
那麼這個很low的演算法究竟是什麼樣子的呢?此處引用阿北原文。
簡單說就是計算每部電影評論的算數平均值,並按此值來排名。
對這個演算法持懷疑態度,因為如果按照這個演算法的話,假設一部小眾文藝片有10個用戶給了全五星,和一部經典老片比如《十二怒漢》相比,小眾文藝片排名比《十二怒漢》還要高,不過這在豆瓣電影TOP250裡面不太可能。阿北可能只是為了文章寫作方便或是保密起見,把演算法故意說簡單了,因為假如豆瓣公布了詳細的演算法,那電影發行方的水軍們十分有可能針對這個演算法制定出有效的刷分策略的。可憐我還真信了。
下面是阿北當年在知乎上的 回答 。
順著PingWest這篇文章給的鏈接,我又去阮一峰博客看了他在2012年寫的《基於用戶投票的排名演算法》系列文章,以及這些文章里的參考文章,發現排名演算法很好玩很有趣,非常有收獲,推薦閱讀。
看完這些文章,我就想知道知乎的評論排名演算法是怎麼樣的,於是去知乎找到他們產品經理 @黃濤的回答 ,知乎在2014年底更新的演算法使用的正是Reddit在2009年引入的評論排名演算法,也就是阮一峰老師在系列文章第5篇中介紹的「威爾遜區間」演算法。在用這個演算法之前,知乎用的是直接利用好評減去差評的結果來給評論排序,這種演算法的缺點我就不介紹了,可以查看參考資料[1]。
「威爾遜區間」演算法的數學基礎是數學家Edwin B. Wilson在1927年提出的威爾遜區間修正公式,後來芝加哥工程師Evan Miller在2009年寫了一篇 博客 ,認為該修正公式可以用來做排名。
這個演算法的核心思想是這樣的:
因為常見的置信區間計算公式「正態區間」不能很好的照顧小樣本數量的准確性,而威爾遜提出的修正公式能很好地修正小樣本數量的准確性問題,所以大家採用「威爾遜區間」演算法較多,像Reddit、Yelp、Digg,還有知乎。
不過這種演算法也有缺點,缺點就是對於那些得票少的新評論很難獲得出頭之日,因為得票少,置信區間就會寬,排名位置就會低,得到的關注也就會更少。
前面阿北的回答裡面提到了IMDB,IMDB是亞馬遜旗下的一個類似豆瓣的電影排名網站,他們在處理TOP250電影排名問題時採用了「貝葉斯平均」演算法來解決,這個演算法的核心思想是既然新興產品的評分數量很少,那我就為你人工補償一定的投票。關於這種演算法在阮一峰老師系列文章第6篇中有介紹。
更多參考資料: