⑴ 毒舌電影為什麼好看
毒舌電影之所以好看,是因為毒舌電影的犀利點評。毒舌電影對電影的點評特別犀利,特別淋漓盡致,在毒舌電影的帶領下,現在很多人都開始吐槽電影中的爛片了,毒舌電影個人沒怎麼覺得特別好看
⑵ 簡書用戶畫像 之 如何挖掘用戶的電影喜好
我在 《爬取百萬頁面 分析用戶畫像》 中分析了用戶的書籍喜好,這里繼續嘗試通過影評文章的抓取、內容清洗、影評句子提取,建立機器學習情緒預測模型,挖掘分析用戶對流行電影的喜好。
涉及的NLP(自然語言處理)知識點:
涉及的ML(機器學習)知識點:
電影的拍攝成本高、票價也不低,消費者投入的關注度和觀看成本高(最終的投入成本是包括注意力投入、金錢投入、時間投入和感情投入)。
簡單算下觀看一部電影的成本(步驟):先看下預告內容,做下同期上映電影的比較,覺得導演、演員陣容都不錯,下定決心要看了,跟男/女友/老婆 /老公/基友/閨密做推薦,推薦成功後去選座買票,觀影當天說不定還得先吃個飯,飯後乖乖的在影院呆上90分鍾(關鍵時刻還得憋尿),觀影結束後指不定還得來個夜宵、開個房間探討下人生什麼的。。。
讀一本書的成本(步驟):1.打開書/電子閱讀器/手機;2. 讀!
這樣對比看一部電影比讀一本書的投入成本高多了!
因此觀眾給出的反饋自然也比書籍會強烈一些,特別是滿懷期待看完卻發現是一部爛片,有種上當受騙的感覺。
因此對電影光是通過詞頻作為喜好度是不夠的,用戶可能反復的在罵呢。
所以需要引入多一個分析的因子:情緒。用戶提及某個電影時的情緒是怎麼樣的,是積極愉悅、還是負面憤怒,加上這個才能有效判定用戶對電影或者某個事物的喜好。
在豆瓣上,用戶的評分就是最直接的情緒數值:5力薦,4推薦,3還行,2較差,1很差。
但在這類寫作平台上,發布文章時是沒有一個選項來填寫分數,也沒提供選擇心情的選項。
「所言即其所思」,這是普遍人性。每個用戶寫下的文字表達想法,在字里行間都會不經意的使用一些情緒用詞來表達,這些便是我可以獲取的「原始數據」。
精準推薦!用戶談論得多的東西未必是TA所喜愛的,也許是TA痛恨的(比如說前任)。如果用戶在自己大力差評某部電影的文章底部看到另一部相似爛片的推薦,推薦文案還寫著「親,我猜你還喜歡看這些」,估計這用戶會有種吃了蒼蠅剛吐出來發現迎面又飛來幾只的感覺。
通過用戶在討論某事物時上下文的情緒分析,來判斷對該事物的喜惡,將預測結果加入對事物的打分計算中,最後得出一個可量化、可計算的分數值,便是一個精準推薦系統的需要解決的問題。
理論上只需要一句話:要識別出文章中提及的電影,以及作者對該電影的評論,是好評還是差評,作為文章作者對該電影的喜惡,並根據評論的情緒強烈程度轉化為喜惡程度即可。
那實際上,就要解決以下問題:
下面逐一細說。
我採集了上幾個比較受歡迎的電影專題以及一個大V帳號文章(數據截止至採集數據時):
但由於對專題頁面加了訪問限制,每個專題只能訪問到最新的200個列表頁面,因而每個專題可獲取2~3000篇文章,以此作為抽樣數據樣本。
要分析對電影的評價,首先就要獲取到文章中提到電影名稱有哪些,最簡單的匹配規則便是提取書名號 《》 內的內容。
而實際獲取到的電影名稱真可謂「臟亂差」,有電影名、書籍名、文章名等,有些電影名稱會用縮寫引用(如《變1》、《復聯》、《生化危機4/5/6》),或者中英文混合在一起(如《機器人總動員(wall-e)》),甚至還有錯漏別字(如《那些年,我們一起追過的女孩》,多了個「過」字),以及包含中英文特殊標點空白符號等,例如:
因此需要進行一輪「數據大清洗」,我使用如下清洗策略:
其中「電影專用詞典」,是通過採集了 「貓眼 影片總票房排行榜」 2000~2017年間上榜的所有電影,約有3000+部,如圖:
再根據文章中所收集到的電影名稱的候選文本,抓取「豆瓣網」的官方電影名字(遭遇了豆瓣業內聞名的反爬策略就不多說了),合並去重後約有8400多部。看一眼才發現好多電影連聽都沒聽過,有些電影名稱還挺有趣,以後有時間還可以做下電影名稱的分析。
為了解決錯別字,我通過文本相似性演算法,在電影專用詞典里找出與之最相似名稱。
知名的相似演算法有不少,如:
經過簡單比較,我選擇了其中表現最好的 jaro_winkler_distance
運用到文章內容上,可得到相似電影名稱,感覺效果還可以:
構建一個Pipeline用於提取頁面中電影名稱,對單個頁面測試效果如下:
運用到所有頁面上:
至此完成了電影名稱的提取、清洗,得出每篇文章提及的電影名稱,如圖:
判斷一篇文章的情緒,最簡單的做法是通過提取所有情緒詞來統計下詞頻及其權重可得到一個粗糙的結果,但這樣的結果對「影評」類文章不是很准確。
根據觀察,一篇電影評論文章中,往往會有大段的電影情節描述,然後夾雜一兩句評論。而有些電影本身劇情就是比較負面、陰暗的(如災難片類的),但影片本身質量很高(如《釜山行》,豆瓣評分8.2),如果文章內容包含大量的劇情描述,那麼得到關鍵詞會偏向於負面情緒,並不能用於表達出作者對電影的喜好情緒。
因此我使用了這樣的提取策略:
評論句子提取的結果示例如下:
這樣的策略對有些內容不是很適用,例如這樣的標題:《同樣是豆瓣9.2分,它或許比《摔跤吧!爸爸》更深》,這是典型的「借勢營銷」型文案,文章內容中推介的是另外一部韓國電影《熔爐》,而時下《摔跤吧!爸爸》正熱,標題中帶上這個會更吸引用戶點擊。
另外一個思路是對文章進行摘要提取,然後對摘要進行情緒識別。而對於文章的主題提取,可以使用在ML演算法中的用於解決 主題模型 問題的演算法(如LDA),但不確定是否適合影評這種混合了大量劇情描述的文章內容。
得到相關評論文本後,便可對文本進行分詞及情緒識別,這里有兩種做法,一是使用帶有情緒情感度的專業詞典,配合專有演算法;另外一種是使用機器學習演算法。
一開始我使用了大連理工大學的《大連理工情感詞彙本體庫》,是目前最權威的中文情緒詞典,共含有情感詞共計27466個,包含了詞語的詞性種類、情感類別、情感強度及極性等信息,例如:
中文情感詞彙本體的情感分類體系是在國外比較有影響的Ekman的6大類情感分類體系的基礎上構建的。在Ekman的基礎上,詞彙本體加入情感類別「好」對褒義情感進行了更細致的劃分。最終詞彙本體中的情感共分為7大類21小類,如圖:
把情感詞典加入分詞詞典,對候選每個句子進行分詞,得出情感片語,並累加每個情感詞的強度值作為句子的情感值。
但經過測試後,發現預測效果並不理想,究其原因發現是情感詞典中命中的詞語太少,在句子中得不到相關詞語,也就無法判斷情感極性和強度。
使用情感詞典的測試結果:
而專業詞典的擴展需要專業領域知識,擴展起來很困難,我目前沒找到更新的專業詞典,國內這塊的資料相當匱乏,而國外有個知名的SentiWordNet庫,中文NLP研究的難度系數可想而知。
鑒於情感詞典的資源限制,決定嘗試使用機器學習來對文本做正、負面情緒預測。
1). 構建分詞詞典:
分詞需要構建專用領域的詞典,這樣得到的分詞結果才會更精確。
因為只需要有正負情感類別、不需要有情感強度及極性等信息,我使用了網路上公開的一些情感詞典,:
合並、清洗和去重後,最終構建出了 14000+ 個詞的積極情緒詞典, 18000+ 個詞的消極情緒詞典。
積極詞典:
消極詞典:
2). 准備訓練語料
從網上搜集到幾個帶有積極、消極的標注的評論語料數據集,分別包含了書籍、DVD、音樂、購物領域的各有4000條評論,如下圖:
可惜沒找到中文影評相關的語料,但找到 國外英文的影評語料 ,對,英文資料很豐富。。。
3). 訓練模型
由於是文本型特徵,分類演算法上選擇了 樸素貝葉斯 ,把數據分為2份,一半訓練,另一半做測試。
使用 jieba 分詞工具,對文本進行分詞得到候選片語,把得到的片語作為特徵輸入來訓練情緒預測模型。
訓練後的模型測試結果如下:
訓練後的模型在書籍、音樂、影碟及購物評論的語料上都有不錯的效果。
在提取出的影評短句上測試:
又是「無聊」、「又俗又傻」而一個「但」字就反轉了情緒,真是難為分類器了:
經過反復對比實驗,發現語料的質量決定了模型的精度,而語料的擴展對比擴展專業詞典卻容易多了。例如幾年前都沒有「 因吹斯汀 」這些網路流行詞,更不知道它代表是正面情緒,以後只要不斷更新相關領域的語料庫來重新訓練則可得到更精確的模型。
俗話說「是騾子是馬拉出來遛遛」。
得到一個預測情緒的模型後,便可對影評文章進行預測,但預測的結果是否准確?准確率又有多高?這又是個問題。
每當事情陷入停滯,我就會想起日本漫畫大師安達充說過「當故事情節發展不下去的時候,加入一個新角色,是最簡單的做法」。
這時需要祭出一個「旁證」了。這所謂的「旁證」,也就是目前大家比較認可的電影評分網站——豆瓣網。
大家都知道豆瓣網上的電影用戶通過打星(5力薦,4推薦,3還行,2較差,1很差),轉換得出的10分制的評分,我們可簡單把1 4.9分視作負面評價、5 10分視作正面評價,沒有分數的視作中性評價。再把豆瓣的評價結果視作大部分人認同的結果,當然這樣肯定是有偏差的。
大膽假設,小心求證,先試試看吧。
根據電影名詞典再次去抓取豆瓣網上的電影信息,這次包含了電影分數::
使用獲取到的電影專題『電影院』文章內容測試,結果如下:
1048篇中,豆瓣評分結果與模型預測符合的有974篇,准確率是92.9%,WOW!真的這么准嗎?
看下詳細結果,豆瓣評分是正面的有1022條,預測對了973篇,例如:
而豆瓣評分是負面的有28條記錄,而模型只預測出1篇是負面的:
真的是模型預測錯了嗎?
從負面例子中抽樣看看模型分解的結果:
評論《麻煩家族》(豆瓣評分4.8)的:
從自動摘要出來的句子來看,實際上文章作者表現出正面情緒,模型預測為正面,預測正確 😊。
再看評論同一部電影的另外一個文章的評論:
作者顯然是給了個差評,但模型給了出的預測是正面,預測錯誤 😞。
負例的預測准確率低,有兩個原因,一個是豆瓣評分正負標準的閥值設定不夠精準,二是訓練數據不平衡。
之前使用的閥值策略是:「簡單把1 4分視作負面評價、5 10分視作正面評價,沒有分數的視作中性評價」。
我猜測在4~5分這個區間應該是灰度地帶,正負面評論都會有。為了驗證這個猜想,使用獲取到的所有豆瓣電影分數,導入數據分析工具中,排除掉沒有分數的條目後得到6500+條電影數據,其中最低是2.1,最高是9.7。
查看評分分布的直方圖與比例餅圖:
調整區間閥值,把 2.1-4.9 劃分為一個區間,系統自動分成了3組分值:
發現5分以下電影僅佔12%。
從評分分布結果看,在上大部分人寫文章是針對高分(好評)電影為主,低分(差評)電影的文章數量很少,從提取出來的數據量看,兩者比率約為100:3。
訓練數據不平衡導致正例過擬合,而負例欠擬合。
要解決數據不平衡問題,可以重新采樣訓練集。有兩種方法使不平衡的數據集來建立一個平衡的數據集——欠采樣和過采樣,解釋如下:
由於訓練數據不多,我使用了 過采樣 中的自舉方案。我將另外一個的電影專題『影視天堂』中模型預測結果與豆瓣評分結果一致的內容作為訓練數據集來強化訓練模型:
然後再對電影專題『電影院』測試一次:
負例的准確率改善了一些些,這說明效果是有的,以後只需繼續獲取到新的數據再「喂」給模型,模型預測結果會越來越精準。
至此,得到一個不算成熟的電影情緒預測模型,可以用來做一些有趣的統計分析了。
將『影視天堂』專題的分析結果在數據分析工具上進行數據可視化展示,得到一個「長尾圖」:
從報表中可得到這些信息:
注1:嚴格來說《歡樂頌》不是電影而是電視劇作品,在用豆瓣網的數據構建電影詞典時我沒有做嚴格區分
注2:專題的數據獲取是在5月份完成的,以及專題的最新收錄文章有訪問限制,無法獲取到舊的文章,因此得到的當時熱門影視作品的影評,從而呈現出信息跟當時熱播作品比較相關
再對先前獲取到的 1萬個用戶的近60萬篇文章內容 ,運行相應的Pipeline進行電影情緒數據的提取。
可視化數據後得到圖表:
現在可以看看,上用戶給予好評的電影有哪些,使用「詞雲圖」展示如下:
用戶給予差評的電影有哪些:
現在也可以精準了解每一個用戶的電影口味了,以 『毒舌電影 - 』 為例子:
注3:本文發表時上「毒舌電影」經歷過被封事件後已改名為「Sir電影」;專題「影視天堂」已改名為「電影」
以後做電影個性化推薦可就不要推薦錯了 😉。
⑶ 電影毒舌的介紹
電影毒舌是一個專門評論影片的專業微博,評論語言犀利、精準。影片、導演、演員、製片等,無不是他狂噴的對象,此微博始終堅持一個口號:只對好電影負責,乾死一切爛片和裝孫子的電影人。
⑷ 於正訴「毒舌電影」侵權案勝訴,案件的始末有何細節
於正是有真本事的,我很佩服!雖然有抄襲行為,但是他對劇本把握是很有一套的,他自己深諳觀眾心理,什麼類型,什麼題材怎麼製作,它都有一套!而且他大部分劇本還是原創的。他有一雙善於發掘娛樂圈新人的火眼金睛,捧紅了一眾新人,卻在捧紅他們之後經常鬧得不歡而散。說實話,如果只是一個人和他鬧僵還好,可是那麼多和他合作的人。
於正本身就是一個很有爭議的人,他自己曾說過一句話我就是一個編故事的說書人。去年熱門電視劇《延禧攻略》將這部電視劇的製作人於正又重新帶回了公眾的視野中。於正本事是有點的,美人心計和宮都看得出來會抓小姑娘觀眾心裡,美輪美奐的場景衣物。但是近來江郎才盡,人品劇差。我是從延禧知道於正因為是老人看電視少,上網少延禧不錯。是一個有想發為自己事業努力的人。
⑸ 毒舌電影的變化
如下:
2014年11月毒舌電影的微信公眾號開始獨立運營,僅半年就達成50w粉絲,2015年6月,毒舌電影擁有了自己的品牌,但是2017年,毒舌電影微信公眾號遭到封禁。入駐抖音是2019年8月正式入駐的。
⑹ 《毒舌》電影為什麼不侵權
毒舌電影本身已經付了版權費,片方找毒舌電影合作,雙方互惠互利。毒舌電影解說幫電影宣傳,擴大影響力,毒舌電影也可獲得作品資源。
毒舌的信息
毒舌,是一種人物性格及其說法方式,也是ACGN次文化中的萌屬性之一,源自日語毒舌,用於指對他人說話時具有,諷刺性的一種人物性格或具有該性格的人物,現代的引申義的毒舌一詞則是隨著ACGN次文化的傳播,從日語中引進而來並流傳使用。
日語原意中毒舌單指的是毒舌這種行為,而具有該行為屬性的角色稱作毒舌家,中文引用過來之後,還通常以毒舌一詞表述一種性格屬性,或者代指有毒舌屬性的角色,或者將毒舌作為定語而誕生衍生詞語,如毒舌毒舌評委等。
毒舌的含義並不同於一般,意義上的說臟話爆粗口語言侮辱等,毒舌的直接效果是挑他人的缺點進行中傷或者打擊他人的自信心,在相當多的情況下,毒舌行為可以看作是一種特殊的、過火的吐槽。
⑺ 抖音影視解說「毒舌電影」3個月暴漲2000萬粉絲,這個大號有多猛
這個大號特別猛,粉絲特別多,而且播放量也特別多,特別受歡迎。
⑻ 毒舌電影詳細資料大全
毒舌電影的產品形態是一個微信公眾號,內容以提供電影評論和推薦為主,創始人團隊來自於網易、《東方早報》《看電影》等媒體,負責選片的人員曾是參與過金馬獎評審和上海電影節評審的專家。
2017年6月8日 ,毒舌電影微信公眾帳號被封。
賬號被封17天之後,又注冊「sir電影」和「毒sir放映室」微信公眾號,目前正常運營。