① 數據分析平台有哪些
作為一個新興的市場領域,自助式BI的廠商眾多,不同廠商推出的自助式BI產品,在易用性、復雜性和功能上各不相同。有些產品可能主要用於簡單的儀表盤和可視化,而不能承擔更復雜的任務,如自助數據准備、數據發現或互動式可視化探索。也有類似於Smartbi的全能型BI工具,支持從多數據源整合、ETL數據處理、數據建模、數據可視化、數據分析、數據填報、移動應用的全線功能。總之,選擇適合自己的自助式BI,大幅降低商業智能的使用門檻,是企業從數據分析中獲益的最快路徑。像思邁特軟體開發的Smartbi自助分析平台,它主要圍繞業務人員提供企業級數分析工具和服務,以業務、問題為向導,讓企業里的每一個人釋放數據價值,讓大數據應用和分析走進員工和管理者工作中,激發各層人員對數據的認知、挖掘和運用;通過推動全員自助分析、數據共享,提升企業數據資產價值,促進業務發展、風險控制和內部管理,進而推動數字化轉型大數據可視化是進行各種大數據分析解決的最重要組成部分之一,通過思邁特軟體Smartbi數據加工工作都得到了極大的簡化,採用「類Excel數據透視表」的設計,多維分析不再需要建立模型,就能夠組合維度、匯總計算、切片、鑽取,洞察數據。不僅如此,任何欄位都可直接作為輸出欄位或篩選條件,輕松實現對數據的查詢與探索。② 實時票房貓眼票房是什麼
貓眼票房是由貓眼電影出品的一款統計電影票房的網站。主要為電影行業從業者提供及時、准確、專業的電影票房數據分析。其中的實時票房是在2016年推出的,其功能可以將票房數據更新頻率從30分鍾提升至秒級更新。
貓眼票房的相關數據統計功能包含了電影營銷監控系統、影院顧客畫像、秒級實時票房、影院實時票房、排片、上座率以及貓眼指數等多個內容。
③ 票房記錄怎麼看
電影的票房紀錄可以在貓眼電影的官方網站進行查看。打開其官方網站以後點擊查看更多票房紀錄,此時即可看到對應的票房紀錄信息了。具體的查看方法如下:
1、在電腦的網路上輸入貓眼,找到其官方網站以後點擊進入。
④ 貓眼票房怎麼分析
只統計已開映場次和當天未開映場次票房。根據自己平台統計加上估算其他渠道售票估算而得。
貓眼電影是美團旗下的一家集媒體內容、在線購票、用戶互動社交、電影衍生品銷售等服務的一站式電影互聯網平台。
2015年6月,貓眼電影覆蓋影院超過4000家,這些影院的票房貢獻佔比超過90%。目前,貓眼占網路購票70%的市場份額,每三張電影票就有一張出自貓眼電影,是影迷下載量較多、使用率較高的電影應用軟體。
重大事件:
2015年7月,貓眼電影獨立為美團網旗下全資子公司貓眼文化傳媒有限公司(簡稱貓眼公司)。
2015年7月13日,美團公布2015年上半年總體和各項業務數據。其中貓眼電影2015年上半年交易額達60億元,超過2014年全年,佔70%市場份額。
2015年7月9日,美團貓眼電影發布第二期大數據報告《大數據時代的電影消費洞察》。報告樣本抽取於超5億人次的貓眼電影消費數據,覆蓋影片映前映後全部用戶流程,並提供了最多的電影畫像實例解析。
2015年7月6日,電影《梔子花開》在北京舉行首映禮,貓眼電影作為《梔子花開》的聯合發行和聯合營銷方,為影片舉辦了主題為「全明星首映觀影畢業晚會」的粉絲專場觀影活動。
⑤ 這是什麼APP或者網站關於演員導演的票房
這出自貓眼專業版app.
貓眼專業版,由貓眼電影出品,為電影行業從業者提供及時、准確、專業的電影票房數據分析(秒級實時票房,排片,影院經營數據等),為影視從業者提供信息互通平台,提高影視作品製作效率(劇組成員招募,行業精英對接,找劇組、投資、導演、演員、攝影等)
主要功能:
電影營銷監控系統:電影營銷事件結合影片受眾畫像,有效量化營銷效果,准確定位影片受眾;
影院顧客畫像:依託美團點評消費大資料庫,產出行業最全的顧客與潛在顧客分析,幫助影院經理掌握顧 客是誰,顧客在哪,顧客喜歡啥;
秒級實時票房:國內秒級實時票房查詢工具,每分每秒掌握電影市場實時動態;
找合作:海量劇組入駐,與劇組真實對接,雙方直接溝通合作意向,提高影視劇製作效率,業內精英工作 檔期無縫銜接;
排片&上座率:國內最超前的排片查詢工具,提前一個月查詢熱門檔期排片,隨時掌握各影片排片場次及 佔比,上座率及場均人次;
影院實時票房:更及時,更豐富,定位到影院!幫助影院經理知己知彼,更准確的制定經營決策;
貓眼指數+票房預測:洞察電影吸金潛力,提前把握影市脈搏。
⑥ 按電影的上映日期排行的網站
http://www.imdb.cn/
IMDB全稱Internet Movie Database(互聯網電影資料庫),其前身是一個名叫「rec.arts.movies」的Usenet新聞組。當時一群熱心影迷自發地組織起來,列出影片的演職員表,並為已故影人撰寫小傳(那時稱作「死亡名單」)。
1990年10月17日,IMDB的奠基人Col Needham寫了一系列Unix程序,使得所有信息成為可搜索數據,這項至關重要的功能使新聞組上的信息變得更有用、更有意義,直到現在,強大無比的交叉搜索功能還是IMDB的天字招牌。
1993年,IMDB.com正式啟動,成為互聯網上第一個完全以電影為內容的網站。之後6年,這個網站不斷發展壯大,在美國各大校園網中出現鏡像,提交電影信息的用戶也越來越多(IMDB的寫入權力是開放的)。
1995年,隨著海量數據帶來的信息擁堵、對員工人數的進一步要求,IMDB走上另一個十字路口。Col Needham辭掉了他的正式工作,用自己的信用卡買下了第一台伺服器,並使IMDB公司化。
1998年,IMDB的信息量繼續以幾何級數增長,民間自願貢獻的伺服器空間很快耗盡,所有義務工作的編輯人員也被無窮無盡的處理工作淹沒,所幸的是,全球最大電子商務網站A鄄mazon.com的創始人傑夫·貝索斯買下了IMDB,使那些「白幹活」的義工們終於拿到了薪水。
2001年3月,IMDB啟動了幫助小演員成名的「宣傳照」服務,2002年1月,專門針對業內人士的收費網站IMDbPro.com啟動。
以下是IMDB中文網站:http://www.imdb.cn/
[註:本站IMDb.cn致力於收集全球電影中文詳細資料,
本站域名前綴IMDb全稱為Internet Movie Database,加上.cn意為網際網路電影資料庫中文網.
特此聲明:本站與美國的imdb.com無任何關系,請不要將本站與別站相混合.]
IMDB是目前全球互聯網中最大的一個電影資料庫,裡麵包括了幾乎所有的電影,以及1982年以後的電視劇集。IMDB的資料中包括了影片的眾多信息,演員,片長,內容介紹,分級,評論等,我們用的最多的也就是IMDB的得分。而IMDB的得分又是如何來的呢?它的可靠性又有多少呢?讓我們通過《魔戒1:護戒使者》來做具體分析吧,先看這張圖——
這張圖就是魔戒1的所有評分者的分數的一個條狀統計圖。
從中我們可以看到各個分數段的大致比例,比如這兒就可以發現,超過一半的人是打滿分的。
圖下面有兩個分值,一個是算術平均值(arithmetic mean),一個是中值(median)。算術平均值大概就是平均數,中值是統計學中的中間數值,該值和比它大及比它小的數值是等差的。而最後我們查到的分數卻既不是算術平均值,也不是中值。
IMDB的分數的計算方法應該不是就做一下平均就ok了,在它的網頁上也提到了它的計算方法是保密的。不過imdb top 250用的是貝葉斯統計的演算法得出的加權分(Weighted Rank-WR),公式如下:
weighted rank (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
其中:
R = average for the movie (mean) = (Rating) (是用普通的方法計算出的驕�鄭?br>v = number of votes for the movie = (votes) (投票人數,需要注意的是,只有經常投票者才會被計算在內,這個下面詳細解釋)
m = minimum votes required to be listed in the top 250 (currently 1250) (進入imdb top 250需要的最小票數,只有三兩個人投票的電影就算得滿分也沒用的)
C = the mean vote across the whole report (currently 6.9) (目前所有電影的平均得分)
另外重點來了,根據這個注釋:
note: for this top 250, only votes from regular voters are considered.
只有'regular voters'的投票才會被計算在IMDB top 250之內,這就是IMDB防禦因為某種電影的fans拉票而影響top 250結果,把top 250盡量限制在資深影迷投票范圍內的主要方法。regular voter的標准不詳,估計至少是「投票電影超過xxx部以上」這樣的水平,搞不好還會加上投票的時間分布,為支持自己的心愛電影一天內給N百部電影投票估計也不行。
因此,細心的人可以注意到,列入IMDB top 250的電影,其主頁面上的分數與250列表中的分數是不同的。以魔戒1為例,它在自己的頁面 http://www.imdb.com/title/tt0120737/ 中的分數是8.8,而列表中是8.7。一般250表中的得分都會低於自己頁面中的得分,越是娛樂片差距越大。這大概是因為regular voter對於電影的要求通常較高的關系。)
而IMDB的過人之處不僅僅在於這兒,它除了給出分數,還給了一個更詳細的投票人的列表
這個chart(圖表)根據年齡、性別、國別等不同的情況,列出了不同的分數chart。而且你點擊每個選項,上面(就是圖一)都會出現一個不同的chart。這個其實是比較有用的。比如你在要選擇動畫片的時候,就應該點選一下小於18歲,或者30-44歲這個選項看看他們的評分,因為他們才是這部電影的最大觀眾群,其他人的分數都是僅供參考的。
碟報員或者我們在選擇影片的時候,可以不僅僅看個總得分,多花一點時間,看看影片各個年齡段的得分會更有幫助的。有些影片我們覺得不好看,但是分數很高,你也可以參照一下,「us users」和「non-us users」這部分的數據,如果美國投票用戶遠遠大於海外用戶,那說明此片的確是有相當重的美國文化底蘊的,不覺得好看也是正常。相反的,如果我們覺得不錯,但是IMDB的分數很低,這也許是老美的評分人數多,打的分低,就把總分給拉下來了。
⑦ 男演員票房排名怎麼查 就是網上有圖統計的男演員票房,誰第一有多少多少之類的,他們在什麼網站查的啊
貓眼票房分析
提供准確的每日電影實時票房、排片、上座率查詢,為電影從業者提供及時、專業的數據分析服務
⑧ 貓眼實時票房排行怎麼看
可以打開貓眼實時票房頁面進行查看。進入到該頁面以後,點擊電影票房。此時即可在該界面中看到對應電影實時的票房變動數據了。
貓眼專業版是由貓眼電影開發,為電影行業從業者提供及時、准確、專業的電影票房數據分析(秒級實時票房、排片和影院經營數據等),為影視從業者提供信息互通平台,提高影視作品製作效率(劇組成員招募,行業精英對接,找劇組、投資、導演、演員、攝影等)。
主要功能
電影營銷監控系統:電影營銷事件結合影片受眾畫像,有效量化營銷效果,准確定位影片受眾;
秒級實時票房:國內秒級實時票房查詢工具,每分每秒掌握電影市場實時動態;
找合作:海量劇組入駐,與劇組真實對接,雙方直接溝通合作意向,提高影視劇製作效率,業內精英工作檔期無縫銜接;
排片&上座率:國內最超前的排片查詢工具,提前一個月查詢熱門檔期排片,隨時掌握各影片排片場次及佔比,上座率及場均人次;
影院實時票房:更及時,更豐富,定位到影院!幫助影院經理知己知彼,更准確的制定經營決策。
⑨ 數據挖掘 | 數據理解和預處理
數據挖掘 | 數據理解和預處理
小編遇到過很多人(咳咳,請不要對號入座),拿到數據後不管三七二十一,先丟到模型中去跑,管它具體什麼樣呢,反正「大數據」嘛,總能整出點東西來。
但就像上次說過的,「大數據」很有可能帶來「大錯誤」!所以在數據挖掘工作開始前,認真的理解數據、檢查數據,對數據進行預處理是至關重要的。
很多人說,數據准備工作真是個「體力活」,耗時耗力不說,還異常的枯燥無味。這點小編承認,建模之前的數據處理確實是平淡的,它往往不需要多高的智商,多牛的編程技巧,多麼高大上的統計模型。
但是,它卻能時時觸發你的興奮點,因為它需要足夠的耐心和細心,稍不留神就前功盡棄。
在這次的內容里,小編首先會從「數據理解」、「變數類型」和「質量檢查」三個方面進行闡述,然後會以一個自己做過的實際數據為例進行展示。
一、數據理解
拿到數據後要做的第一步就是理解數據。
什麼是理解數據呢?不是簡單看下有多少Excel表,有多少行,多少列,而是要結合自己的分析目標,帶著具體的業務需求去看。
首先,我們需要明確數據記錄的詳細程度,比方說某個網站的訪問量數據是以每小時為單位還是每天為單位;一份銷售數據記錄的是每家門店的銷售額還是每個地區的總銷售額。
其次,我們需要確定研究群體。研究群體的確定一定和業務目標是密切相關的。
比方說,如果我們想研究用戶對產品的滿意度與哪些因素有關,就應該把購買該產品的所有客戶作為研究群體;如果我們想研究用戶的購買行為受哪些因素影響,就應該同時考察購買人群和非購買人群,在兩類人群的對比中尋找關鍵因素。
研究群體的確定有時也和數據的詳細程度有關。
比如我們想研究「觀眾影評」對「電影票房」的影響,我們既可以把「每部電影」看成一個個體,研究「影評總數」對「電影總票房」的影響,也可以把「每部電影每天的票房」看成一個個體,研究「每天的影評數」對「每天的電影票房」的影響。
具體選擇哪一種取決於我們手上有什麼樣的數據,如果只有總票房和總影評數的數據,那我們只能選擇第一種;如果有更詳細的數據,那就可以考慮第二種方案。
需要注意的是,這兩種方案還會影響我們對於模型的選擇。
例如,如果研究「每天的影評數」對「每天電影票房」的影響,那每部電影又被細分為很多天,同一部電影不同時間的票房會有較高的相似性,這就形成了一種層次結構,可以考慮使用層次模型(hierarchical model)進行分析。
最後,當我們確定了研究目標和研究群體後,我們需要逐一理解每個變數的含義。有些變數和業務目標明顯無關,可以直接從研究中剔除。
有些變數雖然有意義,但是在全部樣本上取值都一樣,這樣的變數就是冗餘變數,也需要從研究中剔除。
還有一些變數具有重復的含義,如「省份名稱」和「省份簡稱」,這時只需要保留一個就可以了。
二、變數類型
所有變數按其測量尺度可以分成兩大類,一類是「分類變數」,一類是「數值變數」。不同類型的變數在處理方法和後期的模型選擇上會有顯著差別。
【分類變數】
分類變數又稱屬性變數或離散變數,它的取值往往用有限的幾個類別名稱就可以表示了,例如「性別」,「教育程度」,「收入水平」,「星期幾」等。細分的話,分類變數又可分為兩類,一類是「名義變數」,即各個類別間沒有順序和程度的差別,就像「手機系統」中ios和安卓並沒有明顯的好壞差別,「電影類型」中「動作片」和「科幻片」也都是一樣的,說不上哪個更好或更差。
另外一類是定序變數,即不同類別之間存在有意義的排序,如「空氣污染程度」可以用「差、良、優」來表示、「教育程度」可以用「小學、初中、高中、大學」來表示。
當研究的因變數是分類變數時,往往對應特定的分析方法,我們在後面的章節會陸續講到,這里暫且不談。
當研究中的自變數是分類變數時,也會限制模型選擇的范圍。有些數據挖掘模型可以直接處理分類自變數,如決策樹模型;但很多數據挖掘模型不能直接處理分類自變數,如線性回歸、神經網路等,因此需要將分類變數轉換成數值變數。
對於定序自變數,最常用的轉換方法就是按照類別程度將其直接轉換成數值自變數,例如將空氣污染程度 「差、良、優」轉換為「1,2,3」。
對於名義自變數,最常用的轉換方法就是構造0-1型啞變數。例如,對於「性別」,可以定義「1=男,0=女」。
當某個名義變數有K個類別取值時,則需要構造K-1個啞變數。例如教育程度「小學,初中,高中,大學及以上」,可以構造三個啞變數分別為:x1:1=小學,0=其它;x2:1=初中,0=其它;x3:1=高中,0=其它。當x1,x2,x3三個啞變數取值都為0時,則對應著「大學及以上」。
需要注意的是,有時候名義變數的取值太多,會生成太多的啞變數,這很容易造成模型的過度擬合。
這時可以考慮只把觀測比較多的幾個類別單獨拿出來,而把剩下所有的類別都歸為「其它」。
例如,中國一共包含56個民族,如果每個民族都生成一個啞變數就會有55個,這時我們可以只考慮設置「是否為漢族」這一個0-1啞變數。
【數值變數】
我們再來看看數值變數。數值變數就是用數值描述,並且可以直接進行代數運算的變數,如「銷售收入」、「固定資本」、「評論總數」、「訪問量」、「學生成績」等等都是數值變數。
需要注意的是,用數值表示的變數不一定就是數值型變數,只有在代數運算下有意義的變數才是數值型變數。
例如財務報表的年份,上市時間等,雖然也是用數值表示的,但我們通常不將它們按照數值型變數來處理。
上面我們講到,分類變數通常要轉換成數值型變數,其實有些時候,數值型變數也需要轉換成分類變數,這就用到了「數據分箱」的方法。
為什麼要進行數據分箱呢?通常有以下幾個原因:
1. 數據的測量可能存在一定誤差,沒有那麼准確,因此按照取值范圍轉換成不同類別是一個有效的平滑方法;
2.有些演算法,如決策樹模型,雖然可以處理數值型變數,但是當該變數有大量不重復的取值時,使用大於、小於、等於這些運算符時會考慮很多的情況,因此效率會很低,數據分箱的方法能很好的提高演算法效率;
3.有些模型演算法只能處理分類型自變數(如關聯規則),因此也需要將數值變數進行分箱處理。
數據分箱後,可以使用每個分箱內的均值、中位數、臨界值等作為這個類別的代表值,也可以直接將不同取值范圍定義成不同的類別,如:將污染程度劃分後定義為「低、中、高」等。
那如何進行數據分箱呢?常用的數據分箱的方法有:等寬分箱(將變數的取值范圍劃分成等寬的幾個區間)、等頻分箱(按照變數取值的分位數進行劃分)、基於k均值聚類的分箱(將所有數據進行k均值聚類,所得的不同類別即為不同的分箱),還有一些有監督分箱方法,如:使分箱後的結果達到最小熵或最小描述長度等。這里不詳細介紹了,有興趣的童鞋可以自行網路。
三、質量檢查
對數據中的各個變數有了初步了解後,我們還需要對數據進行嚴格的質量檢查,如果數據質量不過關,還需要進行數據的清洗或修補工作。
一般來說,質量檢查包括檢查每個變數的缺失程度以及取值范圍的合理性。
【缺失檢查】
原始數據中經常會存在各種各樣的缺失現象。
有些指標的缺失是合理的,例如顧客只有使用過某個產品才能對這個產品的滿意度進行評價,一筆貸款的抵押物中只有存在房地產,才會記錄相應的房地產的價值情況等。
像這種允許缺失的變數是最難搞的,因為我們很難判斷它的缺失是合理的,還是由於漏報造成的。
但無論哪種情況,如果變數的缺失率過高,都會影響數據的整體質量,因為數據所反映的信息實在太少,很難從中挖掘到有用的東西。
對於不允許缺失的變數來說,如果存在缺失情況,就必須進行相應的處理。如果一個變數的缺失程度非常大,比方說達到了70%,那就考慮直接踢掉吧,估計沒救了。
如果缺失比例還可以接受的話,可以嘗試用缺失值插補的方法進行補救。
插補的目的是使插補值能最大可能的接近其真實的取值,所以如果可以從其他途徑得到變數的真實值,那一定優先選擇這種方法。
比如某個公司的財務信息中缺失了「最終控制人類型」和「是否國家控股」這兩個取值,這些可以通過網上的公開信息得到真實值;再比如缺失了「凈利潤率」這個指標的取值,但是卻有「凈利潤」和「總收入」的取值,那就可以通過變數間的關系得到相應的缺失值,即凈利潤率=凈利潤/總收入。
當然,更多的時候,我們無法得到缺失值的真實信息,這時就只能借用已有的數據來進行插補了。
對數值變數來說,可以用已觀測值的均值、中位數來插補缺失值;對分類型變數來說,可以用已觀測數據中出現比例最高的類別取值來進行插補。
這些方法操作起來非常簡單,但它們都是對所有缺失值賦予了相同的取值,所以當缺失比例較大時,可能會扭曲被插補變數與其餘變數的關系。
更復雜一點的,我們可以選擇模型插補方法,即針對被插補變數和其它自變數之間的關系建立統計模型(如回歸、決策樹等),將模型預測值作為插補值。
如何處理缺失值是一個很大的研究課題,我們這里只是介紹了最簡單可行的方法,有興趣的讀者可以參閱Little和Rubin 2002年的專著「Statistical Analysis with Missing Data」。
【變數取值合理性檢查】
除了缺失外,我們還要考察每個變數的取值合理性。每個變數都會有自己的取值范圍,比如「用戶訪問量」、「下載次數」一定是非負的,「投資收益率」一定在0~1之間。通過判斷變數的取值是否超出它應有的取值范圍,可以簡單的對異常值進行甄別。
除了根據變數的取值范圍來檢查變數質量外,還可以根據變數之間的相互關系進行判斷。例如一家公司的「凈利潤率」不應該大於「總利潤率」等。
只有通過了各個方面檢測的數據才是一份高質量的數據,才有可能帶來有價值的模型結果。
四、實例分析——電影票房分析
最後,我們給出一個實例分析。在這個例子中,我們的目標是研究電影哪些方面的特徵對電影票房有影響。
我們有兩方面的數據,一是描述電影特徵的數據,二是描述電影票房的數據。
由於我們關注的是北美的票房市場,所以描述電影特徵的數據可以從IMDB網站得到,它是一個關於演員、電影、電視節目、電視明星和電影製作的在線資料庫,裡面可以找到每部上映電影的眾多信息;電影每天的票房數據可以從美國權威的票房網站Box Office Mojo得到,上面記錄了每部電影上映期間內每天的票房數據。
我們將從IMDB得到的數據放到「movieinfor.csv」文件中,將從Box Office Mojo中得到的數據放到「boxoffice.csv」文件中。
這里,我們以2012年北美票房市場最高的前100部電影為例進行講解。下表給出了這兩個數據集中包含的所有變數以及相應的解釋。
在這兩個數據中,movieinfor.csv數據的記錄是精確到每部電影的,而boxoffice.csv數據精確到了每部電影中每天的票房數據,是精確到天的。上表中給出的變數中,除了電影名稱和ID外,「電影類型」「MPAA評級」(美國電影協會對電影的評級)和「星期幾」是分類型變數;「放映時長」、「製作預算」、「電影每天的票房」和「每天放映的影院數」是數值型變數。兩份數據都不存在缺失值。
我們首先對兩個數據集分別進行變數預處理,然後再根據電影ID將兩個數據整合到一起。下面給出了每個變數的處理方法:
【電影類型】
電影類型是一個分類變數。在這個變數中我們發現每部電影都不止一個類型,例如「The Dark Knight Rises」這部電影就有「Action」、「Crime」和「Thriller」三個類型,並且它們以「|」為分隔符寫在了一起。
同時,不同電影之間可能有相同的類型,也可能有不同的類型,例如票房排名第二的電影「Skyfall」,它的類型是「Action |Adventure |Thriller」。
因此,我們首先需要做的是把每部電影所屬的類型逐一取出來,然後將所有出現過的類型分別形成一個0-1啞變數,如果這部電影在某個類型上出現了,則相應變數的取值就是1,否則是0.
通過上面一步,我們知道這個數據集中出現過的所有電影類型一共有11個。
那是不是按照之前所講的,應該把它轉換為10個啞變數呢?這里需要注意的是,所有的電影類型之間並不是互斥的(即有了action,就不能有其他的類型),所以我們無需因為共線性的原因去掉其中一個。
也就是說,如果把每一個電影類型單獨作為一個獨立的變數,可以衍生出11個新的0-1變數,這完全沒有問題。但11個變數未免有點過多,所以我們根據不同電影類型的頻數分布情況,只把出現次數明顯較多的類型單獨拿出來,最終生成了6個0-1型變數,分別為Adventure,Fantasy,Comedy,Action,Animation,Others。
【MPAA評級】
對於這個分類型變數,我們首先可以看一下數據中它所包含的全部取值,發現一共有「PG」,「PG-13」和「R」三個。
和上面的電影類型(Genre)不同,對於一部電影而言,它只能有一個MPAA取值。因此,在MPAA變數中,我們需要選擇一個作為基準,將另外兩個構造成啞變數。
例如,我們以「PG」為基準,構造的兩個啞變數分別為PG13和R,如果這兩個啞變數的取值同時為0,那就相當於電影的MPAA評級是PG。
【放映當天是星期幾】
這個變數同MPAA評級一樣,每部電影只能有一個取值。
如果它在星期一到星期日上都有取值的話,我們可以衍生出6個0-1型啞變數。
因為這里我們更關注周末和非周末對電影票房的影響,而並不關注具體是哪一天,所以我們將其進一步概括成一個變數,即「是否是周末」。
【放映時長和製作預算】
放映時長和製作預算這兩個變數都是取值大於0的數值型變數,我們可以分別檢查它們的取值是否在合理的范圍內,然後直接保留它們的數值信息。
同時,對「製作預算」而言,假設我們這里關心的不是製作預算的具體數值,而是「小成本電影」和「大成本電影」的票房差異,那我們就可以將這個數值型變數進行分箱處理,轉換為一個0-1型的分類變數,即 「是否為小成本電影」。
在決定按照什麼標准來劃分是否為小成本電影時,我們根據之前文獻里的研究結果,將製作預算在100 million以下的電影看成是小成本電影。
上述所有變數的處理過程都可以使用R中最基本的語句(table,rep,which等)完成,由於篇幅限制,小編這里就不列出詳細的code了,大家感興趣的話,可以閱讀狗熊會的「R語千尋」系列(戳這里),相信會在R語言的學習上受到更多啟發。
最後,我們將所有新生成的變數按照電影ID整合到一起,就大功告成啦。
五、總結
最後總結一下,小編在這次內容中向大家介紹了拿到數據後的數據理解和預處理工作,內容雖然不難,但同樣需要我們認真對待。就好像生活一樣,只有踏踏實實走好前面的路,才有可能迎接後面的高潮迭起!
⑩ 大數據分析平台哪家好
以下為大家介紹幾個代表性數據分析平台:
1、 Cloudera
Cloudera提供一個可擴展、靈活、集成的平台,可用來方便的管理您的企業中快速增長的多種多樣的數據,從而部署和管理Hadoop和相關項目、操作和分析您的數據以及保護數據的安全。Cloudera Manager是一個復雜的應用程序,用於部署、管理、監控CDH部署並診斷問題,Cloudera Manager提供Admin Console,這是一種基於Web的用戶界面,是您的企業數據管理簡單而直接,它還包括Cloudera Manager API,可用來獲取集群運行狀況信息和度量以及配置Cloudera Manager。
2、 星環Transwarp
基於hadoop生態系統的大數據平台公司,國內唯一入選過Gartner魔力象限的大數據平台公司,對hadoop不穩定的部分進行了優化,功能上進行了細化,為企業提供hadoop大數據引擎及資料庫工具。
3、 阿里數加
阿里雲發布的一站式大數據平台,覆蓋了企業數倉、商業智能、機器學習、數據可視化等領域,可以提供數據採集、數據深度融合、計算和挖掘服務,將計算的幾個通過可視化工具進行個性化的數據分析和展現,圖形展示和客戶感知良好,但是需要捆綁阿里雲才能使用,部分體驗功能一般,需要有一定的知識基礎。maxcompute(原名ODPS)是數加底層的計算引擎,有兩個維度可以看這個計算引擎的性能,一個是6小時處理100PB的數據,相當於1億部高清電影,另外一個是單集群規模過萬台,並支持多集群聯合計算。
4、 華為FusionInsight
基於Apache進行功能增強的企業級大數據存儲、查詢和分析的統一平台。完全開放的大數據平台,可運行在開放的x86架構伺服器上,它以海量數據處理引擎和實時數據處理引擎為核心,針對金融、運營商等數據密集型行業的運行維護、應用開發等需求,打造了敏捷、智慧、可信的平台軟體。
5、網易猛獁
網易猛獁大數據平台使一站式的大數據應用開發和數據管理平台,包括大數據開發套件和hadoop發行版兩部分。大數據開發套件主要包含數據開發、任務運維、自助分析、數據管理、項目管理及多租戶管理等。大數據開發套件將數據開發、數據分析、數據ETL等數據科學工作通過工作流的方式有效地串聯起來,提高了數據開發工程師和數據分析工程師的工作效率。Hadoop發行版涵蓋了網易大數據所有底層平台組件,包括自研組件、基於開源改造的組件。豐富而全面的組件,提供完善的平台能力,使其能輕易地構建不同領域的解決方案,滿足不同類型的業務需求。
6.知於大數據分析平台
知於平台的定位與當今流行的平台定位不一樣,它針對的主要是中小型企業,為中小型企業提供大數據解決方案。現階段,平台主打的產品是輿情系統、文章傳播分析與網站排名監測,每個服務的價格單次在50元左右,性價比極高。