① 电影票房分析及预测
从20世纪初的西洋镜戏法到今天占据全球电影业总产值的三分之一强,资本的加入让好莱坞在过去百年的发展中变得越来越理智--比起商业片流水线缔造者,它更像一个数学家--它精于计算每一项决定对利润的贡献:《蝙蝠侠》续集是否要接受男演员片酬的狮子大开口以获得百分之几的忠实粉丝买票入场;是否要在动作片的第37分钟增加感情戏以争取女性观众;是否要为这部烂透了的原著聘请收费高昂的剧本医生;一个小金人编剧的名头到底值多少钱……这就是在电影开机之前最为重要的环节:票房预测。
华尔街不仅给好莱坞带来了密集的资金支持,也带来了理性的金融工程技术,后者好像一把衡量艺术的尺子。一位浸淫于电影行业的金融人士一语中的:"在这个行业里充斥着暧昧不清、晦暗不明,有真正的艺术家、也有忽悠的吹水者,但到底怎么判断是否能合作,项目是否有投资价值,全凭经验"。
如何预测
早在80年代,美国票房收入预测的先驱BarryLitman对美国80年代近700部电影进行分析推出票房收入预测模型。该系统对之后美国电影投资界产生了颠覆性的影响。电影票房预测系统能分析预测不同种类电影的票房价值,已经成为国际电影产业投融资的重要参考工具,对电影产品定价及衍生产品开发都具有较强的指导作用。
预测系统
电影票房量化分析及预测系统(Box Revenue Prediction)是在考察导演、主要演员、制片、发行及市场营销、电影生命周期、电影类型、发行地区等影响电影票房的诸多因素基础上,基于资产定价模型,综合采用金融工程和回归统计分析方法研发出的预测系统。它能分析预测不同种类电影的票房价值,成为电影产业投融资重要参考工具,对电影产品定价及衍生产品开发都具有较强的指导作用。
中国第一套BRP系统
2012年1月,中影集团联合艾亿新融资本推出了国内第一套基于电影票房预测的估值与定价分析系统--BRP系统。通过对过去4年中600多部影片的统计分析,该BRP系统发现了6条有趣的现象:
·低成本的影片一般会比大片更卖座
·无名小卒主演的影片要比明星主演的影片利润率更高
·类型的艺术特征跟利润之间不存在直接关联,但评论的多寡(无论好评或者劣评)跟利润之间有密切关系
·不含暴力、色情成分的家庭影片最容易赚钱
·大片的续集要比普通新片更容易赚钱
·明星在为影片带来更高票房的同时,也往往拉低了利润率,因为大部分收入进了明星的口袋
② 数据挖掘 | 数据理解和预处理
数据挖掘 | 数据理解和预处理
小编遇到过很多人(咳咳,请不要对号入座),拿到数据后不管三七二十一,先丢到模型中去跑,管它具体什么样呢,反正“大数据”嘛,总能整出点东西来。
但就像上次说过的,“大数据”很有可能带来“大错误”!所以在数据挖掘工作开始前,认真的理解数据、检查数据,对数据进行预处理是至关重要的。
很多人说,数据准备工作真是个“体力活”,耗时耗力不说,还异常的枯燥无味。这点小编承认,建模之前的数据处理确实是平淡的,它往往不需要多高的智商,多牛的编程技巧,多么高大上的统计模型。
但是,它却能时时触发你的兴奋点,因为它需要足够的耐心和细心,稍不留神就前功尽弃。
在这次的内容里,小编首先会从“数据理解”、“变量类型”和“质量检查”三个方面进行阐述,然后会以一个自己做过的实际数据为例进行展示。
一、数据理解
拿到数据后要做的第一步就是理解数据。
什么是理解数据呢?不是简单看下有多少Excel表,有多少行,多少列,而是要结合自己的分析目标,带着具体的业务需求去看。
首先,我们需要明确数据记录的详细程度,比方说某个网站的访问量数据是以每小时为单位还是每天为单位;一份销售数据记录的是每家门店的销售额还是每个地区的总销售额。
其次,我们需要确定研究群体。研究群体的确定一定和业务目标是密切相关的。
比方说,如果我们想研究用户对产品的满意度与哪些因素有关,就应该把购买该产品的所有客户作为研究群体;如果我们想研究用户的购买行为受哪些因素影响,就应该同时考察购买人群和非购买人群,在两类人群的对比中寻找关键因素。
研究群体的确定有时也和数据的详细程度有关。
比如我们想研究“观众影评”对“电影票房”的影响,我们既可以把“每部电影”看成一个个体,研究“影评总数”对“电影总票房”的影响,也可以把“每部电影每天的票房”看成一个个体,研究“每天的影评数”对“每天的电影票房”的影响。
具体选择哪一种取决于我们手上有什么样的数据,如果只有总票房和总影评数的数据,那我们只能选择第一种;如果有更详细的数据,那就可以考虑第二种方案。
需要注意的是,这两种方案还会影响我们对于模型的选择。
例如,如果研究“每天的影评数”对“每天电影票房”的影响,那每部电影又被细分为很多天,同一部电影不同时间的票房会有较高的相似性,这就形成了一种层次结构,可以考虑使用层次模型(hierarchical model)进行分析。
最后,当我们确定了研究目标和研究群体后,我们需要逐一理解每个变量的含义。有些变量和业务目标明显无关,可以直接从研究中剔除。
有些变量虽然有意义,但是在全部样本上取值都一样,这样的变量就是冗余变量,也需要从研究中剔除。
还有一些变量具有重复的含义,如“省份名称”和“省份简称”,这时只需要保留一个就可以了。
二、变量类型
所有变量按其测量尺度可以分成两大类,一类是“分类变量”,一类是“数值变量”。不同类型的变量在处理方法和后期的模型选择上会有显著差别。
【分类变量】
分类变量又称属性变量或离散变量,它的取值往往用有限的几个类别名称就可以表示了,例如“性别”,“教育程度”,“收入水平”,“星期几”等。细分的话,分类变量又可分为两类,一类是“名义变量”,即各个类别间没有顺序和程度的差别,就像“手机系统”中ios和安卓并没有明显的好坏差别,“电影类型”中“动作片”和“科幻片”也都是一样的,说不上哪个更好或更差。
另外一类是定序变量,即不同类别之间存在有意义的排序,如“空气污染程度”可以用“差、良、优”来表示、“教育程度”可以用“小学、初中、高中、大学”来表示。
当研究的因变量是分类变量时,往往对应特定的分析方法,我们在后面的章节会陆续讲到,这里暂且不谈。
当研究中的自变量是分类变量时,也会限制模型选择的范围。有些数据挖掘模型可以直接处理分类自变量,如决策树模型;但很多数据挖掘模型不能直接处理分类自变量,如线性回归、神经网络等,因此需要将分类变量转换成数值变量。
对于定序自变量,最常用的转换方法就是按照类别程度将其直接转换成数值自变量,例如将空气污染程度 “差、良、优”转换为“1,2,3”。
对于名义自变量,最常用的转换方法就是构造0-1型哑变量。例如,对于“性别”,可以定义“1=男,0=女”。
当某个名义变量有K个类别取值时,则需要构造K-1个哑变量。例如教育程度“小学,初中,高中,大学及以上”,可以构造三个哑变量分别为:x1:1=小学,0=其它;x2:1=初中,0=其它;x3:1=高中,0=其它。当x1,x2,x3三个哑变量取值都为0时,则对应着“大学及以上”。
需要注意的是,有时候名义变量的取值太多,会生成太多的哑变量,这很容易造成模型的过度拟合。
这时可以考虑只把观测比较多的几个类别单独拿出来,而把剩下所有的类别都归为“其它”。
例如,中国一共包含56个民族,如果每个民族都生成一个哑变量就会有55个,这时我们可以只考虑设置“是否为汉族”这一个0-1哑变量。
【数值变量】
我们再来看看数值变量。数值变量就是用数值描述,并且可以直接进行代数运算的变量,如“销售收入”、“固定资本”、“评论总数”、“访问量”、“学生成绩”等等都是数值变量。
需要注意的是,用数值表示的变量不一定就是数值型变量,只有在代数运算下有意义的变量才是数值型变量。
例如财务报表的年份,上市时间等,虽然也是用数值表示的,但我们通常不将它们按照数值型变量来处理。
上面我们讲到,分类变量通常要转换成数值型变量,其实有些时候,数值型变量也需要转换成分类变量,这就用到了“数据分箱”的方法。
为什么要进行数据分箱呢?通常有以下几个原因:
1. 数据的测量可能存在一定误差,没有那么准确,因此按照取值范围转换成不同类别是一个有效的平滑方法;
2.有些算法,如决策树模型,虽然可以处理数值型变量,但是当该变量有大量不重复的取值时,使用大于、小于、等于这些运算符时会考虑很多的情况,因此效率会很低,数据分箱的方法能很好的提高算法效率;
3.有些模型算法只能处理分类型自变量(如关联规则),因此也需要将数值变量进行分箱处理。
数据分箱后,可以使用每个分箱内的均值、中位数、临界值等作为这个类别的代表值,也可以直接将不同取值范围定义成不同的类别,如:将污染程度划分后定义为“低、中、高”等。
那如何进行数据分箱呢?常用的数据分箱的方法有:等宽分箱(将变量的取值范围划分成等宽的几个区间)、等频分箱(按照变量取值的分位数进行划分)、基于k均值聚类的分箱(将所有数据进行k均值聚类,所得的不同类别即为不同的分箱),还有一些有监督分箱方法,如:使分箱后的结果达到最小熵或最小描述长度等。这里不详细介绍了,有兴趣的童鞋可以自行网络。
三、质量检查
对数据中的各个变量有了初步了解后,我们还需要对数据进行严格的质量检查,如果数据质量不过关,还需要进行数据的清洗或修补工作。
一般来说,质量检查包括检查每个变量的缺失程度以及取值范围的合理性。
【缺失检查】
原始数据中经常会存在各种各样的缺失现象。
有些指标的缺失是合理的,例如顾客只有使用过某个产品才能对这个产品的满意度进行评价,一笔贷款的抵押物中只有存在房地产,才会记录相应的房地产的价值情况等。
像这种允许缺失的变量是最难搞的,因为我们很难判断它的缺失是合理的,还是由于漏报造成的。
但无论哪种情况,如果变量的缺失率过高,都会影响数据的整体质量,因为数据所反映的信息实在太少,很难从中挖掘到有用的东西。
对于不允许缺失的变量来说,如果存在缺失情况,就必须进行相应的处理。如果一个变量的缺失程度非常大,比方说达到了70%,那就考虑直接踢掉吧,估计没救了。
如果缺失比例还可以接受的话,可以尝试用缺失值插补的方法进行补救。
插补的目的是使插补值能最大可能的接近其真实的取值,所以如果可以从其他途径得到变量的真实值,那一定优先选择这种方法。
比如某个公司的财务信息中缺失了“最终控制人类型”和“是否国家控股”这两个取值,这些可以通过网上的公开信息得到真实值;再比如缺失了“净利润率”这个指标的取值,但是却有“净利润”和“总收入”的取值,那就可以通过变量间的关系得到相应的缺失值,即净利润率=净利润/总收入。
当然,更多的时候,我们无法得到缺失值的真实信息,这时就只能借用已有的数据来进行插补了。
对数值变量来说,可以用已观测值的均值、中位数来插补缺失值;对分类型变量来说,可以用已观测数据中出现比例最高的类别取值来进行插补。
这些方法操作起来非常简单,但它们都是对所有缺失值赋予了相同的取值,所以当缺失比例较大时,可能会扭曲被插补变量与其余变量的关系。
更复杂一点的,我们可以选择模型插补方法,即针对被插补变量和其它自变量之间的关系建立统计模型(如回归、决策树等),将模型预测值作为插补值。
如何处理缺失值是一个很大的研究课题,我们这里只是介绍了最简单可行的方法,有兴趣的读者可以参阅Little和Rubin 2002年的专著“Statistical Analysis with Missing Data”。
【变量取值合理性检查】
除了缺失外,我们还要考察每个变量的取值合理性。每个变量都会有自己的取值范围,比如“用户访问量”、“下载次数”一定是非负的,“投资收益率”一定在0~1之间。通过判断变量的取值是否超出它应有的取值范围,可以简单的对异常值进行甄别。
除了根据变量的取值范围来检查变量质量外,还可以根据变量之间的相互关系进行判断。例如一家公司的“净利润率”不应该大于“总利润率”等。
只有通过了各个方面检测的数据才是一份高质量的数据,才有可能带来有价值的模型结果。
四、实例分析——电影票房分析
最后,我们给出一个实例分析。在这个例子中,我们的目标是研究电影哪些方面的特征对电影票房有影响。
我们有两方面的数据,一是描述电影特征的数据,二是描述电影票房的数据。
由于我们关注的是北美的票房市场,所以描述电影特征的数据可以从IMDB网站得到,它是一个关于演员、电影、电视节目、电视明星和电影制作的在线数据库,里面可以找到每部上映电影的众多信息;电影每天的票房数据可以从美国权威的票房网站Box Office Mojo得到,上面记录了每部电影上映期间内每天的票房数据。
我们将从IMDB得到的数据放到“movieinfor.csv”文件中,将从Box Office Mojo中得到的数据放到“boxoffice.csv”文件中。
这里,我们以2012年北美票房市场最高的前100部电影为例进行讲解。下表给出了这两个数据集中包含的所有变量以及相应的解释。
在这两个数据中,movieinfor.csv数据的记录是精确到每部电影的,而boxoffice.csv数据精确到了每部电影中每天的票房数据,是精确到天的。上表中给出的变量中,除了电影名称和ID外,“电影类型”“MPAA评级”(美国电影协会对电影的评级)和“星期几”是分类型变量;“放映时长”、“制作预算”、“电影每天的票房”和“每天放映的影院数”是数值型变量。两份数据都不存在缺失值。
我们首先对两个数据集分别进行变量预处理,然后再根据电影ID将两个数据整合到一起。下面给出了每个变量的处理方法:
【电影类型】
电影类型是一个分类变量。在这个变量中我们发现每部电影都不止一个类型,例如“The Dark Knight Rises”这部电影就有“Action”、“Crime”和“Thriller”三个类型,并且它们以“|”为分隔符写在了一起。
同时,不同电影之间可能有相同的类型,也可能有不同的类型,例如票房排名第二的电影“Skyfall”,它的类型是“Action |Adventure |Thriller”。
因此,我们首先需要做的是把每部电影所属的类型逐一取出来,然后将所有出现过的类型分别形成一个0-1哑变量,如果这部电影在某个类型上出现了,则相应变量的取值就是1,否则是0.
通过上面一步,我们知道这个数据集中出现过的所有电影类型一共有11个。
那是不是按照之前所讲的,应该把它转换为10个哑变量呢?这里需要注意的是,所有的电影类型之间并不是互斥的(即有了action,就不能有其他的类型),所以我们无需因为共线性的原因去掉其中一个。
也就是说,如果把每一个电影类型单独作为一个独立的变量,可以衍生出11个新的0-1变量,这完全没有问题。但11个变量未免有点过多,所以我们根据不同电影类型的频数分布情况,只把出现次数明显较多的类型单独拿出来,最终生成了6个0-1型变量,分别为Adventure,Fantasy,Comedy,Action,Animation,Others。
【MPAA评级】
对于这个分类型变量,我们首先可以看一下数据中它所包含的全部取值,发现一共有“PG”,“PG-13”和“R”三个。
和上面的电影类型(Genre)不同,对于一部电影而言,它只能有一个MPAA取值。因此,在MPAA变量中,我们需要选择一个作为基准,将另外两个构造成哑变量。
例如,我们以“PG”为基准,构造的两个哑变量分别为PG13和R,如果这两个哑变量的取值同时为0,那就相当于电影的MPAA评级是PG。
【放映当天是星期几】
这个变量同MPAA评级一样,每部电影只能有一个取值。
如果它在星期一到星期日上都有取值的话,我们可以衍生出6个0-1型哑变量。
因为这里我们更关注周末和非周末对电影票房的影响,而并不关注具体是哪一天,所以我们将其进一步概括成一个变量,即“是否是周末”。
【放映时长和制作预算】
放映时长和制作预算这两个变量都是取值大于0的数值型变量,我们可以分别检查它们的取值是否在合理的范围内,然后直接保留它们的数值信息。
同时,对“制作预算”而言,假设我们这里关心的不是制作预算的具体数值,而是“小成本电影”和“大成本电影”的票房差异,那我们就可以将这个数值型变量进行分箱处理,转换为一个0-1型的分类变量,即 “是否为小成本电影”。
在决定按照什么标准来划分是否为小成本电影时,我们根据之前文献里的研究结果,将制作预算在100 million以下的电影看成是小成本电影。
上述所有变量的处理过程都可以使用R中最基本的语句(table,rep,which等)完成,由于篇幅限制,小编这里就不列出详细的code了,大家感兴趣的话,可以阅读狗熊会的“R语千寻”系列(戳这里),相信会在R语言的学习上受到更多启发。
最后,我们将所有新生成的变量按照电影ID整合到一起,就大功告成啦。
五、总结
最后总结一下,小编在这次内容中向大家介绍了拿到数据后的数据理解和预处理工作,内容虽然不难,但同样需要我们认真对待。就好像生活一样,只有踏踏实实走好前面的路,才有可能迎接后面的高潮迭起!
③ ERP系统优点有那些
ERP系统优点:1、 同时适用于离散型(ASSY)、连续型(Process)、混合型(Mix)等制造业生产型态2、 可同时应用于接单生产(Make to Order)、计划性生产(Make to Stock)、来料加工(Consign Material)等营业型态之制造业3、 全球唯一具备动态式物料控管技术(Dynamic MRP2)与高速神经网络技术(Q.R.M.)实作之制造信息管理系统之顾问公司4、 唯一具备快速减肥健身BPR(Bussiness Process Reengineering)企业流程再造技术之信息顾问公司5、 可同步应用物控七大手法MRP2、Forecast、JIT、Dyanmic SCM、Reorder Point FCST、P/O Benk、Turnover、Others6、 提供生管大排程、小排程、在线实时排程等生产管制(CRP)之APS先进规划与排程7、 (Advanced Planning and Scheling),接受实体(Physical)数据和虚拟(Phanton)数据进行供需变更之灵活性模拟8、 具备六大账册自动登录并能相互稽核的ERP整合系统9、 具备完善之整合式后勤(Integrate Logistics)功能-整合内外, 以缩短订购周期减少营运开销10、 (Advanced Planning and Scheling),接受实体(Physical)数据和虚拟(Phanton)数据进行供需变更之灵活性模拟11、提供全球唯一快速应变客户订单变更、计划变更、产品设计变更的异常处理技术, 十分钟内完成各部门应变处理作业12、提供自动立体仓储(AS/RS)与ERP无缝接口之实时协同运作13、提供现场监控(MES/MCS,Manufacturing Executive System/Manufacturing Control System)系统和各种Barcode条形码系统与ERP无缝接口之实时协同运作14、 唯一具备内崁式电子文件签核管理的ERP, 并可直接在线批示, 避免外挂WorkFlow造成重复登打单据数据15、具备崁入式之客户关系管理(CRM,Customer Relationship Management)和产品研发管理(PDM,Proct Data Management)与ERP之实时协同运作16、 整合进出口关税合同核销与保税管理17、具备六大账册自动登录并能相互稽核的ERP整合系统18、完善整合与产生两岸三地关系人交易与相关帐务; 具备EDI与EC国际化电子数据交换之成熟功能19、具备国际集团/国内集团运筹管理、财务汇总(合并报表)、资金调度之功能20、提供高阶主管信息系统EIS(Exccutive Information Systems)做经营分析、决策支持DSS(Decision Support Systems)、KPI绩效管制之图形化视觉管理功能(BI)21、提供Virtual Factory(虚拟工厂)的信息通透技术, 让客户、业务与生管之间的沟通、咨询、管理获得彻底的疏解22、将ERP、APS、EDI、PDM、MES、MCS、SCM、CRM、EC、EIS、DSS、BI与Intranet/Extranet等以系统崁入式或ERP无缝接口之实时协同运作, 完整建构出电子商务(e-Bussiness)与虚拟企业整合(VEI,Virtual Enterprise Integation)之全球运筹竞争系统23、强大人事管理模块,提供客户全面的人事管理。24、料品单位可以灵活多样。一般系统提供的是两个单位,即:交易单位和库存单位;IEERP除了这两个单位外,还可以根据客户需要,对料品使用更多的单位进行管理,比如酱油,有瓶、箱、袋,还有散装的:斤、公斤等等!(对同一料品由于包装方式的不同引发的多单位进行自动换算灵活处理)25、BOM产品结构中有并产料号功能,针对于投入相同原料产出多种完成品产业,可大量减少BOM数量和工令单数量,提高管理和工作效率,并可核算各相应完成品的成本。26、针对各不同BOM可设置相应的损耗率,BOM用量更准确成本更准确。27、库存管理采用条码系统。库存管理更准确效率更高(系统能在一般A4普通上印出条形码进行扫描,无须使用专门的条形码标签纸,节约N多成本)。28、订单管理具有附加件功能,更灵活实现各客户不同需求,并减少料号和BOM的数量,便于管理和提高作业效率。29、项目帐 所有材料、成品、半成品、在产品及有关销货成本、销货收入所涉及的每一个料品的每一笔进出明细帐均自动形成,进出口费用也由USER设定相关分摊方式进行电脑自动分摊,(无须手工KEY入),所有帐册完整准确显示。30、生产管理。生产管理可以管理到每一加工步骤,反映每一步的加工进度,便于更详细掌握生产进度。31、途程外包功能,减少料号和BOM,并便于管理和提高效率。32、生产排程管理。据客户订单交期自动排程,能针对工厂多变的行事历、产能异常、标准工时的不准确等,做相应生产计划的自动调整,并能以生产计划为依据来安排物料采购及入料计划。提供查核延误交期的工单和订单明细,调整产能后,可在进行排程重排。自动排程效率高、反应快,解决企业手工或半自动排程因企业内部和外部环境的多变造成的困扰。33、物料管制管理,能做到核算企业长期、中期、短期的物料需求计划,使企业掌握长期、中期、短期的物料需求计划,更好的做好物料控制提高资金利用率、减少呆滞料和资金占用。34、工令单备料状况仿真。对待生产工令单物料状况做仿真,减少停工待料现象的发生,有不足料时及时转催料单。35、订单/计划订单变更备料仿真,对相应变化做差异比较,并产生相应的变更,提高变更的快速反应和处理能力,以提高企业竟争力。36、提供采购厂外代验功能,减少出入库作业,并准确快速的处理相应物流和帐流。37、提供外包厂外代验功能,减少出入库作业,并准确快速的处理相应物流和帐流。38、成本准确快速。根据进销存、生产前端资料快速准确核算产品的成本,让成本人员更多时间做成本分析工作,以便做成本的改善和控制。39、成本可做到依事业部别切相应销货成本,以达到核算事业部损益。40、财务部份满足本地化需求,会计科目、会计报表、帐册、会计凭证等符合大陆要求,可快速申请脱离手工帐。41、会计科目中设置’立冲要件’功能,可减少会计科目的数目,又可达到多种多样的核算要求。42、人事薪资可自动核算三险一金,并可做到薪资核算依计时或计件来做工资核算。43、疋数明细。对于电线电缆,纺织等行业中涉及同一料品不同的轴数及疋数明细,电脑自动记录出入帐,且能在出货时依照出货总数进行电脑自动择轴(疋)数进行汇总出货,无须人工进行自动加总出货。44、变动特性。可以管理具有多种特性的材料,从而减少材料的编号,系统还可以自动为多种特性的材料自动编号。45、基于Internet平台的解决方案,有助于用户跨地区访问系统。46、应用服务器与数据库服务器分离,提高数据的安全性。47、各模块可以灵活组合,客户可以根据自身需要,任意挑选其中的模组。48、具有集团性公司所需的财务会计总帐汇总系统。49、每月可通过回转分录作业自动计算进料的暂估料款和应收/应付/票据/外币存款和现金的汇兑损益,并自动切出相应的会计分录。50、各模块以流程图作导向,可以全面快速了解各模块流程。51、每一维护子画面有详细的帮助说明文件,包括字段说明、前置作业、作业注意事项等。
④ 什么是神经网络
神经网络可以指向两种,一个是生物神经网络,一个是人工神经网络。
生物神经网络:一般指生物的大脑神经元,细胞,触点等组成的网络,用于产生生物的意识,帮助生物进行思考和行动。
人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
人工神经网络:是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在工程与学术界也常直接简称为“神经网络”或类神经网络。
⑤ 新媒体时代电影产业发展呈现出哪些新趋势
一、改变电影理论和形态的新媒体电影
新媒体电影首先必须满足“电影”的基本条件:作品无论从内容形式还是观众角度都被认为是电影。这条标准将互联网之上无数随机的和零碎的小视频排除开来,但是电影和非电影之间的区分没有那么简单。关于什么是电影,电影理论史上主要有自然实用主义(巴赞、克拉考尔)和艺术纯粹主义(爱因汉姆、爱森斯坦)两种倾向:前一种主张电影是人类通过胶片完成对自然再现的冲动,后一种认为电影具有独立于其他艺术门类的纯粹艺术性①,后续还包括麦茨的以镜头为单位的无代码语言,斯坦利·卡维尔的“连续自动的世界影像”说等②。以上这两种主要的电影理论都试图解释什么是电影或者说电影与其他艺术的差异性。然而我们也必须意识到,这些从本体上对电影进行的形而上思考无论多么哲学化,“什么是电影”的理论根基依然是电影艺术本身所寓居的媒介。当电影摆脱银幕、胶片的束缚,进入数字化和网络化之后,关于“什么是电影”的思考必然会发生变化。所以,媒介刺激下生成的新媒体电影(比如优酷出品的“11度青春电影行动”《老男孩》等),必然具有与传统电影不同的内涵和气质。因而,新媒体电影不一定必须符合传统电影理论之中的“电影”概念才能被视为电影艺术。比如早期翻拍、篡改型的新媒体电影《一个馒头引发的血案》、《网络惊魂》等,完全是以对传统电影的解构为基础的。由此,我们可以看到电影的内涵正在被新媒体电影实践拓宽。
与此同时,新媒体电影与传统电影,从生产到传播、到批评和理论建构展现出巨大的差异。第一,互动性是新媒体电影的首要特征。网络本身所具有的互动机制,使得新媒体电影从构思到筹备,再到剧本、演员,最后到剪辑等环节都可以吸取大量受众的意见。人的天性之中就具有对对象的一种控制欲,因而互动性将电影的可控感上升到电影历史的新高度。比如,国际高端家电品牌卡萨帝(Casarte)的新媒体电影《独家》,其结构不是线性的,而是开放式的。其最为典型的互动性就是观众可以左右整部电影的剧情,最后呈现出开放式的主题和五种不同的结局选择。同时,整个新媒体电影演进过程之中会有暗藏的二维码以供观众扫描,从而体验更多精彩的互动。第二,新媒体电影寄寓的媒介是互联网。首先,互联网络所具有的去中心化特质使得新媒体电影界呈现出众声喧哗的草根性。自媒体、新媒体的发展使得人们对电影的追求不再受限于传统意义上的电影体制,普通人甚至可以根据自己的需求拍摄新媒体电影。这带来一个疑问:人人都可以拍电影的话,如此的新媒体电影还是电影或者好电影吗?我们承认人人参与之后,电影作品之中肯定会出现参差不齐的情况,但是网络就是一个大浪淘沙的过程,优秀的作品是不会被网络遗忘的,相反会成为新媒体电影的一根一根标杆,激励后来者继续创新。其次,互联网观影不可能具有大场景、大制作、IMAX影院、逼真特效等等优势,但是影院型电影由于过于关注电影技术给人带来的那种冲击性、刺激感和亦真亦幻的效果,反而对电影题材选择、故事情节演进和电影本身深度缺乏重视。在这种情况下,新媒体电影寻求不同于大场景、大投资电影的路线,将重心放在怎样讲好故事上。网络居民不可能有耐心将时间花在一部情节毫无吸引力的新媒体电影上而忽略网络上海量的电影资源。这使得新媒体电影在讲好故事和故事创新上都有更高的要求。再次,新媒体电影潜在观众大。新媒体电影通过网络进行视频传播,其受众是广大网民。根据2014年发布的第33次《中国互联网络发展状况统计报告》称,截止2013年12月,我国网民规模达到6.18亿,网络视频用户规模达4.28亿,较上年底增加5637万人,增长率为15.2%。网络视频使用率为69.3%,与上年底相比增长3.4个百分点③。作为网络视频之中优质视频的新媒体电影,它必然会随着视频用户激增的速度和规模而显示出与传统电影分庭抗礼的力量。
从上面新媒体电影呈现出来的几个特征(去中心化、受众巨大、互动性强)之中,我们可以发现新媒体电影已经彻底打破了传统以导演为主导的电影制作模式。传统电影制作过程中,从剧情发展、拍摄进度、场景选取、演员选用、镜头取舍、段落安排,后期的剪辑、配音、效果等环节,一切都由导演决定。新媒体电影选择以网络为平台,集合广大网民的力量及意愿,比如“选拔网络自荐的新锐导演;审核通过网络征集的电影剧本并进行专业筛选、加工制作;对投资拍摄的剧组进行统筹监控,尽量避免资金浪费;对遍布全国的新媒体电影生产基地进行管理,以确保新媒体电影的生产量”④。因此,在新媒体电影之中,内容的生产者和消费者呈现合一的趋势,即作者与读者逐渐混融的状态。这种特征我们称之为新媒体电影元素的网络混融阶段。这一混融趋势在大数据时代更是得到了进一步强化。
二、大数据时代对于新媒体电影意味着混融状态
大数据作为网络理论和实践的新范式是近几年才兴起的,之后迅速在管理、传播、政治、商业和金融等领域兴盛。大数据的含义就是通过各种新媒体对使用媒体的用户所产生的信息进行数据最大化收集、整理、分析,从而预测未来的发展趋势。它具有四个特点:巨大的数据量和数据完整性,能在看似毫不相关的数据之间找到内在关联,即时满足需求和寻找出数据背后的价值。最典型的是2013年风靡全球的美剧《纸牌屋》充分实现了大数据在艺术实践之中的巨大价值。它完全绕开了广播电视网和有线电视网所构成的传统电视生态系统,选择在Netflix视频网站播放,用户只需要通过个人电脑或者移动终端登录即可播放。Netflix采用了真正的大数据分析——3000万用户的收视选择、400万条评论、300万次主题搜索。同时,所有通过Netflix观看《纸牌屋》的观众会在观看过程之中产生无数的连观众自己都没有意识到的数据(包括观看连续剧时暂停、回放、快进、停止等动作都会被一一记录下来,每天用户在Netflix上将产生高达3000多万个行为)。这些数据通过网站后台被迅速分析,从而让电视剧制作商做出相应的对策。该剧在拍摄过程之中,真正实践了大数据精神,无论是剧情设置还是选择演员、导演阵容,都以用户在网站上的行为和使用数据做支撑。“Netflix尚且可以利用大数据分析巨量用户的需求,不仅是谁喜欢看什么节目,更精确到用户行为:什么人喜欢在星期天晚上用平板设备看恐怖片;哪些人会打开视频就直接跳过片头;看到哪个演员出场会快进;看到什么剧情会重放,《纸牌屋》的商业奇迹正是通过云计算精确整理重点关联数据而造就的”⑤。从《纸牌屋》的运作可以看出,在大数据分析时代,艺术作品的作者和受众形成了巨大而紧密的关联性。在这种关联性之中“作者—受众”的关系分为两层:一层是新媒体的即时互动性带来的受众对作者的即时反馈信息,使得作者可以即时调整创作的路线;另一层是作为消费者的信息生产,也即阿尔文·托夫勒在《财富的革命》之中提到的“生产者即消费者”⑥。阅读时,受众在电脑或阅读器上产生的大数据通过网络被收集汇总到存储器,通过大数据分析,提炼出多少受众观看到哪个地方放弃了观影,哪些观众对哪些人物角色感兴趣,观看时嵌入哪些相关图片或者视频更有助于电影的接受等。
大数据时代造就的新媒体电影的“作者—受众”混融具有与网络时代新媒体电影中创作者和观众混融不一样的内涵。新媒体艺术家阿斯科特认为,网络造就了空前规模的集体智能,一种集体认知的全球网络,从而产生了“超思想”、”超精神作用”、“智力网络”等。在这一过程中,个人的神经网络融合于全球网络以创造意识的新空间⑦。就好比大海之中的小鱼和合而成的鱼阵一样,并没有任何一只凌驾在所有鱼之上的领袖指挥它们,它们只是自发组合排列形成比海里最大的鱼还大的巨型“大鱼”。这条“大鱼”具有整体生命,无数个体小鱼已经成为大鱼的组成细胞。新媒体电影也一样,参与电影活动的无数创作者、观众、中间人围绕着一部电影,他们通过大数据参与到整个电影的创作当中。相对于电影,这些参与者,全都成为了像“大鱼”一样的“作者”。
大数据的“大”体现在“全数据”模式之上,即我们分析的不是样本数据,而是所有数据⑧。人类步入信息时代,人类的网络行为所产生的所有数据都可以被存储、交换和分析使用,并且这些数据量之大,令人不可思议。2013年中国产生的数据总量超过0.8ZB(相当于8亿TB),两倍于2012年的数据量,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍,超过8.5ZB⑨。那么,这样大规模的数据对于生根于互联网的新媒体电影又意味着什么呢?
新媒体电影是以个人电脑和移动终端及连接它们的网络设备作为承载的。新媒体背后有大量数据库随时更新电影生产和消费的各种数据,包括新媒体电影的宣传数据,电影观众观看的时间,观众的性别、族裔、年龄、群体、受教育程度,新媒体电影的交易量,电影播放到哪里丢失的读者最多,哪些电影部分会被反复观看等等。数据来源可以多样化,不同渠道的数据甚至可以互相参照。“第一是搜索平台,如网络、谷歌、搜狗;第二是社交平台,如微博、人人网、豆瓣、时光网;第三是电商平台,如网票网、美团网、淘宝网等;第四是视频网站,如优酷、土豆、爱奇艺、乐视网等。像网络指数、新浪微指数、淘数据、优酷指数等,都是由上述平台提供数据服务的。此外,国家电影专项资金办公室拥有全国的影院票房数据,并通过《中国电影报》等平台向社会公布”⑩。与此同时,数据平台也需要庞大的数据作为支撑。由于新媒体电影的开放性和资源共享性,使得新媒体电影创作和观看数量巨大,从而产生的数据也是前所未有的。大数据的关键作用还在于对未来进行预测。全数据对于大数据分析来说就是“正在发生的未来”。通过对电影本身、观看和批评、媒体、电影宣传等相关数据的搜集,寻找观众兴趣点,预测哪种审美趣味的电影会在什么样的人群中受欢迎,人群的性别、消费力、居住区域、阶层、年龄段分布等等。利用数据作为分析受众的依据之后,创作者不需要挖空心思去想为什么自己的电影不受欢迎,只需要通过网站浏览记录数据分析观众最喜欢看什么样的电影就可以了。在大数据挖掘过程之中,单个数据可以作为垃圾被忽略,因为数据精准度是样本化统计时代所追求的目标——一个信息缺乏的时代,“收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性”(11)。随着数据的大幅增加,为了了解大致发展趋势而放弃精确性,可以接受适量错误。就像医用灯,从一个角度打的光,不管亮度多高,仍然有暗区。而大数据的多维度属性就像无影灯,从各个角度照射,就算其中一盏灯亮度不强,也不影响总体效果。在这个意义上大数据更加追求数据完整性和混杂性。
⑥ 电影票房预测系统的BRP(电影票房量化分析系统)的三大特点
BRP系统每周总票房的范围预测法通过自适应分类,可根据电影知识库中各周电影票房分布进行票房等级分类,使每周预测的票房范围更为精确,缩小预测范围。同时,其最终估值范围通过波动性提示并衡量了相关风险的存在。这对于投资制片方进行有针对性的风险度量、风险管理及防范都具有重要意义。由于电影产业影响票房业绩的变量众多,蕴含复杂的系统及非系统风险,BRP系统能将之定量化并确定总体风险收益规模,无论对于即期电影发行,还是后续衍生开发,都具有重要的指导性。
⑦ 那些92年的“中年人”和80后“空巢老人”都喜欢看什么电视剧
4月17日,在经历了白百合事件之后,《外科风云》按期在北京卫视和浙江卫视黄金档首播了,并没有受到影响调档或下架。同一天首播的还有鹿晗和古力娜扎主演的古装玄幻剧《择天记》。
一部现实主义都市剧,一部玄幻题材古装剧,一部实力演员担纲,一部新生代偶像挑大梁,同天上映的两部电视剧,不管在收视率、主演还是题材上,都被许多媒体拿来做比较。
《择天记》首播当天收视破1,这样的成绩在湖南卫视的次黄档还是不错的,但《外科风云》成绩却不尽人意。百晓生认为两剧的收视率是没有可比性的,两剧的播出时段不同,《外科风云》是顶着超级爆款《人民的名义》的巨大压力,在黄金时段播出。《人民的名义》收视率势不可挡地一路飙升突破,4月18日单集收视破5,该剧所在档期也被称为“死亡档期”,《白鹿原》都“为取得更好的播出效果”而“择机播出”了,《外科风云》在这个时间播出,收视率必定受到影响。
(数据来源:小土科技影视大数据量化分析系统)
抛开“出轨事件”主角白百合不说,老干部靳东和小鲜肉鹿晗可以说是这两部剧的流量担当了,再加上都市、古装这两大热门类型和剧集所表达的思想内核,两部剧都得到了观众的肯定。现实主义题材的都市剧无论在数量还是收视率上一直以来都是国产电视剧最大的热门,近几年市场上涌现出了多部优秀的作品,像《欢乐颂》《小别离》《好先生》《中国式关系》等,贴近生活反应现实的情节故事使观众产生强烈共鸣。相比之下,玄幻题材多改编自小说、游戏等,剧集本身就自带一批活跃于网络文学的年轻粉丝,加之题材本身天马行空的故事和年轻偶像的演绎,更加吸引了年轻受众。
如今的电视剧市场,得年轻人者得天下,年轻人也是视频网站的主要受众,那么将年轻人曾经热爱的网络文学搬到台前,应该也是大受欢迎的,这也是近几年玄幻题材火热的原因之一。
2011年-2017年都市、玄幻题材电视剧走势
(数据来源:小土科技影视大数据量化分析系统)
当下,在很多制作公司都开始把目光放在讨好00后群体时,那么已经被联合国定义为中年人的90后和更多自嘲为80后空巢老人们的观众群们更关注哪些题材呢?
他们是站在年轻的尾巴上,还是已经而立老成了呢?
有人说,玄幻就是当代年轻人的“现实主义”,那么80、90后对玄幻题材和现实主义接受度如何呢?
都市、玄幻题材电视剧受众年龄分布
(数据来源:小土科技影视大数据量化分析系统)
从两题材的受众年龄分布来看,25-34岁受众的占比分别为都市题材21.43%,玄幻题材21.81%,并没有明显的差距。这是不是说明,题材对80后、90后受众的收视选择影响并不大呢?
我们从两类题材中分别选取一部具有代表性的电视剧,对其受众的年龄、性别、收入、学历进行比较。现实主义以正在热播的《人民的名义》为例,玄幻题材则选择了《三生三世十里桃花》。
《人民的名义》与《三生三世十里桃花》受众分析
(数据来源:小土科技影视大数据量化分析系统)
从受众统计数据中看出,两剧的观众分布基本一致,只在性别分布上有明显差异,《三生三世》讲述了青丘帝姬白浅和九重天太子夜华经历三段爱恨纠葛终成眷属的绝美仙恋故事,因而更受女性观众青睐。而且两部剧在微博上的话题讨论量也十分接近。
电视剧所面对的年轻观众,是一个热爱并活跃于社交媒体,时刻关注热点话题和社会问题的群体,他们对电视剧的选择,不再是没有想法照单全收,也不会整日沉迷于不真实的世界来逃避现实。80后 90后都开始更加关注社会的种种现象和问题,并且对现实生活有着自己的憧憬和思考。对于玄幻题材的喜爱,反应了他们对理想生活、命运、爱情的美好憧憬和向往,就像许多女性观众在看《三生三世》的时候,对白浅和夜华的爱情故事产生了共鸣,他们或许未婚,或许结婚,但这并不影响他们对美好事物的向往。
而《人民的名义》这种主旋律电视剧受到年轻人甚至是青少年的推崇,既是个意外,又折射出当下年轻人对社会现象和问题的关注。甚至连主演张丰毅都表示,对于很多90后的观众竟然也喜欢这部剧表示很惊讶!
剧中宣扬的爱憎分明、嫉恶如仇的正能量以及其关注现实、直截了当的剧情,恰恰与当代年轻人的气质与观念不谋而合。而达康书记系列表情包的蹿红和弹幕的火爆,正说明了这个角色形象在年轻人当中的受欢迎程度。表情包和弹幕已经成为时下年轻人表达体系非常重要的一部分,一言不合就扔达康书记表情包,又见吴刚的演技炸裂。
所以可见,这种现实主义题材在80、90后群体中的接受度非常之高。
结语:
当电视剧制作方和播出平台都已经开始准备讨好00后的时候,80后和90后无论从思想、审美标准还是接受能力上,都已经相对成熟,这个群体正在成为既年轻又成熟的观众。曾经被无数次断言垮掉的一代们,逐渐撕掉了外界贴在他们身上“肤浅”“堕落”“没有追求”的标签,如今都有着自己独特的思考角度和审美标准。他们希望看到的不仅是具备讨论热度的电视剧,也希望看到深度接近现实的题材。
小土科技凭借资深的行业背景,多年积累的历史数据,经验丰富的技术团队, 精心研发面向影视文化产业的云服务平台,为各环节提供了专业的大数据解决方案,包括剧本/成片评估、收视预测、制片管理、数据分析等。 作为国内领先的影视行业大数据服务商,小土科技正逐步搭建涵盖电视平台, 广告投放,电影票房,完片担保,融资信用评价等业务合作框架,推动科技,文化,金融产业融合,实现价值创新。
关注微博 @小土数据
关注微信:影视百晓生
⑧ 请告诉我ERP系统的相关知识
ERP,是“企业资源计划”的英文缩写
至于说ERP系统的操作,没法回答,因为这是一种系统的类型,市面上有很多公司的品牌,主要说国内的吧,有用友、金蝶、路路通等,各家的软件都不相同,所以没法讲解操作问题。
ERP相关知识涉及也非常广,包括设计开发、实施应用,相关管理等等,相关知识写成书可以用一家书店来装,你的问题太泛,所以也没法具体讲,只能是你有个具体问题大家来帮忙解答
适用范围就很广了,基本上360行行行都能用,只要企业稍微有点规模。举个例子,路路通的生产通在陶瓷行业,能帮助解决陶瓷的生产一系列流程问题,工资核算、业务规范等,这个讲起来也是很费劲,我举个具体细节例子吧。例如企业使用了我们路路通的生产通平台,老板可以即时查看公司整体的业务进展,厂房主管可以直接在系统上查看库存和订单情况好根据情况下布产单,避免过多库存,而业务员也能查看相关数据来决定是否有足够库存和生产能力来接下客户的订单。
好了,就说这么多吧,应该可以让你有个大概的认识了,有了一些基本认识之后,下次就懂得如何根据具体问题来具体提问了。
⑨ 猫眼实时票房排行怎么看
可以打开猫眼实时票房页面进行查看。进入到该页面以后,点击电影票房。此时即可在该界面中看到对应电影实时的票房变动数据了。
猫眼专业版是由猫眼电影开发,为电影行业从业者提供及时、准确、专业的电影票房数据分析(秒级实时票房、排片和影院经营数据等),为影视从业者提供信息互通平台,提高影视作品制作效率(剧组成员招募,行业精英对接,找剧组、投资、导演、演员、摄影等)。
主要功能
电影营销监控系统:电影营销事件结合影片受众画像,有效量化营销效果,准确定位影片受众;
秒级实时票房:国内秒级实时票房查询工具,每分每秒掌握电影市场实时动态;
找合作:海量剧组入驻,与剧组真实对接,双方直接沟通合作意向,提高影视剧制作效率,业内精英工作档期无缝衔接;
排片&上座率:国内最超前的排片查询工具,提前一个月查询热门档期排片,随时掌握各影片排片场次及占比,上座率及场均人次;
影院实时票房:更及时,更丰富,定位到影院!帮助影院经理知己知彼,更准确的制定经营决策。