自古以来,东西方世界均有泰坦巨人开天辟地的故事,将原本宇宙间的一片混沌,化为各种秩序的存在。而在东方,这名泰坦,叫盘古。
混沌并非虚无,事实上它刚刚好与虚无截然相反,它是万物,是所有元素的集合,只是一直没有人去为它塑型,将它转变为有价值的实体罢了。想来前日腾讯火爆全网的这篇《混沌之后,伟大之前》便有此意,将大数据的过往及未来,做一个梳理罢。
12月22日,腾讯娱乐白皮书发布,同日也是艾漫数据登陆新三板挂牌的日子,艾漫数据日前就应我们的邀请,来解读了这篇“混沌”的“伟大”之处,来还原一下大数据秩序重塑的过程;为外行人八一八大数据的养成,为内行人点一点明灯。
霍建华和胡歌不具备商业价值?
如腾讯的这篇“混沌”之作,其背后的梳理是如此繁杂,是一个将“无序”化为“有序”的过程;若回忆无误,这个过程是33天。但谁想数据计算的结果,却也会有“出乎意料”,如这些在近期口碑大好的明星,有人却未能登榜。
比如对于钟汉良口碑第一这件事,相信不管是不是钟汉良的粉丝都不会有太多疑问,毕竟作为一个艺人,不靠绯闻博话题,不靠炒作赢关注,只靠扎实的演技和圈里圈外一致的好评积攒人气,这在娱乐圈确实鲜有。然而最具商业价值排行榜中竟然没有“智商爆表”的梅宗主以及“颜高手美低音炮”的靖王,确实出人意料。
至于缘何如此,就要明白这个榜单的计算方法。艾漫给出的解释是:明星的商业价值体系通常会基于明星热度、口碑、作品、代言四个大维度进行分析。但由于基础数据格式的不统一,处理起来有难度,所以四个大维度下面对应众多小维度的情况会导致计算结果的“一鸣惊人”,就连数据分析师本身也会觉得不可思议。但是以基础数据结合搭建好的研究框架,以及算法模型进行计算的方法,在经过反复验证后并没有错误,所以最终的结果也一定是正确的。
比如,霍建华的作品《花千骨》问世位于下半年,所以在声量上相比榜单其他明星有所欠缺;而他本人对商业代言选择的谨慎态度,也对代言维度中的数据有所影响。而钟汉良从年初有《何以笙箫默》,后续有《捉妖记》等作品,但只有《何以》是主角,整体维度的考量稍弱于其他明星。胡歌自从车祸淡出人们视线之后,直到今年下半年《琅琊榜》、《伪装者》等作品才得以成功霸屏。
所以综合考虑四大维度,其结果可能有些“出乎意料”也就可以理解了。
明星对作品以及商业代言的谨慎选择,虽然影响现下的整体数据维度统计分析,但对于未来的发展,以及口碑的建立却是有极大好处的。优秀的作品或代言,是考量其商业价值以及网络热搜的重要一环,所以,你的优秀,大数据会如实的告诉你。
——李垠志,艾漫高级数据分析师
小众民谣宋冬野夺冠
用“混沌”之作中的说法,2015年的音乐市场就是“新格局在破壁成型”,我们看到的是民谣类歌曲的扶摇直上。遑论一众民谣歌手演出场地的升级,马条、张磊的崛起,或是年末才姗姗来迟并填补了“年度神曲”空白的“大王叫我来巡山”;单就论音乐市场数据来源的零散,就很可能耗费数天的时间来整理。
虽然我们并不用提及《南山南》是有多脍炙人口,但要从全网范围寻找能够完成对应需求的数据,对于音乐主题来说实可谓“难上加难”。数据渠道零散且毫无规律可循,比如Live House的信息、音乐节落地活动的数据、演唱会的真实实况数据等均可能存在“查无出处”的问题。
比如如果我们来做类似的工作,在面对这种棘手的问题时,必须让技术与分析紧密结合,先经过字段的合并与调整,然后才能进行处理工作。4天吧,这样的数据量级,需要4天的时间。
——王宗龙,艾漫数据高级分析师
林青霞与周董话题热榜分胜负
这里不妨先引出腾讯的结论,就是一线综艺的“海淘”现象,排名靠前的国内综艺几乎都是是向韩国购买的版权,而其最终的结果在2015年末开始转变为韩国的原创IP资源输出殆尽之后,不得不输出自己的艺人了;同时,国内的各个卫视开始同日本的同行眉来眼去了。
而网络自制综艺的水平与节目效果也在持续攀高,君不见越来越多的腕儿级角色已经向网络自制综艺抛出了橄榄枝?或者直白点说,这也是一个节目同明星之间互相借势的双赢局面。但这些依然不是我们要讨论的重点。
网络化与海淘行为势必导致综艺类数据抓取的需求量级成几何倍数增长,这意味着此种数据的处理之精度与速度都必须保持一个同步的高水准。以卫视节目数据为例,涉及到的数据维度有播出时间,节目分类,是否引进,媒体声量,公众声量等等。
同时面对综艺当中众多需要抓取及计算的需求时,往往需要将这些元素拆分为众多小维度,并且与已有数据进行结合;而对于那些无法结合的,则要确定其数据源,提出具体的抓取需求及算法模型,再借助强大的技术加以处理分析。
——丛博阳 艾漫数据高级分析师
综艺节目的网络化海淘留下的便是这些繁杂的交叉数据维度,对于分析师和技术人员来说,无疑要将维度定义否定再否定,直至寻找到最为科学的数据维度以及大数据可视化呈现。于是就有了“再改就剁手”、“再改就切腹”、“再改就剁手+切腹”的豪言壮语,以及迫不得已的食言所导致的灵魂上的残缺。
大数据是怎样炼成的
对于一众看客来说,大数据这个字眼也许并不生疏,但是它具体是如何炼成的,想来我们未必完全知晓。
大数据是一种既定的存在,你知与不知,它就在那里,每日都在积累成长;你了与不了,它的生成,就是芸芸众生每一个动作的产物;只不过在有谁站出来梳理出它的逻辑之前,我们很难发现它的价值所在。而像艾漫数据这种企业的工作,就是给予大数据一个秩序化、并从中挖掘出价值的过程。
这个过程被艾漫这些极具社会主义艺术与人文气息的技术达人与分析师们归纳为两个部分:代表科技的大数据挖掘技术与自然语言理解技术,以及代表艺术的娱乐行业背景知识,科技与艺术水乳交融,产生化学裂变形成了娱乐白皮书。
如腾讯的“混沌”之作,在其数据的抓取层面大致可能分为以下几个步骤:
首先,对数据进行多维度和多层次的建模与计算,在娱乐知识图谱的基础上深度挖掘各种娱乐对象并洞察娱乐行业发展态势。这是一个对互联网信息进行全方位获取的过程。这包括了对历史数据的追踪以及掌控这些数据的历史规律从而寻找其中的变化趋势。
这种数据的抓取,相较传统的类似抽样调研的模式来说,有两个优势:根据实际需求随时调整抓取的数据维度,以及灵活制定个性化的分析维度,从而得以展现更加丰富的大数据分析结果。
其次,是借助人工智能技术和机器学习算法来深入理解被获取到的文本的语义,并采用分类、聚类、抽取技术,深度挖掘标的物的内涵和外延,深度探索其中的语义关联。
以艾漫数据的做法为例,传统公司一般采用关键字过滤的方式实现对目标实体的监测,为了提高数据匹配准确度,你可能会为标的物添加限定词,但是这种方式会漏掉大量的数据,无法保证召回率。而艾漫可以做到深度探索对象之间的关联,并理解文本,做到真正认知,而不再是简单的关键字匹配。
利用分布式架构,使自然语言处理算法轻松应对海量数据并实现高效分析;这项技术确保了娱乐对象的精准识别,能够保证所有分析维度精准对应到娱乐对象。
——岳耀彪,艾漫数据平台部经理
大数据的出现,在本质上虽然由来已久,但就好比宇宙中无序的混沌与无边的黑暗,一直未有泰坦出现,无人耕耘。而像艾漫数据如今正在从事的,将之理解为以娱乐产业的变革者与先行者,也就不为过了罢。
盘古创世,以眼做日月,由此,世界便有了光明。
关于艾漫数据
写到这里,我们想添些笔墨给艾漫,一是对于帮我们解读腾讯大作背后的那些繁杂工作的艾漫表示感谢;二是八一八这家成立仅3年的企业,缘何对大数据缘何如此门儿清。
它用数据全程支持今年这部腾讯娱乐大作《混沌之后,伟大之前》,也是2014年《腾讯娱乐白皮书》的独家数据合作方;2014年安徽卫视《国剧盛典》数据支持;2014年《南都娱乐周刊》盛典数据支持;2015年东方卫视《风从东方来》数据支持;并为《无问西东》、《心花路放》、《深海挑战》、《小时代》等电影提供数据支持。