亿万先生·MR(中国)首页官网登录

亿万先生动态

大数据不是传统的BI

  • 时间:2014-12-01
  • 来源:

    亿万先生软件(来源:中国软件网  作者:佚名)

    提到大数据,总能和BI扯上千丝万缕的关系,而且提大数据的也基本都是BI的从业人员;怎么说,大数据也是源于数据分析。但这并不表示,大数据就是数据分析,至少不全是。这点的区别也就注定了大数据不能单纯是数据分析的思路了。

    1、 从集到散。

    传统的BI,是以数据统计为基础。但是不论是什么统计,都是想抽取一个或一组数值去说明一个问题。不论原始的数据有多少,都会尽量的去提取归纳,以期望用最少的数据去说明问题,从几个数据中得到的检验结果(例如合格率的抽检)时这样,从几千万,几亿数据中提取到的用户访问量,浏览量,交易量也是这样。在BI看来,是否找到了一个最能说明问题的数据是一个分析好坏的关键。

    这么做当然没错,但是仅仅找到问题是不够的,如果要分析问题,那么还要再次提取数据,在进行新一轮的分析。

    而大数据呢,从现在看来还是做着和BI一样的事情,但是如果加大的数据的规模,增加数据的种类,随着数据量的上升,需要付出的成本几乎是在几何级数的上升,而BI的分析结果的获利都无法做到线性的上升,一个公司最应该关心的数据,年度,半年度,季度,月度,周数据中早已包含了,这中间可以产生变化的数据并不是很多。而更短或者更局部的一些数据,对一个公司所能产生的影响甚小。如果再单独的从聚合的角度去用大数据,往往很难收回成本。

    而我们可以看到,数据时可以应用到小问题上的,当数据达到一定规模以后,我们同样能解决一个用户需要什么,因为针对一个用户的数据已经足够多了。而当这些数据变化的时候,同样代表着用户需求的变化,这样,通过对用户数据的分析,主动为用户推荐其最需要的服务成了可能。

    2、 从后到前

    传统的BI解决的多是结果的问题,虽然也有预测,但是也基本是基于结果的预测。一般情况都是先有数据,然后根据对数据的分析,得到结果。如在A/B test这样的应用中,必然是先有一个想法在那里,数据要做的是给这个想法量化,去衡量结果与想法之间的差异有多大。

    当然,作为一个验证来说,通常最好的结果是和设计之初的想法一致,虽然偶尔会有一些幸运的意外,但是这个及其少见。也就是说,往往这个验证,在设计者本身已经有很准确的判断的情况下,不产生新的价值。而另一个矛盾的事情出现了,如果设计者本身就不专业,则很难用到这种方法,甚至用这类方法的成本,往往比请一个专业的设计师更高。所以BI这么高大上的方法,往往是大型公司为一个已经很专业的人才加上一个保险而已。

    大数据是并不存在这样的先后关系的,它只是根据一定的数据给出一个或者几个相对优化的结果,数据产生的同时,也是数据应用的同时。例如用户当前最需要什么服务,这是的定价在什么价格才是利益最大化的,不同于之前BI的分析是,这几乎都是在提出一个新的假设,例如数据分析的结果是用户最需要的是吃饱肚子,但是用户有可能为了去看他感兴趣的球赛而选择饿肚子,但是这并不重要。大数据的目的是给出优化过的选择方向,以期望用户能选择其中的服务,当然,最好的结果是每次的推荐都被用户选择。

    3、 从被动到主动

    基本上BI的分析针对用户来说都是BI是被动的而用户是主动的,即使是用户想要的结果,也必须是用户自己主动收集,整理,分析,查看等等的一系列行为。而一般的情况下,无论是公司内部还是用户本身,都不希望看到数据。大部分人都数据太不敏感了,甚至是看到数据就头痛,我相信如果不是看在钱的面子上,很多人脸KPI数据都不会去看一眼。

    BI的被动还表现在,除了报警系统以外,基本都是人在找数据。每天的数据就是静静的躺在那里,只有碰到愿意用它,并且会用他的人才能发挥作用,否者只是躺在服务器里的一堆数据而已。

    而大数据要比这个主动得多,你可以把他理解成一个针对不同人的报警系统,几乎所有的节点都可以接收报警,当数据产生了变化以后,如果有必要,就可以主动的向对应的节点发送信息,以前往其对应的相应。

    当用户响应以后,新的数据很可能产生下一轮的警报,这样的循环可以让一个用户和他的数据活起来。

    4、 分析价值到数据价值。

    我们知道,在BI的工作中,最值钱的并不是数据本身,而往往是数据的分析师,他们的分析方法,分析模型是整个分析中最核心的部分,而系统只是实现途径罢了,系统中所有的分析结果,都必须是数据分析师教给工程师,再由工程师来实现的。

    这样的系统中,如果存在通用性,那么挖走一个数据分析师,或者是实现的工程师,则几乎是可以“偷”走整个系统。

    而大数据却并不是这样,它更像是一个可以自学的学生,在通过不断的对数据的应用以后,如果系统本身够合理。系统会根据用户的选择结果和行为,去自己完善自己,而当一段时间以后,可能系统的运作模式非常的多样化,也可能脱离了设计最初的局限。

    这样的一个系统,经过了一段时间的运行以后,最值钱的已经不再是最初的算法本身,也不是实现这个算法的人。而是在系统中沉淀下来的数据,尤其是用户反馈的数据。如果是再想要复制一个相同的系统,就不再是挖两个人那么简单的事情了。

    5、 从止损到开拓

    在一定的程度上,BI更像是一个止损的系统,无论是多好的分析方法,多么严密的分析过程,更多的都是为了防止错误的发生;每天监控的日交易额,流量是为了更早的发现问题。各种检验的方法也是为了保证结果的正确,即使是因子分析等等的方法,也都是一个假设存在的,方法只是在保证这个假设的正确性。

    但是所有的止损都有一个限度,那就是有损可以止,BI的价值就直接受限于想法本身的投入和产出的可能性。即使我们很多时候 会说,这个产品先做,然后观察数据,再看再说。这里会在数据上做投入的原因也是产品本身的价值,以及期望一个和在预想符合的市场反应,否则,不会有谁想看相关数据。

    大数据和这个不一样,因为它本身就是一个假设,而不是去验证别的什么想法的,它的目的就是要达到这个好的结果,给用户/公司直接带来利益,让用户选择有效的服务,既可以给用户好的体验,当然同样也应该为公司带来利润,这其中多有的过程,都是为了让用户/公司双发的利益更大,而不是为了防止公司出现损失这个层面。从这个角度上看。大数据本身的价值,并不受限于其他的什么因素,而只受限于自身系统的合理性它所能收集到的数据。

    说了这么多的区别,并不是说完全要把大数据和BI割裂开来,大数据是从BI中发展来的,但是随着时代的发展和技术的进步,数据分析本身也应该存在着思路上的转变,不只是一个更大数据源上的BI了。如果在工作中不能跟上,很有可能只增加在数据上的投入,而不能得到很好的回报。




网站首页
亿万先生