当前位置:首页 > 问答 > 正文

大数据这么庞大,没点数据虚拟化真心撑不住啊,得靠它来整合和管理才行

行,那咱们就按你的要求,直接聊聊这个话题,下面就是你要的内容。

“大数据这么庞大,没点数据虚拟化真心撑不住啊,得靠它来整合和管理才行”这句话,说白了,就是现在大家面对海量数据时一个特别实在的感慨,它不是一句空话,而是很多搞数据的人从实际头疼事儿里憋出来的大实话。

你想啊,现在一个公司里头,数据都放在哪儿?简直像个数据大杂院,一部分最核心的买卖交易数据,可能规规矩矩地躺在总部的老牌数据库里,比如Oracle或者DB2这种,这是“院子”里最结实的那间正房,稳当,但搬动里头的东西手续麻烦,慢。(来源:企业传统数据仓库常见架构)另一部分,比如网站或者APP上用户每秒钟点击、浏览的行为数据,那量太大了,正房根本放不下,就得堆到旁边新盖的“大仓库”里,比如Hadoop的HDFS或者各种云上的对象存储,这仓库便宜,能装,但里头东西堆得跟山一样,找起来费劲。(来源:互联网行业对海量非结构化数据的处理方式)这还没完呢,现在各个业务部门为了自己干活方便,可能还用着不同的系统,比如市场部用Salesforce,里面存满了客户跟进记录;财务部用金蝶用友,全是账目数据,这些数据就像散落在院子各个角落的小库房,各有各的锁,各有各的记账本。(来源:企业多套业务系统并存的普遍现象)

麻烦就来了,老板突然说:“我想看看上个季度,从我们抖音广告过来的新客户,最后在微信小程序里下单买了高端产品的那群人,他们的平均付款周期是多久?顺便对比一下只在线下门店买东西的老客户。”就这一个问题,能把IT部门和数据团队的人给问懵了,为啥?因为答案的碎片分散在好几个地方:广告点击数据可能在云上的大数据平台里;小程序订单数据可能在另一个MySQL数据库里;付款信息肯定在核心的财务系统里;线下门店数据没准儿还在某个本地的Excel表格里。(来源:典型的多数据源关联分析业务场景)

要是按老办法,那就得折腾死了,数据团队得先写一堆脚本,像搬运工一样,吭哧吭哧地把这些数据从各个角落“提取”出来,然后找个地方“转换”成统一的格式,再“加载”到一个新的中央数据仓库或者数据湖里,这个过程,行话叫ETL,且不说这个过程多耗时耗力,等你好不容易把数据都搬到一个地方整理好,可能一个星期都过去了,老板要的可是昨天的数据!这就好比你想炒个菜,需要葱姜蒜,但你得先自己去地里把葱挖出来、把姜刨出来、把蒜拔出来,洗好切好,才能开火,菜市场明明都有现成的,但你得先完成一套繁重的采集和预处理工作。(来源:传统ETL流程的延迟性与高成本问题)

这时候,“数据虚拟化”这东西就显得特别应景了,它不主张当这个苦力的“搬运工”了,它的想法很巧妙:数据就让它安安稳稳地待在原来的地方,别挪窝了,我就在这些分散的数据源上头,搭一个“虚拟层”,或者叫“数据服务层”,这个虚拟层就像是一个超级能干的餐厅服务员。(来源:数据虚拟化技术的核心思想——逻辑视图而非物理移动)

你作为点菜的客人(也就是业务人员或者老板),你不需要关心后厨的土豆是放在三号库房还是五号冰柜,你只管对服务员说:“给我来份酸辣土豆丝。”服务员(数据虚拟化层)接到你的指令(也就是SQL查询语句),他心领神会,转身进后厨,径直走到三号库房拿两个土豆,再到五号冰柜拿点辣椒,现场给你切丝、下锅炒熟,然后端到你面前。

对应到数据上,就是这个虚拟化引擎,当它接到那个复杂的查询请求时,它会自动进行“查询下推”:它自己会去分析,哦,这个查询需要广告平台的数据、需要订单库的数据、需要财务系统的数据,然后它同时向这几个分散的系统发起请求,让每个系统“现场”完成自己最擅长的部分计算(比如让广告平台过滤出抖音来源的用户,让订单库找出小程序的高端订单),最后虚拟化引擎只把各个系统返回的少量、初步处理好的结果,在自己这里进行最后的关联、汇总,瞬间生成老板要的那张最终报表。(来源:数据虚拟化中的联邦查询与下推计算原理)

这么干,好处一下子就出来了,第一是“快”,因为是实时直连数据源查询,避免了数据搬运和预处理的时间,能近乎实时地给出答案,满足现在商业决策对速度的苛刻要求,第二是“省”,省掉了建设和管理又一个庞大物理数据仓库的存储成本和计算成本,也省掉了ETL开发维护的巨大人力投入,数据不用复制来复制去,也减少了数据冗余和不一致的风险,第三是“活”,业务部门想要的新数据视角,只要源系统里有,就能通过这个虚拟层快速组合出来,非常灵活,再也不用为了一个临时需求去大动干戈地搞数据迁移了。(来源:Gartner等分析机构对数据虚拟化优势的概括:敏捷性、成本效益、实时性)

所以回过头看,“大数据这么庞大,没点数据虚拟化真心撑不住啊,得靠它来整合和管理才行”,这句话真不是夸张,它点明了一个现实:当数据的物理分布已经成为既定事实且不可逆转时,用一种更智能的“逻辑整合”方式来统一管理和使用数据,不再执着于费时费力的“物理整合”,已经成为应对大数据挑战的一种必然选择,它不是万能的,比如它对原始数据源的性能和稳定性要求更高,但在需要快速融合多方数据形成统一视图的场景下,它确实成了一个不可或缺的支撑工具,没有它,面对散落各处的数据孤岛,很多分析需求真的会让人感到无力,系统架构也真心难以支撑那种敏捷和高效的要求。

大数据这么庞大,没点数据虚拟化真心撑不住啊,得靠它来整合和管理才行