当前位置:首页 > 问答 > 正文

大数据和云计算其实没那么简单,关系复杂得让人摸不着头脑

(根据知乎专栏“读懂科技”中《大数据与云计算:一对纠缠不清的“孪生兄弟”》一文中的观点)我们常常听到“大数据”和“云计算”被捆绑在一起提及,好像它们是一对形影不离的双胞胎,很多宣传让人感觉,有了云计算,大数据就自然而然能处理好;或者要做大数据,就必须上云,这其实是一种过于简化的理解,把两者之间错综复杂、相互依存又彼此独立的关系,说得像是一道简单的数学题,反而让人更加摸不着头脑,真相是,它们的关系更像是一段时而亲密无间、时而各自安好的伙伴关系,复杂程度超乎想象。

大数据和云计算其实没那么简单,关系复杂得让人摸不着头脑

(参考自IBM开发者社区一篇题为《厘清概念:大数据挑战与云计算赋能》的技术评论)一个最让人混淆的点在于,它们俩根本就不是同一个层面上的东西,大数据说的是一种“困境”或者说“对象”,它描述的是在当今数字时代,我们面临的数据量太大了(Volume)、数据产生和流动的速度太快了(Velocity)、数据的种类格式太多了(Variety),以至于用传统的数据处理工具根本没法在规定时间内捕捉、管理和处理,你可以把大数据想象成一片汹涌澎湃、不断扩张的“数据海洋”,这片海洋里有结构规整的数据库表格,有杂乱无章的社交媒体帖子,有持续不断的传感器信号,还有海量的图片和视频,问题的核心是“我们要处理的是什么”以及“我们处理起来有多难”。

而云计算呢,它本质上是一种“方法”或“模式”,它解决的是计算资源(比如服务器、存储空间、数据库、网络、软件)的提供方式问题,它不像以前那样,每个公司都需要自己买一大堆昂贵的硬件设备,建自己的机房,而是像使用水电煤气一样,通过互联网从云服务商那里按需租用计算能力,云计算提供的是处理问题的“基础设施”和“工具箱”,它回答的是“我们该如何去处理”的问题。

大数据和云计算其实没那么简单,关系复杂得让人摸不着头脑

(源自阿里云研究院发布的《数字经济背景下的技术融合趋势报告》中的分析)到这里,关系似乎开始清晰了:大数据提出了一个巨大的难题,而云计算恰好提供了一套可能解决这个难题的强大工具,没错,这正是它们关系亲密的一面,正是因为大数据这座“矿山”实在太庞大了,需要巨大的算力和存储空间去“挖掘”,而自建数据中心的成本高昂、扩展不灵活,所以性价比高、弹性伸缩的云计算模式就成了处理大数据的天然温床,可以说,云计算的兴起,在很大程度上是为应对大数据挑战而生的,没有大数据带来的处理压力,云计算可能不会发展得如此迅速和普及,反过来,没有云计算提供的弹性和廉价算力,很多企业和机构根本无力承担处理大数据的成本,大数据技术也只能是少数巨头的游戏,这是一种典型的相互成就。

(根据TechTarget中国站一篇名为《误区警示:上云不等于搞定大数据》的分析文章)但如果你认为这就是全部,那就大错特错了,这正是关系变得复杂的地方,拥有了强大的云计算平台,绝不意味着你就能自动搞定大数据,这好比是你给一个普通人配备了世界上最顶级的厨房和全套米其林厨具,但他不一定能做出美味佳肴,大数据处理涉及一系列复杂的技术栈,比如分布式存储技术(HDFS)、分布式计算框架(如Hadoop、Spark)、数据采集、数据清洗、数据分析与机器学习算法等等,云计算平台(如AWS, Azure, 阿里云)确实把这些技术打包成了更易用的服务(比如对象存储、EMR弹性MapReduce、数据仓库等),降低了使用的技术门槛,如何设计数据流水线、如何选择恰当的工具、如何保证数据质量、如何从数据中提炼出有价值的洞察,这些核心的“烹饪技巧”和“食谱”依然需要专业的数据科学家、数据工程师来设计和完成,云计算只是提供了灶台和锅铲,炒菜的灵魂还是人。

(引述自CSDN博客一位资深数据架构师在《我的大数据之路:从自建机房到混合云》中的实践经验分享)更复杂的情况还在于,大数据并非一定要放在公有云上,由于数据安全、合规性(如GDPR)、网络延迟和成本等因素的考虑,很多企业,特别是金融、政务等领域,会选择构建私有云或混合云架构来处理核心敏感数据,他们可能把公开的、非核心的数据分析放在公有云上利用其弹性,而把最核心的财务数据、客户隐私数据放在自己可控的私有云或本地数据中心,这种“多云”或“混合云”策略,使得大数据和云计算的关系从简单的“公有云托管”变成了更加动态和复杂的“跨环境协同管理”,难度进一步提升。

(综合自哈佛商业评论《分析学》专栏一篇题为《当大数据遇见云:战略而非技术》的文章观点)也是最根本的,大数据和云计算代表着不同的战略重点,大数据战略的核心是“数据驱动决策”,关注的是如何从数据中获取商业价值,提升竞争力,而云计算战略的核心是“IT成本优化和敏捷性”,关注的是如何更高效、更经济地运营IT系统,这两个战略目标需要紧密配合,但并不能互相替代,一个公司可能拥有先进的云计算平台,但如果缺乏有效的数据战略,这些平台可能只是空转,无法产生业务价值;反之,一个公司有明确的数据分析需求,但如果IT基础设施(无论是云还是本地)陈旧僵化,也会严重拖累数据分析的效率。

所以说,大数据和云计算的关系,绝不是“有了A就有B”的简单线性关系,它是一场涉及技术、成本、战略、安全和人才的复杂舞蹈,它们彼此需要,相互塑造,但又保持着各自的独立性,把它们简单地混为一谈,或者认为学会其中一个就掌握了另一个,正是许多人感到“摸不着头脑”的根源所在,真正理解它们,需要剥开营销话术的外衣,深入到具体的技术实现、成本考量和企业战略中去,才能看清这片看似迷雾重重但实则充满机遇的科技地带。

大数据和云计算其实没那么简单,关系复杂得让人摸不着头脑