对话智领云彭锋:大数据2.0时代,企业如何利用云原生DataOps提升数据生产力? | 甲子发现
云原生的关键词即为“敏捷”。
数字经济、数据要素已成为当下企业服务领域的热词。在此热度下,“大数据平台”自然被推向了谈论风口。
如果把大数据时代分为两个阶段,那么在1.0时代,它的主要特征是发现大数据,存储和处理大数据;而到了当下的2.0时代,它的主要特征就是数据应用和数据价值。
而对企业来说,最重要的则是让数据转化为生产力。
7月14日,科技智库「甲子光年」智库执行院长宋涛与智领云联合创始人兼CEO彭锋在甲子直播间对话,双方就“大数据2.0时代,企业如何利用云原生DataOps高效提升数据生产力”的话题,进行了多轮精彩的对话。
在对话中,彭锋提到,企业大数据平台之所以要坚持云原生,关键词即为“敏捷”。智领云的主要业务是敏捷开发数据应用,项目实施也需要敏捷抓住客户痛点。他认为,数据平台的发展趋势是业务系统与数据系统的边界会逐渐模糊,数据分析产品也会越来越标准。
以下,为「甲子光年」整理对话精华内容。
1.数据作用的变化:从事后统计到主动驱动
甲子光年: 最近几年,数字经济、数据要素的概念逐渐被大众认可,企业数字化的水平也不断提高。企业怎样将数据积累下来并转化成数据要素,进而转化为生产力,这是大家都很关心的。请彭总先谈谈,企业数字化要经历哪些过程?
彭锋: 企业数字化运营有几个阶段,最开始是信息化,然后是数字化,再是平台化。
具体而言,最开始数据在表格里是死的,需要信息化让业务系统处理数据库里的数据;后来数字化把业务数据库里的数据治理,汇总到一起形成数据资产,但是数据资产还是一个被动的形态,主要的功能是被查询,形成报表,商业洞见,而数据要素是活的,能够动起来成为生产力。
比如企业对用户做的画像,如果是数据资产,那么它会以某个数据库、某个数据表的形态体现出用户的兴趣爱好、职业身份、年龄等等,用户在使用时主要是以查询为主,需要知道这个资产的具体存储细节,但是如果作为一个数据要素,它应该是通过API和数据应用的方式,能够直接在业务中产生价值。在很多企业里,这是一个核心的生产力。如果没有它,就做不了精准推送。所以它不是一个简单的数字资产,而是可以衡量的价值。
甲子光年: 我们已经处在数字时代,大数据平台系统已经比过去有了很大的升级,形成新的生产工具。驱动生产工具变革的因素有哪些?
彭锋: 驱动点有很多,最主要的是数据作用的变化,原来主要是事后统计,所以以往大数据平台给人的第一印象就是报表、大屏,基本上是在做业务总结;现在,大数据平台实际上变成了一个核心驱动力,比如业务部门的降本增效、新业务的扩展、各个业务的协调合作,都需要有数据体系支撑。
这个过程中,让大数据平台从被动接受方,变成主动驱动方,有一个很大的Gap,就是数据的实时性、正确性,迭代的管理等要求都比原来以报表为主要产出时要高很多。比如在数据质量方面,过去报表里,即便数据错误也不会引起很大的问题,无非再回去查询一下;但如果数据变成mission critical任务的时候,一旦出错就会影响产品、业务流程,这时候再去查找问题就晚了,所以数据质量要事先进行监控。
以前,数据的开发散在各个地方,反馈很慢。如今,大数据平台的核心能力,可以快速响应业务部门的各种敏捷需求。
甲子光年: 你给我们提供了一个直观的感觉,用户对数据的使用用途从事后统计到主动驱动。接下来聊聊关于产品层面和技术层面的差异,大数据2.0跟大数据1.0在技术架构、产品功能方面有哪些显著的区别?
彭锋: 区别挺大。大数据1.0的时候,是把数据装起来,进行数据治理,比如统一口径等;大数据2.0,考验的是对流数据的处理能力,要能够实时驱动业务。
美国的VC Andreessen Horowitz就描绘过一个新一代大数据平台的架构,其中云原生化(存算分离)、湖仓一体、Infra as Code、API化、业务驱动能力(reverse ETL)、敏捷开发管理(DataOps)都是其中的亮点,实际效果就是数据能力的门槛降低,更加简单。
在国内,这种转变已经非常明显。它有几个大的趋势:
一是数据平台的云原生化,好处是整个组件可以在云上直接运行,进行标准化管理,还可以快速集成新的组件。原来如果云资源隔离做得差时,就会发生诸如“当一个业务部门跑任务,其他业务部门的任务都垮了,导致各个业务部门都不敢用这个东西”这种情况。现在用云的体系后,各个部门都有用户隔离,这就解决了安全感的问题,它可以独立的快速迭代,不用担心影响别人。
二是数据能力和AI能力的API化。以前要使用一套数据能力是非常困难的,要自己去写一大堆代码,查找数据资源,像人脸识别等等。现在都可以以API的形式让它们成为生产力,使得AI能力变得平民化。
第三是存算分离。存算分离的好处是存储和计算可以不受限制,互相隔离的去扩展。比如,在不计算的时候,不用去耗费那么多计算资源,只要花存储的费用就可以了。
第四就是DataOps支持的敏捷开发。在云原生上,集成开发、数据质量管理、数据门户支持以及调度,都让用户可以快速的以非常低门槛的方式,把数据需求变成一个数据应用。
最后,就是提高业务系统的集成。比如上面提到的Reverse ETL。之前我们知道大数据是从业务系统采集数据到大数据平台中,Reverse ETL的目的是自动地让大数据平台产出能够驱动到业务系统。而在大数据2.0中,则能够极大地降低业务系统对数据能力使用的门槛。
甲子光年: 你刚才反复提到一个概念——云原生,能否介绍下智领云在云原生层面的产品功能板块?
彭锋: 我们公司做云原生的大数平台还是蛮早的,最初创业的主要目的就是把推特内部的数据平台架构形成一个产品,这个平台就是一个云原生的架构。
推特内部大概2012年就已经能够做到七八千台机器的私有云集群,2014年大概已经做到1.5万台机器的集群。我们做了很多工作,把常用的HDFS、Spark等大数据组件打成一个包,让用户可以直接使用,而这些必须在云原生的基础上才能去统一的管理。
去年有两个主要的事情。一个是2021年3月份,Spark开始官方支持K8s;一个是2021年5月,Kafka开始官方支持K8s。此后,绝大部分大数据组件都会逐渐地来适应这个生态。所以我们认为,大数据平台的云原生化是大势所趋。
此外,我们在上层做了一整套开发管理工具,它允许用户在一个界面里面,把各种各样的大数据组件功能集成化开发出来,相当于是一个低代码的大数据应用开发平台。后面我们会有一套DataOps管理体系来支持这个敏捷开发,比如数据质量体系,保证开发者每一步的数据是符合数据标准的。
还有我们的调度系统,全部是以K8s的方式来调度,可以精确统计到每个任务、每个账号、每个应用花了多少资源。整个管控、目录、开发全部是一整套体系,这基本上也是我在推特做的工作。
2.云原生数据项目的关键词是敏捷
甲子光年: 作为一家大数据服务商,你们为企业赋能的方法论是什么?
彭锋: 我们做云原生,很关键的一个词是:敏捷。敏捷开发数据应用,与传统的数仓建设不同。数仓的建设和数据的治理是个中长期的规划,我们在建设数仓的时候需要理解企业的整个业务架构,以及IT架构,然后基于此设计出一个整体的数据架构。
我们之前在做数据仓库建设的时候,往往要比客户的业务人员还要懂他们的业务。因为他们的业务部门只要懂自己的内容就可以,我们做数仓设计则要懂所有业务部门之间的交互。传统上这个过程非常有价值,但问题是周期比较长,见效比较慢。
所以我们在项目实施的过程中,最主要的思路就是敏捷,快速抓住客户的核心业务流程,快速落地,快速见效,获得业务部门地支持,然后再去扩展到其他业务范畴。其中很关键的一点是要在云原生的统一平台上去做,保证不出现数据孤岛的情况。
在项目落地里面,我们一般会跟客户强调一定要有一个最迫切,最紧急的业务场景的落地,然后再扩展到其他业务场景。比如说我们的一个企业客户,他们的主要业务是在线服装定制,弹性生产。最开始他们想做数据中台,我们的建议是,一开始不要做一个大而全的中台,因为业务系统还在不断迭代,说不定中台设计完了,业务系统也变了。所以我们认为,找出最痛的痛点,比如广告的渠道分析和产品推荐,先在这两方面下功夫,形成相对独立的数据应用,然后再逐渐扩展新的数据应用和场景。
总结来说,首先选择合适的技术架构,然后快速确定落地场景,实施过程中要保证数据标准的统一,然后扩展到其他场景进行长期落地,最后整个数据体系就建设起来了。
甲子光年: 彭总可以结合比较典型的应用案例,讲解下企业具体应该怎么搭建一个大数据系统平台,如何解决其中的问题和挑战?
彭锋: 我讲一个数据平台已经开发到一定程度的案例。一家大型国企,数据中台已经搭建好了,但是数据质量、数据流程经常会出问题。检查后发现它的数据源是脏的,原因千奇百怪很难事先预测,而且各个部门都在上面使用数据做报表。举两次比较窘迫的状况,有一天业务部门突然懵了,表示自己的报表怎么出错了?往上面一看原来是数据被人改了。找到该部门后,对方也很委屈,因为他们也不知道别人在用这个数据;还有一次,突然下面报上来说某个地方设备宕机了,可能有三个小时的数据是空的,这导致很多业务系统受到了影响。
这里面涉及到的问题,都是数据应用开发的问题。因为随着数据规模的发展,各业务部门都来使用的时候,平台的安全性、准确性、实时性就遭到了挑战。
鉴于这些问题,我们把开发工具跟其现有系统进行对接,然后采集现有的运行数据,依此判断运行的状况,形成全链路的循源。进而帮助用户解决数据开发、运维的难题。
3.未来大数据的三大变化
甲子光年: 在推动企业做大数据系统落地的时候,除了技术、产品外,在管理和意识方面需要注意哪些问题?
彭锋: 数据项目实施中,管理是个绕不开的问题,因为数据是各个部门的资产。要把它梳理出来,就会涉及到数据拥有者的迁移。在实际工作中,经常会出现数据交互中的拥有者冲突或者重复建设问题,核心原因是顶层架构没设计好。
解决思路,一般需要让数据中台梳理、打通部门墙,这就需要“老板来锤一下”。
在这里,我们不仅给客户提供了一个大数据系统平台,很多时候还提供相关业务体系的梳理,甚至帮企业做系统架构的升级,这算是我们在提供产品之上的附加价值。
甲子光年: 刚才我们一直在说大数据2.0,那么大数据3.0是什么,将会有哪些变化?可以分享下你的观点。
彭锋: 我认为,第一个可能是没有大数据3.0,就直接是数据平台了。特别是随着云原生,存算分离,湖仓一体等新架构和技术的成熟,不会再有大数据的专门称呼,从1MB的数据,到1TB,1PB的数据,都是统一的架构,自动扩展,数仓建设流程逐渐融入到整个数据架构设计体系里,很多现在的预处理,汇聚处理,下钻处理,可以由高效的存储和分布式查询体统直接完成,大大降低开发工作量。
第二,业务系统跟数据系统的边界会逐渐模糊。未来当业务系统建在数据架构上的时候,就不需要单独做数据梳理。数据架构设计趋势,将从事后变成事前。也就是说,业务系统在建设时已经把数据需求考虑进去,业务系统上线直接与数据平台对接,数据驱动业务事前规划,而不是事后考虑。
第三,出现标准数据分析产品(analytics as a service / product),与现在以API实现的人工智能和机器学习能力类似,但是会更进一步,因为企业的业务系统会进一步标准化,SaaS化,企业的很多分析也会标准化,以后企业的数据要素,数据能力可以像搭积木一样完成。
甲子光年: 直播间里有一个有意思的问题,网友提问,初创企业怎么用好数据中台?一般来说,中台都是中大型企业才会考虑的,他提到初创企业使用中台,彭总怎么看?
彭锋: 这是个很好的问题。其实我一直在表达一个观点,数据中台不是只有大企业才能用。推特早期做中台产品的时候,公司才300人也不算大;后来到4000人的时候,我觉得也还好。后面硅谷的很多早期创业公司Uber、Airbnb、Pinterest、Lyft等等,其数据平台的架构,基本都是以云原生数据驱动的,且基本是用开源组件搭建起来的。
很多中小企业面临的困难,就是要自己招人来搭建数据平台做运维。其实在云原生时代,早期把架构搭建好就可以,随着公司的发展,云原生的数据平台是可以不断扩展的。
甲子光年: 还有一个网友提问,元宇宙跟大数据平台的融合,会带来哪些趋势?也请彭总给我们分享下对这个问题的思考。
彭锋: 我觉得元宇宙其实已经在我们身边了,比如游戏也算元宇宙的一种形式。站在用户层面,元宇宙企业要关注的是在采集用户行为之后,如何不断迭代元宇宙服务而让用户感觉不到差异。比如游戏公司Roblox,可以根据数据判断用户在哪里碰到的阻碍最多,重点去处理哪些阻碍。这其中,数据分析是很重要的一环。另外,比如像Oculus 这样的VR公司在设计场景时,原以为比较重要的角落,结果大部分人都没看到,这时就要考虑这个地方是不是设计有问题。然后再根据这种情况去修改设计,迭代产品。
因为元宇宙本质上是把人们的生活、工作、娱乐、沟通各个层面数字化,数据驱动变得更自然了,所以我觉得元宇宙的世界里数据会产生更大的价值。
甲子光年: 好的,由于时间原因,我们今天的直播对话就要结束了。今天彭总跟我们分享了很多观点,从宏观数据时代变化,到微观的案例观察。最后,感谢智领云彭总在百忙中参加我们的对话,也感谢直播间的所有观众,谢谢大家!
| 彩蛋
最后,推荐下我们的云原生大数据开发平台产品BDOS Online,有大量的数据工程实战项目模板可以克隆和参考,例如3天快速开发一个电商比价应用的项目;欢迎大家扫码注册试用,全面了解该工具的功能和价值,享28天的免费使用权益。
留言
评论
${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}}说 · ${{item.date.slice(0, 10)}} 回复
暂时还没有一条评论.