十年前,当一家互联网公司的CTO在年终PPT上展示自己搭建的PB级集群时,台下会响起羡慕的掌声。那时候,能存下这么多数据,本身就是一种技术实力的象征。十年后的今天,随便一家中型企业的数据量都远超当年,但再也没有CTO会为“存了多少”而自豪,大家焦虑的是另一个问题:存了这么多,到底能用上多少?
从存下来到用起来
2016年左右,智能手机全面爆发,每一部手机都成了数据发生器。用户刷的每条短视频、走过的每个街角、拍的每张照片,全被传回服务器。当时一家主流视频平台每天新增的日志数据就超过50TB,传统数据库根本写不进去。企业第一次发现,数据不是靠“存”就能解决问题的,得先想办法让数据“流得动”。
那几年,Hadoop成了标配。大家把数据往HDFS里一丢,再用MapReduce慢慢算。一个离线任务跑几个小时是常事,数据统计出来的时候,昨天的活动早结束了。虽然慢,但至少能算出来。企业对数据的态度就是“能存下来就好”,哪怕只能做做月报、季报,也比两眼一抹黑强。
内存计算带来的提速革命
MapReduce的慢让一线工程师忍无可忍。跑一个简单的关联查询,要反复读写磁盘,中间结果还得落盘,时间全耗在IO上了。2014年左右,Spark开始在国内大厂流行起来。它最大的贡献是把数据尽可能塞进内存计算,速度快了十几倍到几十倍。
我当时在一家电商公司,原来需要跑4个小时的订单分析任务,换成Spark后20分钟搞定。双十一大促期间,运营终于能在当天看到实时销售排行,而不是等到第二天。这种“快”带来的不只是效率提升,还改变了业务决策的模式——数据开始从“事后复盘”走向“事中干预”。
数据湖先存再说的代价
速度问题缓解了,新的麻烦又来了。业务部门催着要数据,但数据格式五花八门,有JSON日志、有图片、有视频流。传统数仓要求必须先建模再接入,业务等不起。于是“数据湖”的概念火了,口号很诱人:不管什么格式,先原样存下来,以后需要再治理。
这个“以后”往往变成“永远不”。一家保险公司在2018年建了数据湖,三年后湖里积压了超过10PB数据,80%从来没被读取过。存储成本年年涨,但数据还是那些原始文件,没人知道里面有什么、怎么用。数据湖变成了数据沼泽,越陷越深,想抽身都难。
实时计算成为默认选项
业务对时效性的要求越来越变态。外卖平台想知道此刻有多少骑手在路上,短视频平台要实时统计每个视频的完播率,金融系统得秒级识别异常交易。Flink抓住了这个机会,它提出“流批一体”的理念,让实时计算和离线计算用同一套API,开发成本大幅降低。
2020年之后,但凡有点规模的公司,实时计算集群都是标配。双十一大屏上的成交额曲线,不再是事后刷新的数字,而是每秒都在跳动的真实交易。数据处理不再是“今天看昨天”,变成了“现在看现在”。这种转变让数据真正参与到业务运转中,而不仅仅是用来汇报。
数据治理被逼上梁山
数据越来越多,口径越来越乱。一家连锁零售企业开经营分析会,运营部报的“月度活跃门店”是3200家,财务部报的是2800家。两边吵了一下午,最后发现运营部统计的是“有登录系统的店”,财务部统计的是“有营业额入账的店”。数据本身没错,但定义不同,结果完全对不上。
这种混乱逼着企业开始认真做数据治理。不是搞什么合规那种虚的,而是实实在在管起来:哪个指标谁定义的、怎么算的、从哪张表来的,全得理清楚。元数据中心、数据血缘、质量监控这些工具成了刚需。数据团队从“搬砖的”变成了“定规矩的”,不把源头管住,后面全是烂账。
成本失控倒逼架构瘦身
存了这么多数据,账单越来越吓人。一家制造企业每年花在云存储上的钱接近千万,审计下来发现,80%的数据是3年前的生产日志,从来没查过。更离谱的是,为了高可用,很多团队默认开三副本,一份数据付三份钱。数据成了资产负债表上的沉没成本。
这两年大家开始务实了。冷热数据分层、生命周期管理、压缩格式优化,能省的都要省回来。有的公司甚至把几PB的冷数据直接归档到磁带库,虽然读取要等几分钟,但存储成本降了90%。数据量还在涨,但预算不涨了,只能倒逼架构变得更聪明、更经济。
说到这里,想问问你:在你所在的公司或者团队里,存下来的数据到底有多少是真的被用起来、产生价值的?有没有哪次因为数据口径对不上,让你在会议上抓狂过?欢迎在评论区分享你的经历,也点个赞让更多人看到这篇文章。

