从内部业务到外部赋能详解阿里大数据计算平台

点击次数:55   更新时间2019-06-22     【关闭分    享:

  2018 年是阿里巴巴公司成立的第 19 个年头。在这过去的 19 年里,伴随着中国互联网的快速发展,阿里巴巴也无到有、从小到大,迅速成长为一家世界级的互联网巨头,创造了一个令世界瞩目的「中国奇迹」。

  而在这 19 年的时间内,公众对于阿里巴巴公司的认知也在悄然发生着变化。从早年间的 B2B 公司到后来的 C2C(淘宝)、B2C(天猫)的电商公司再到现在一个无所不包的阿里巴巴生态体系,「阿里巴巴到底是一家什么公司?」这个问题可以有多个回答的角度,比如,阿里巴巴是一家以用户需求为导向的互联网公司,再比如,阿里巴巴是一家「商业太过成功以至于掩盖了技术创新的公司」(阿里巴巴 CTO 张建锋语)。

  但如果从最微观的角度切入,阿里巴巴其实一家大数据公司。在阿里所有的产品里,流淌的着是各种各样的数据,比如天猫淘宝的电商数据、阿里云的企业业务数据、支付宝的支付数据等等,这些海量的数据组成了阿里巴巴各个产品线,而让这些数据转化为业务和产品,最终成为可以让普通用户享受到的服务,则离不开一个稳定可靠的大数据计算平台,这也是阿里巴巴计算平台所要承担的艰巨任务。

  公开资料显示,阿里巴巴计算平台支撑了整个阿里经济体 90% 以上的结构化/非结构化数据的存储、交换、管控,数据规模已超 EB 级别。在上周的云栖大会上,阿里巴巴副总裁、计算平台负责人周靖人博士及其团队像外界展示了阿里巴巴大数据智能计算引擎的核心技术能力,比如可以实现海量数据规模下的高性价的离线实时计算,以及实时+离线任务一体化研发能力等等,这一系列新的能力也让其具备了新一代计算引擎的诸多特点。

  更重要的是,不管是大数据引擎 MaxCompute 还是实时计算引擎 Blink,都是在阿里内部被业务一步步「锻炼」出来的产品,因此具有实战性、可用性的优势。另一方面,作为阿里巴巴大数据研发平台的 DataWorks,在经过 9年 内部发展、5年公共云、3年专有云的发展后,也成为阿里巴巴大数据赋能行业的重要技术输出口。

  先来看看 MaxCompute。这是阿里巴巴自主研发的大数据计算平台,从 2010 年开始正式开始运行在阿里云飞天分布式操作系统智商,提供统一的计算引擎,支持 SQL、MR、迭代计算、图计算、流计算。

  在历经多次、不同规模的业务锤炼后,目前 MaxCompute 承载了阿里巴巴集团内部 99% 的数据存储及 95% 的计算能力。

  与此同时,MaxCompute 的成长速度也非常惊人。去年 10 月的云栖大会上,MaxCompute 与 TPC 委员会的benchmark 适配,在业界领先的基于端到端的大数据分析领域应用级测试基准下,MaxCompute 完成了全球首次基于公共云的 bigbench 大数据基准测试,数据规模拓展到100TB,性能达到7830QPM,成为首个突破7000分的数据引擎。

  2018年,该性能测试的结果再次提升超过2倍,达到18176.71QPM。这一系列成绩充分展现了 MaxCompute 作为一款中国自主研发的大数据引擎,已经具备了可以引领行业发展的能力。

  再来看看看看 Blink。Blink 是阿里巴巴基于 Apache Flink 开源流处理框架所开发的实时计算引擎,过去三年,阿里的实时计算团队针对其内部特定的业务场景,对 Flink 做了大量优化迭代,并命名为 Blink。

  实时计算场景在电商业务里非常普遍,比如电商促销的场景,如何让用户的需求在短暂的促销阶段被更多地刺激出来,就考验着电商平台的搜索和推荐,这就需要电商平台的数据能在最短的时间内实现模型更新,这就是实时计算最能发挥作用的应用场景。

  在历年的双十一的大考中,公众最关注的 GMV 大屏幕的背后技术就是 Blink 实时计算引擎,每一条交易信息都是一个数据,从数据写入数据开始,到被实时处理并最终显现到大屏幕,都要求数据计算的精确性、可用性以及低延时(延迟在亚秒级别)。而双十一全天的活动里,每秒几十万笔的交易和支付的实时聚合统计操作全部是由Blink计算完成,从而最大限度地保证了双十一的稳定运行。

  从上文可以看出,MaxCompute 和 Blink 分别对应了不同领域的计算需求,前者主要应对海量数据的离线计算,而后者,则在实时计算中扮演重要角色,两个计算相辅相成,成为阿里巴巴内部诸多产品的底层数据支持平台。

  2016 年,阿里云推出 ET 城市大脑项目,在杭州,阿里云希望将城市交通数据统一到一个「大脑」中,通过云端的海量、实时计算,实现对城市发展的数字化管理,这也是对 MaxCompute 和 Blink 计算引擎的新考验,如果说过去的数据计算是处理互联网的交易数据,那么当数据范围扩大到物理世界,MaxCompute 和 Blink 能否有效应对呢?

  答案也很乐观。在上周发布的杭州城市大脑 2.0 中,阿里云 ET 城市大脑相的管辖范围扩大了28倍,优化信号灯路口1300个,覆盖杭州四分之一路口,同时已接入了视频4500 路。这意味着,MaxCompute 和 Blink 不仅可以计算互联网数据,还完全可以承载一个城市的离线和实时计算需求。

  事实上,MaxCompute 和 Blink 实时计算都已经运行在阿里云平台,企业和开发者可以根据自身需求去购买相应的服务。而在此次云栖大会上,阿里巴巴计算平台的多位技术专家还分享了 DataWorks 的数据研发平台对于更多行业的数据赋能能力。

  首先,DataWorks 的可用性已经得到验证。作为一个在阿里内部「孕育」出来的数据研发平台,DataWorks 也被广泛应用到阿里集团、蚂蚁金服、菜鸟、优酷、高德等所有事业部的数据开发流程里,还通过阿里云的公共云平台和专有云平台被广泛应用到多个国家和地区。

  其次,DataWorks 的技术能力毋庸置疑。不完全统计,2017年,以 DataWorks 为主体的阿里云数加,获得了国际软博会金奖;2018年,DataWorks 名列国家大数据博览会十佳产品,荣获最佳案例实践奖。

  第三,在产品设计上,DataWorks 拥有完整的开发流程,实现了端到端的数据开发。DataWorks 将上文提及的 MaxCompute 离线计算能力和 Blink 实时计算能力封装为可用的接口,另外还将阿里巴巴机器学习平台 PAI 的机器学习能力融合到平台里,覆盖从数据计算到模型训练、线上数据服务,再到云上应用搭建的一站式云上大数据解决方案。

  另外,基于云上编程环境 Cloud IDW,DataWorks 还提供从 Sql、python,甚至 Java 的开发能力,这也意味着,开发者不必花费过多时间和精力去配置各种开发变量,只需将开发环境切换到云端,然后直接写代码就能快速搭建自己的产品。

  DataWorks 的上述能力也在体现在阿里巴巴计算平台日前举办的云上编程比赛中,各路选手需要利用DataWorks 快速搭建一个天气预报云端应用。

  第一步是离线数据导入和处理。选手们要将历史数据通过数据集成导入到MaxCompute 表,然后在 DataWorks 编写离线 SQL 进行数据预处理,处理后的数据在 PAI 机器学习平台通过引用内置的各种算法/模板进行建模、训练,并最终一键发布到EAS提供预测服务。

  第二步则是实时数据的接入和处理。将实时采集的气象数据通过数据集成导入到DataHub,然后在DataWorks编写实时SQL进行数据加工,加工后的实时数据和离线基础数据拖过简单拖拽就可以装载到Lightning引擎进行异构数据整合,并提供实时交互式查询服务。

  第三步构建应用。在DataWorks 的数据服务中,可快速的打通 EAS 服务和 Lightning 引擎并生成高性能的在线 API,同时在 AppStudio 中可无缝对接数据服务API;用可视化组件模板,简单几步配置就可以完成云上Web应用开发;另外AppStudio也提供了在线IDE环境可支持Java在线开发、编译、调试、运行、版本管理、多用户协同编辑等功能。

  无论承认与否,「数据是新时代的石油」已然成为行业共识,向数据要价值正在成为全社会各个行业的方法论。在这场数据智能的淘金热里,阿里将自己放在行业赋能者的位置,既有能提供处理海量数据的 MaxCompute,还有支撑双十一的实时计算引擎 Blink,也有面向机器智能开发的 PAI,而在这一系列产品的上层,也就是最接近企业、开发者的那一层,DataWorks 整合了所有的核心技术,并以友好的界面、一站式的流程展现给企业、开发者。

  如果阿里巴巴过去 19 年的努力,践行了「让天下没有难做的生意」的口号,那么,现在的阿里巴巴大数据计算平台上的这些产品,则正在努力实现「让天下没有计算不了的数据」的新愿景,这是阿里巴巴技术驱动型公司最直接的体现,也是数据时代企业、个人开发者的新红利。(完)返回搜狐,查看更多

山东某某环保工程有限公司
技术:18265875858
电话:0533-8175858
传真:0533-8175858
地址:山东省淄博高新区英雄路58号
邮箱:baidu@163.com