“行业正从IT走向DT,未来将有更大变革机会”——马云
商家在日常的经营活动中,产生了大量的数据,包括订单、客户、审核、打包、发货等订单链路数据;选品、打款、原料、市场、商品、生产等货品链路数据及买家商品浏览数、聊天记录、评价等用户数据。这些数据的背后反映的是商家的选品能力、生产效率、服务质量及商家的客户画像等商家能力,因此对商家而言具有重要的价值。
目前商家对数据的使用主要有两个途径:
1)使用淘宝的官方数据产品,如量子、江湖策等数据产品,淘宝官方数据产品将商家的淘宝数据进行整合分析后直接将分析结果提供给商家,大大提升了商家的数据价值,但对于具有数据分析能力及个性化数据分析需求的商家而言,官方产品难以满足其需求。
2)通过聚石塔RDS或采购物理机器自行搭建数据分析平台。通过RDS建设数据分析平台,由于RDS自身容量和性能的限制,无法实施长周期数据的挖掘分析,只能进行简单的日常报表统计工作;商家自行采购设备搭建数据分析平台,技术门槛与建设成本均较高,绝大部分商家不具备这样的能力,且商家应培养的主要能力是数据BI的能力,在数据处理方面投入资源和成本并不划算。
ODPS(开放数据处理服务的缩写)基于阿里飞天分布式系统构建,是目前国内唯一的大数据云服务平台,ODPS的应用场景包括:历史数据存储、数据仓库、数据挖掘、数据分析、商业智能等。
聚石塔ODPS产品将复杂的分布式系统、数据处理、数据IDE、数据同步技术整合成简单易用的产品提供给用户,聚石塔产品线拥有了自己的大数据处理产品。
聚石塔ODPS提供的价值主要包括:
1)简单易用:聚石塔ODPS提供了可视化的IDE工具,用户只需具备简单的SQL知识,即能操作ODPS;聚石塔ODPS与用户的RDS可以实现互通,用户RDS中的数据可以同步至ODPS进行存储和处理,ODPS中的数据处理结果表可以再同步回RDS,并在应用中展示出来,整个数据同步、数据处理、结果展示的流程不需要调用TOP API即可实现。
2)按需扩展:ODPS采用分布式集群架构,集群规模可以根据需要灵活扩展。聚石塔ODPS为用户提供的是大数据处理能力,用户无需操心具体的资源部署情况,只需根据自身的业务发展需求,按需使用存储和计算资源。
3)安全可靠:聚石塔通过多重安全措施保障用户的数据安全和访问安全。聚石塔ODPS为用户提供三份数据拷贝,在保证数据处理性能的基础上,还为用户提供的完善的数据安全服务。同时,聚石塔提供了严格的数据访问安全机制,聚石塔用户只能通过聚石塔控制台访问ODPS,通过其它方式均无法访问ODPS,且聚石塔对数据的出口进行了安全设置,ODPS的数据只能流出到用户的聚石塔RDS上。
某商家目前积累的塔外数据100GB,塔内数据超过100G(存储在聚石塔RDS中),由于RDS的性能限制,过多的历史数据保存在RDS中已经对正常业务的数据库访问产生冲击,且通过索引优化已经无法达到一次检索2秒以内给出响应的要求,同时目前该商家希望将线上数据和线下数据整合,进行多渠道数据的融合分析。
根据该商家的业务和数据量情况,聚石塔为该商家应用系统制定的数据处理方案如下:
图4.2-1 商家ERP应用服务层入塔架构
(1) 历史数据存储
针对商家的历史数据存储需求,商家只需要将RDS中保存的历史数据定时同步至ODPS保存即可。
(2) 离线分析应用
商家将聚石塔RDS数据与塔外数据直接同步至ODPS,在ODPS中编写SQL进行数据挖掘和分析,并将获得的结果再同步回聚石塔RDS,并在应用中进行展示。
(3) 在线查询应用
商家的在线查询应用分为两种情况,针对单表的在线查询,商家直接将RDS数据同步至TIS并进行在线索引查询;针对多表join查询,商家先将RDS中的数据同步至ODPS(ODPS支持准实时数据同步),在ODPS中,将多张数据表合并为一张宽表,再合并后的宽表提供给TIS,实现在TIS中的快速索引查询。
商家使用ODPS存储历史数据,由于ODPS的存储价格远低于RDS的数据存储架构,使得商家的历史数据存储成本降低50%以上。
使用了聚石塔ODPS+TIS大数据产品组合后,商家在线查询性能相比之前的RDS索引查询提升20倍~50倍(根据查询复杂度不同性能提升程度不一,查询复杂度越高,性能提升越明显)。
同时,聚石塔ODPS很好地帮助商家实现了线上、线下数据的整合,商家可以并行分析线上、线下多个渠道的产品效果及ROI效果,指导商家实施不同渠道的产品铺货、定价及营销资源分配。