观远数据底层数据架构及优势

观小数发表于:2019年09月29日 14:37:42更新于:2020年09月17日 19:15:04

观远数据底层采用轻型数仓Delta Lake作为一个存储层,为Spark和大数据workloads提供事务管理(ACID)。Delta Lake是为了保证数据质量,减少垃圾数据同时增加处理性能的一个数据湖产品,在处理性能、资源占用、系统稳定性方面,都存在很大的优势。

在观远创建和更新数据集期间,我们会将执行SQL得到的数据,抽取至观远平台内置的Delta Lake中,可供进一步的数据分析、整理与跨数据源整合。

Spark作为新一代的大数据计算引擎,相比于Hadoop的MapReduce,不管是开发便捷性、运维成本,还是计算性能方面,Spark都大大超越前者。在AI需求的支持上面,Spark自带的MLlib也已经集成了大量的机器学习算法,足够我们使用。

观远目前支持的某客户的单表数据量已经超过8000万行,建议单个数据集的存储量不超过亿级。






    您需要登录后才可以回复