大数据技术入门学习(简单概念)
标签搜索

大数据技术入门学习(简单概念)

Augenstern
2024-06-24 / 0 评论 / 2 阅读 / 正在检测是否收录...

前言

最近公司上了数据中台(实际就是阿里的DataWorks私有化部署),给我们做了几次培训,这里把一些简单的概念列一下,对数据引擎有个初步的认识,重要的实操部分因为涉及到公司平台敏感信息,故不做截图演示。

采用阿里的DataWorks大数据开发治理平台,基于MaxCompute/EMR/MC-Hologres等大数据计算引擎,提供专业高效、安全可靠的一站式大数据开发与治理平台,实现数据集成、数据开发、数据治理等一系列功能。

离线数仓-MaxCompute

一、定义

MaxCompute(ODPS)是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,致力于批量处理结构化数据的存储和计算,提供海量数据仓库的解决方案及分析建模服务。

二、优势

  • 集成性:支持跨平台数据整合及多组件兼容
  • 计算方面:支持大量、复杂批处理
  • 存储方面:海量数据存储(PB-EB),支持弹性扩容

三、限制

  • 不支持OLTP联机事务处理
  • 不支持交互式查询,任务执行延迟较大
  • 不持索引,Delete、Update操作受限

四、与常见数据库对比

MaxCompute技术架构定位与使用场景:
MaxCompute,主要服务于批量结构化数据的存储和计算,应用于海量数据仓库建设,不支持事务; MySQL、Oracle等数据库,主打多维分析场景,支持事务

  • MaxCompute是列式存储,不支持Delete、Update等操作;Hologres是行式、列式存储,Oracle、MySQL是行式存储,可 以对单条数据进行删除、修改等操作;
  • MaxCompute不支持索引、主键约束,无自增字段;Hologres、Oracle、MySQL可以设置约束,以及自增字段;
  • MaxCompute是基于MapReduce进行数据的查询,速度相较于Hologres、Oracle、MySQL来说比较慢。
  • MaxCompute在SQL语法上学习成本均比较低,SQL操作类似于Oracle、MySQL数据库。
  • MaxCompute中的内建函数可兼容Hologres、Oracle、MySQL中的函数,部分存在写法的差异。如时间戳字段的月份、分 钟、小时函数一致,但在取系统日期的时候,MaxCompute可用getdate、 current_timestamp,Hologres中支持 current_timestamp,oracle中支持systimestamp、current_timestamp,MySQL中支持now等

一站式实时数仓引擎-Hologres

一、定义

支持海量数据实时写入、实时更新。实时分析,支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc Analysis是一种数据分析方法,它允许用户根据自己的特定需求和问题,即时地对数据进行查询、分析和探索。与预定义的报告或仪表板不同,即席分析提供了更大的灵活性,使用户能够深入挖掘数据,发现新的见解,并回答那些在分析开始时可能未预料到的问题),支持低延迟的在线数据服务(Serving),与MaxCompute、Flink、DataWorks深度融合,提供在线一体化全栈数仓解决方案。

二、优势:

  • 支持准实时快速数据写入及更新;
  • 支持OLAP多维分析查询;
  • 存算分离架构,支持动态按需扩容

三、限制:

  • 稳定性上:目前官称99.9%,不如Oracle、OB等数据库稳定;
  • 功能上:OLAP分析型数据引擎,无事务保障机制,无触发器机制、无字段级联约束;
  • 应用场景上:主打多维分析场景,不建议使用在联机事务处理场景, 查询响应有一定延迟

大数据集成调度平台-DataWorks

一、定义

基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、湖仓一体等解决方案提供统一的全链路大数据集成调度平台。

二、优势

  • 集成性方面:一站式的数据工厂,集数据开发、分析、任务发布、 调度以及运维管理于一体
  • 监控管理方面:

(1) 完备的数据质量监控体系;
(2) 智能的监控告警;
(3) 多租户的数据安全管理机制

三、限制:

  • 调度时效性方面:涉及DataWorks槽位资源及MC资源队列排队 两级调度,对高频调度支持有限,一般建议小时级别以上调度频率
  • 数据节点依赖等原因,生产发布手工配置依赖

四、模块

  • 计算存储引擎模块:MaxCompute、Hologress、OSS
  • 数据集成模块:组件全量/增量同步、实时同步
  • 数据开发模块:
    1)离线/实时任务:集成多种组件,支持一站式任务开发;
    2)一站式的调度、监控、运维和告警
0

评论 (0)

取消