首页
统计
Search
1
TypeScript学习笔记
5 阅读
2
《被讨厌的勇气》读后感
5 阅读
3
从零开始的Vue学习
3 阅读
4
摘抄
3 阅读
5
【极客时间】玩转Git三剑客笔记
3 阅读
年度总结
学习笔记
读后感
动漫汇总
日常记录
登录
Search
标签搜索
大数据
git
加密
Vue
CTF
TypeScript
React
Augenstern
累计撰写
10
篇文章
累计收到
0
条评论
首页
栏目
年度总结
学习笔记
读后感
动漫汇总
日常记录
页面
统计
搜索到
1
篇与
大数据
的结果
2024-06-24
大数据技术入门学习(简单概念)
前言最近公司上了数据中台(实际就是阿里的DataWorks私有化部署),给我们做了几次培训,这里把一些简单的概念列一下,对数据引擎有个初步的认识,重要的实操部分因为涉及到公司平台敏感信息,故不做截图演示。采用阿里的DataWorks大数据开发治理平台,基于MaxCompute/EMR/MC-Hologres等大数据计算引擎,提供专业高效、安全可靠的一站式大数据开发与治理平台,实现数据集成、数据开发、数据治理等一系列功能。离线数仓-MaxCompute一、定义MaxCompute(ODPS)是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,致力于批量处理结构化数据的存储和计算,提供海量数据仓库的解决方案及分析建模服务。二、优势集成性:支持跨平台数据整合及多组件兼容计算方面:支持大量、复杂批处理存储方面:海量数据存储(PB-EB),支持弹性扩容三、限制不支持OLTP联机事务处理不支持交互式查询,任务执行延迟较大不持索引,Delete、Update操作受限四、与常见数据库对比MaxCompute技术架构定位与使用场景:MaxCompute,主要服务于批量结构化数据的存储和计算,应用于海量数据仓库建设,不支持事务; MySQL、Oracle等数据库,主打多维分析场景,支持事务;MaxCompute是列式存储,不支持Delete、Update等操作;Hologres是行式、列式存储,Oracle、MySQL是行式存储,可 以对单条数据进行删除、修改等操作;MaxCompute不支持索引、主键约束,无自增字段;Hologres、Oracle、MySQL可以设置约束,以及自增字段;MaxCompute是基于MapReduce进行数据的查询,速度相较于Hologres、Oracle、MySQL来说比较慢。MaxCompute在SQL语法上学习成本均比较低,SQL操作类似于Oracle、MySQL数据库。MaxCompute中的内建函数可兼容Hologres、Oracle、MySQL中的函数,部分存在写法的差异。如时间戳字段的月份、分 钟、小时函数一致,但在取系统日期的时候,MaxCompute可用getdate、 current_timestamp,Hologres中支持 current_timestamp,oracle中支持systimestamp、current_timestamp,MySQL中支持now等一站式实时数仓引擎-Hologres一、定义支持海量数据实时写入、实时更新。实时分析,支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc Analysis是一种数据分析方法,它允许用户根据自己的特定需求和问题,即时地对数据进行查询、分析和探索。与预定义的报告或仪表板不同,即席分析提供了更大的灵活性,使用户能够深入挖掘数据,发现新的见解,并回答那些在分析开始时可能未预料到的问题),支持低延迟的在线数据服务(Serving),与MaxCompute、Flink、DataWorks深度融合,提供在线一体化全栈数仓解决方案。二、优势:支持准实时快速数据写入及更新;支持OLAP多维分析查询;存算分离架构,支持动态按需扩容三、限制:稳定性上:目前官称99.9%,不如Oracle、OB等数据库稳定;功能上:OLAP分析型数据引擎,无事务保障机制,无触发器机制、无字段级联约束;应用场景上:主打多维分析场景,不建议使用在联机事务处理场景, 查询响应有一定延迟大数据集成调度平台-DataWorks一、定义基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、湖仓一体等解决方案提供统一的全链路大数据集成调度平台。二、优势集成性方面:一站式的数据工厂,集数据开发、分析、任务发布、 调度以及运维管理于一体监控管理方面:(1) 完备的数据质量监控体系; (2) 智能的监控告警; (3) 多租户的数据安全管理机制三、限制:调度时效性方面:涉及DataWorks槽位资源及MC资源队列排队 两级调度,对高频调度支持有限,一般建议小时级别以上调度频率数据节点依赖等原因,生产发布手工配置依赖四、模块计算存储引擎模块:MaxCompute、Hologress、OSS数据集成模块:组件全量/增量同步、实时同步数据开发模块:1)离线/实时任务:集成多种组件,支持一站式任务开发; 2)一站式的调度、监控、运维和告警
2024年06月24日
2 阅读
0 评论
0 点赞