贵阳企业网站排名优化可以用腾讯企业邮箱域名做网站
目标
工作之后就很少时间用来沉淀知识了,难得用空闲时间沉淀一下自己。
 成为一名中级数据开发工程师。偏向于数据仓库,数据治理方向。
整体排期
1 hive
 2 hadoop
 3 flink
 4 spark
 5 闲杂工具 kafka maxwell cancal
 6 数据建模(偏向于kimboll维度建模)
 7 机器学习 --常见算法理论 简单应用
 8 python编程 numpy pandas matplotlib等常用分析工具
 9 ETL开发
 10 shell 常规使用
1 Hive
概念:
acid :
 atomicity 原子性: 要么全部成功,要么全部失败恢复如初
 consistency : 一致性 :数据库保持完整性,不可能一个人账单
 isolation 隔离性 :多并发的时候是否保持隔离
 durability 持久性 :一旦更改成功,哪怕机器坏掉了数据页不会丢失
 cap :
 consistency 一致性 数据更新完后,所有的数据完全一致。
 availability:可用性 任何节点都需要在一定时间完成。
 partiton tolerance: 分区容错性
 cap只能满足两个 ca的话传统数据库 ,mysql
 cp的话 redis hbase这些
 ap 的话,数据不一致就没办法了。 一般大数据都是谈cp,ap,如果没有p,就不要谈大数据了。
 怎么说?CAP理论的C和ACID的C一致性含义不一样要记住哦。
