Spark学习之路（一）Spark初识

发表于 2019-07-25 | 分类于 Spark

字数统计: 1.2k 字 | 阅读时长 ≈ 4 分钟

Spark初识

Spark

阅读全文 »

Hive学习之路（二）Hive总结及优化

发表于 2019-07-15 | 分类于 Hive

字数统计: 8.5k 字 | 阅读时长 ≈ 32 分钟

Hive总结及优化

官网地址：Hive Wiki 参考博客：爆发的小宇宙

Hive是一个构建在Hadoop之上的数据仓库软件,它可以使已经存储的数据结构化，它提供类似sql的查询语句HiveQL对数据进行分析处理。 Hive将HiveQL语句转换成一系列成MapReduce作业并执行（SQL转化为MapReduce的过程）。用户可以很方便的使用命令行和JDBC程序的方式来连接到hive。目前，Hive除了支持MapReduce计算引擎，还支持Spark和Tez这两中分布式计算引擎。常用于离线批处理。

阅读全文 »

标签（二）标签上线

发表于 2019-07-12 | 分类于 Data

字数统计: 839 字 | 阅读时长 ≈ 3 分钟

标签加工

标签上线流程

这周开始，算是真正开始在银河+系统的支持下，根据业务方的需求对标签进行加工并上线，整个流程一点点清晰起来了。就争取在思维清晰的情况下，对标签的上线流程做一些回忆总结吧。

根据需求建立新的标签。

阅读全文 »

Hive学习之路（一）HiveSQL语法

发表于 2019-07-04 | 分类于 Hive

字数统计: 3.9k 字 | 阅读时长 ≈ 15 分钟

HiveSQL语法

Hive

阅读全文 »

数据基础学习—作业管理规范与说明

发表于 2019-07-04 | 分类于 Data

字数统计: 1.7k 字 | 阅读时长 ≈ 6 分钟

作业管理

术语解释

抽取作业：指将数据从数据源接入在到数据仓库的作业。

计算作业：指通过脚本逻辑实现对数据进行加工处理的作业。

推送作业：指将源端的数据推送目标系统的作业。

质量作业：指通过配置质量检查规则对数据质量进行监测的作业。

作业负责人：指负责创建作业管理作业的人员

下游作业负责人：指负责创建下游作业管理下游作业的人员

数据平台维护人员：指负责维护平台管控数据的人员

阅读全文 »

数据仓库架构解析<详细！！！！>

发表于 2019-07-04 | 分类于 Data

字数统计: 2.9k 字 | 阅读时长 ≈ 10 分钟

数据仓库

概念

数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

阅读全文 »

标签（一）用户画像和标签

发表于 2019-07-04 | 分类于 Portrait

字数统计: 1.5k 字 | 阅读时长 ≈ 5 分钟

用户画像和标签

portrait

阅读全文 »

总要留下点什么...

发表于 2019-07-04 | 分类于流水账

字数统计: 895 字 | 阅读时长 ≈ 3 分钟

愿能阅尽天下事 | 洗手仍能做羹汤

朋友，你好。这个世界很大，大到我们常常忘了自己的初心和方向，大多数人无非如此，年少时的飞天，彩画，跳跃，尽是些有趣、生机的东西，也不知怎得，有些东西就这样一点点在时间中消逝了。

说也可惜，说也不可惜。

我，175，愿能继续保持的65kg，典型的北方男孩，在这个25的年纪，成熟亦或是幼稚（喔对～不相亲有女票😊），对这个世界，总想说说自己的看法，但有时又觉得还是算了吧，沉默是金。家长眼中的三好学生，听话，但自己干了多少调皮的事情，半夜钻在被窝里都能笑出来。小时候的事情一笔带过，这则流水账也不是回忆童年的对吧，那就从真正意义上的学生开始。。。

阅读全文 »

yiiiiis、

愿能阅尽天下事，洗手仍能做羹汤

GitHub E-Mail