Big Data - Workflow
Workflow
- 将多种不同的处理模块连接在一起,最后得出一个 DAG,称为一个 Workflow System
- 在 Workflow System 中,有对应的设计模式
Copier Pattern
- 将单个数据处理模块中的数据,完整地复制到两个或更多的数据处理模块中,然后再由不同的数据处理模块进行处理
- 适用场景 - 需要对同一个数据集采取多种不同的数据处理转换 - 多个数据处理模块可以并行处理
Filter Pattern
- 过滤掉不符合特定条件的数据
- 在数据集通过 Filter 后,数据集会缩减到只剩下符合条件的数据
- 适用场景 - 需要针对一个数据集中某些特定的数据采取数据处理
Splitter Pattern
- 将数据集中的数据分类为不同的类别来进行分别处理
- 分离模式不会过滤任何数据,只是将原来的数据集分组
同样的数据,可以被划分到不同的数据处理模块
Joiner Pattern
- 将多个不同的数据集转换集中在一起,成为一个总数据集
- 然后将总数据集放在一个工作流中进行处理
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.