Skip to content

Latest commit

 

History

History
22 lines (17 loc) · 749 Bytes

数据处理流程.md

File metadata and controls

22 lines (17 loc) · 749 Bytes

离线数据处理流程

数据采集

  • 爬虫
  • APP、web日志,nigix、ajax收集的
  • flume导入hdfs

数据预处理

  • 处理脏数据,预定数据格式
  • 采用分布式计算框架——MapReduce、Hive、Spark
  • 清洗后存放HDFS

数据处理

  • 分布式计算框架——MR、Hive、Spark或其他
  • 按业务需求统计分析
  • 处理结果入库——关系型数据库(如MySql)、或NoSQL

数据可视化

按需制定,大数据这一块可用HUE、Zeeplin

实时流数据处理

不同于离线数据处理的地方在于数据采集通过Kafka,然后数据处理是传输给Storm、Spark Streaming框架处理,处理结果可以实时展示,也可以作为推荐系统等机器学习的数据源