离线数据处理流程

数据采集

爬虫
APP、web日志，nigix、ajax收集的
flume导入hdfs

数据预处理

处理脏数据，预定数据格式
采用分布式计算框架——MapReduce、Hive、Spark
清洗后存放HDFS

数据处理

分布式计算框架——MR、Hive、Spark或其他
按业务需求统计分析
处理结果入库——关系型数据库（如MySql）、或NoSQL

数据可视化

按需制定，大数据这一块可用HUE、Zeeplin

实时流数据处理

不同于离线数据处理的地方在于数据采集通过Kafka，然后数据处理是传输给Storm、Spark Streaming框架处理，处理结果可以实时展示，也可以作为推荐系统等机器学习的数据源