- 爬虫
- APP、web日志,nigix、ajax收集的
- flume导入hdfs
- 处理脏数据,预定数据格式
- 采用分布式计算框架——MapReduce、Hive、Spark
- 清洗后存放HDFS
- 分布式计算框架——MR、Hive、Spark或其他
- 按业务需求统计分析
- 处理结果入库——关系型数据库(如MySql)、或NoSQL
按需制定,大数据这一块可用HUE、Zeeplin
不同于离线数据处理的地方在于数据采集通过Kafka,然后数据处理是传输给Storm、Spark Streaming框架处理,处理结果可以实时展示,也可以作为推荐系统等机器学习的数据源