Flume
开始阅读
Magicland
「看庭前花开花落,望天上云卷云舒」
Kafka 系列专题
Apache Kafka是LinkedIn开发的分布式流处理平台,以高吞吐、低延迟和持久化存储为核心特性,支持每秒百万级消息处理。其架构采用发布-订阅模式,通过Topic分类数据,Partition实现并行处理,副本机制保障高可用,广泛用于日志收集、实时分析和事件驱动架构。
Hive 系列专题
Apache Hive是基于Hadoop的开源数据仓库工具,通过类SQL的HiveQL查询语言,将结构化数据映射为数据库表并转换为MapReduce、Tez或Spark任务执行,适用于大规模数据集的离线分析。其数据存储于HDFS,元数据通过Metastore管理,支持分区表、分桶表等优化结构,以及自定义函数扩展功能。