Hive
开始阅读
Magicland
「看庭前花开花落,望天上云卷云舒」
Flume 系列专题
Apache Flume是分布式、可靠的日志采集传输系统,通过Source-Channel-Sink架构实现数据流动。支持Exec/Taildir等多数据源接入,Memory/File Channel缓存数据,可输出至HDFS/HBase/Kafka等目的地。其事务机制保障数据可靠传输,广泛用于大数据平台日志聚合与实时数据管道构建。
Hadoop 系列专题
Apache Hadoop是开源分布式计算平台,核心为HDFS分布式文件系统与MapReduce批处理引擎。HDFS采用分块存储与副本机制保障高可靠性,MapReduce通过分治思想实现并行计算,支持PB级数据处理。生态包含Hive数据仓库、HBase数据库等组件,适用于离线分析与数据湖构建,金融、互联网企业广泛应用。