大数据

202171515242

  • 数据采集:Flume 、Logstash、Kibana 等
  • 数据存储: HBase
  • 批处理:Hadoop MapReduce、Spark、Flink
  • 流处理:Storm、Spark Streaming、Flink Streaming

特点

4V:

  • Volume 大量
  • Velocity 高速
  • Variety 多样
  • Value 低价值密度

大数据生态体系

屏幕截图 2021-02-28 151558

Hive

202171610648

它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能

  • 离线分析

Spark

  • Spark SQL 主要用于结构化数据的处理:支持以SQL语法查询各种数据源
  • Spark Streaming:微批处理 达到类流处理
  • MLlib:机器学习库
  • Graphx:用于图形计算和图形并行计算的新组件

Storm

  • 实时流处理
  • 分布式的流处理框架,它能够对有界和无界的数据流进行高效的处理

Hbase

  • 构建在 Hadoop 文件系统之上的面向列的数据库管理系统

Phoenix:HBase 的开源 SQL 中间层

Flume

  • 数据收集系统,通常用于日志数据的收集

2021719142122

results matching " "

No results matching " "

results matching " "

No results matching " "