原创大约 2 分钟
Zeppelin是一款基于Web
的数据可视化中间件,它可以支持多种语言和大数据平台的接入(例如,它默认就支持Spark、Flink和Python 3.9)。
原创大约 2 分钟
和Sqoop一样,Canal也可以将数据从关系型数据库(RDBMS)导入到Hadoop这种大数据系统中,只不过Canal是阿里巴巴开源的,而且更多侧重于对MySQL数据库的Binlog(日志)文件进行解析,提供增量的数据订阅和消费,而且它一直在更新,这一点比Sqoop要好很多。
原创大约 3 分钟
什么是Sqoop?
Sqoop是一款开源的中间件,它的主要作用是在关系型数据库(RDBMS)(例如MySQL)和大数据系统(例如Hadoop)之间进行数据传输。
原创大约 6 分钟
原创大约 3 分钟
先引入依赖。
<dependencies>
<dependency>
<groupId>org.apache.kafka</groupId>
<artifactId>kafka-clients</artifactId>
<version>3.7.1</version>
</dependency>
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-api</artifactId>
<version>2.0.13</version>
</dependency>
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
<version>2.0.13</version>
</dependency>
</dependencies>
原创大约 2 分钟
原创大约 6 分钟
先创建一个名为qq
的Topic
。
> ./bin/kafka-topics.sh --create --bootstrap-server 172.16.185.176:9092 --replication-factor 1 --partitions 2 --topic qq
Created topic qq.
原创小于 1 分钟