Kafka

Hadoop Server 分工內容

hadoop5 broker 1
hadoop6 broker 2
hadoop7 broker 3

安裝Kafka

先進入hadoop user

$ su hadoop

下載Kafka到hadoop5 Server的hadoop User家目錄

$ wget http://apache.stu.edu.tw/kafka/1.1.1/kafka_2.12-1.1.1.tgz
$ tar -zxvf kafka_2.12-1.1.1.tgz 
$ mv kafka_2.12-1.1.1 kafka

設定必要環境變數

請在hadoop5 - 7的hadoop user家目錄的.bashrc檔案中新增以下環境變數內容，

$ vi ~/.bashrc

變數內容

export KAFKA_HOME=/home/hadoop/kafka
export PATH=$KAFKA_HOME/bin:$PATH

使環境變數生效

$ source ~/.bashrc

配置server.properties

$ vi kafka/config/server.properties

變數內容

broker.id=0
listeners=PLAINTEXT://${hadoop5_server_ip}:9092
zookeeper.connect=${hadoop5_server_ip}:2181,${hadoop6_server_ip}:2181,${hadoop7_server_ip}:2181
group.initial.rebalance.delay.ms=0
delete.topic.enable=true
auto.leader.rebalance.enable=true

配置zookeeper.properties

$ vi kafka/config/zookeeper.properties

變數內容

server.1=${hadoop5_server_ip}:2888:3888
server.2=${hadoop6_server_ip}:2888:3888
server.3=${hadoop7_server_ip}:2888:3888

配置producer.properties

$ vi kafka/config/producer.properties

變數內容

bootstrap.servers={hadoop5_server_ip}:9092,{hadoop6_server_ip}:9092,{hadoop7_server_ip}:9092

配置consumer.properties

$ vi kafka/config/producer.properties

變數內容

bootstrap.servers={hadoop5_server_ip}:9092
zookeeper.connect=${hadoop5_server_ip}:2181,${hadoop6_server_ip}:2181,${hadoop7_server_ip}:2181

複製Kafka到hadoop 6 - 7 server

$scp -rf kafka hadoop@hadoop6

配置hadoop 6 Server的Kafka server.properties

$ vi kafka/config/server.properties

變數內容

broker.id=1
listeners=PLAINTEXT://${hadoop6_server_ip}:9092
zookeeper.connect=${hadoop5_server_ip}:2181,${hadoop6_server_ip}:2181,${hadoop7_server_ip}:2181
group.initial.rebalance.delay.ms=0
delete.topic.enable=true
auto.leader.rebalance.enable=true

配置hadoop 7 Server的Kafka server.properties

$ vi kafka/config/server.properties

變數內容

broker.id=2
listeners=PLAINTEXT://${hadoop7_server_ip}:9092
zookeeper.connect=${hadoop5_server_ip}:2181,${hadoop6_server_ip}:2181,${hadoop7_server_ip}:2181
group.initial.rebalance.delay.ms=0
delete.topic.enable=true
auto.leader.rebalance.enable=true

配置hadoop 6 Server的consumer.properties

$ vi kafka/config/producer.properties

變數內容

bootstrap.servers={hadoop6_server_ip}:9092
zookeeper.connect=${hadoop5_server_ip}:2181,${hadoop6_server_ip}:2181,${hadoop7_server_ip}:2181

配置hadoop 7 Server的consumer.properties

$ vi kafka/config/producer.properties

變數內容

bootstrap.servers={hadoop7_server_ip}:9092
zookeeper.connect=${hadoop5_server_ip}:2181,${hadoop6_server_ip}:2181,${hadoop7_server_ip}:2181

設定hadoop 5 - 7 Server的Service

進入root user

$ su root

編輯Service

$ vi /usr/lib/systemd/system/kafka.service

變數內容

[Unit]
 Description=Apache Kafka server (broker)
 Documentation=http://kafka.apache.org/documentation/
 Requires=network.target remote-fs.target
 After=network.target remote-fs.target

[Service]
 Type=simple
 Environment="LOG_DIR=/home/hadoop/log/kafka"
 User=hadoop
 Group=hadoop
 ExecStart=/home/hadoop/kafka/bin/kafka-server-start.sh /home/hadoop/kafka/config/server.properties
 ExecStop=/home/hadoop/kafka/bin/kafka-server-stop.sh
 Restart=on-failure
 SyslogIdentifier=kafka

[Install]
 WantedBy=multi-user.target

重載Service

$ systemctl daemon-reload

回到hadoop user

$ exit

啟動hadoop 5 - 7 Kafka

$ systemctl enable kafka.service
$ systemctl start kafka.service

測試Kafka

創建topic

建立一個test topic

$ kafka-topics.sh --zookeeper hadoop5:2181,hadoop6:2181,hadoop7:2181 --create --replication-factor 1 --partitions 1 --topic test

檢查topic

$ kafka-topics.sh --list --zookeeper hadoop5:2181,hadoop6:2181,hadoop7:2181  _consumer_offsets

發送訊息

$ kafka-console-producer.sh --broker-list hadoop5:9092,hadoop6:9092,hadoop7:9092 --topic test

看訊息

kafka-console-consumer.sh --bootstrap-server hadoop5:9092,hadoop6:9092,hadoop7:9092 --topic test --from-beginning

測試Kafka跟Spark Streaming

寫一個測試Word Count的範例

建置Maven Java Project

groupId: Spark
artifactId: com.shark.spark
1.0-SNAPSHOT

參照必要Lib

在Maven加入以下Lib

    <properties>
        <spark.version>2.3.2</spark.version>
        <scala.version>2.11</scala.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka_${scala.version}</artifactId>
            <version>1.1.1</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-kafka-0-10_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-mllib_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <dependency> <!-- Jetty demmo -->
            <groupId>org.eclipse.jetty</groupId>
            <artifactId>jetty-client</artifactId>
            <version>8.1.14.v20131031</version>
        </dependency>
    </dependencies>

編輯KafkaStreamingWordCount.class

package com.shark.spark;

import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.streaming.Duration;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaInputDStream;
import org.apache.spark.streaming.api.java.JavaPairDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;
import org.apache.spark.streaming.kafka010.ConsumerStrategies;
import org.apache.spark.streaming.kafka010.ConsumerStrategy;
import org.apache.spark.streaming.kafka010.KafkaUtils;
import org.apache.spark.streaming.kafka010.LocationStrategies;
import scala.Tuple2;

import java.util.*;

public class KafkaStreamingWordCount {

    public static void main(String argv[]) {
        //要在mesos上運行要把Master拿掉
//        SparkConf sparkConf = new SparkConf().setAppName("KafkaWordCount").setMaster("local");
        SparkConf sparkConf = new SparkConf().setAppName("KafkaWordCount");
        JavaStreamingContext javaStreamingContext = new JavaStreamingContext(sparkConf, new Duration(2000));

        Collection<String> topics = Collections.singleton("test");
        Map<String, Object> kafkaParameters = new HashMap<>();
        kafkaParameters.put("metadata.broker.list", "hadoop5:9092,hadoop6:9092,hadoop7:9092");
        kafkaParameters.put("bootstrap.servers", "hadoop5:9092,hadoop6:9092,hadoop7:9092");
        kafkaParameters.put("group.id", "1");
        kafkaParameters.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        kafkaParameters.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        kafkaParameters.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

        ConsumerStrategy<String, String> consumerStrategy =
                ConsumerStrategies.Subscribe(topics, kafkaParameters);

        JavaInputDStream<ConsumerRecord<String, String>> lines = KafkaUtils.createDirectStream(
                javaStreamingContext,
                LocationStrategies.PreferConsistent(),
                consumerStrategy);
        JavaDStream<String> words = lines.flatMap(
                new FlatMapFunction<ConsumerRecord<String,String>, String>() {
            @Override
            public Iterator<String> call(ConsumerRecord<String, String> record) throws Exception {
                return Arrays.asList(record.value().toString().split(" ")).iterator();
            }
        });

        JavaPairDStream<String, Integer> wordCounts =
                words.mapToPair(
                new PairFunction<String, String, Integer>() {
                    @Override
                    public Tuple2<String, Integer> call(String word) {
                        return new Tuple2<String, Integer>(word, 1);
                    }
                }).reduceByKey(
                new Function2<Integer, Integer, Integer>() {
                    @Override
                    public Integer call(Integer i1, Integer i2) {
                        return i1 + i2;
                    }
                });

        wordCounts.print();
        javaStreamingContext.start();
        try {
            javaStreamingContext.awaitTermination();
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }
}

打包成war檔

$ mvn clean package

將war檔上傳到hadoop 5 Service

$ scp target/com.shark.spark-1.0-SNAPSHOT.jar hadoop@hadoop5:~

前往hadoop 5 Server 下載必要lib到~/spark/jars

$ cd ~/spark/jars
$ wget http://central.maven.org/maven2/org/apache/kafka/kafka_2.11/1.1.1/kafka_2.11-1.1.1.jar
$ wget http://central.maven.org/maven2/org/apache/spark/spark-streaming-kafka-0-10_2.11/2.3.2/spark-streaming-kafka-0-10_2.11-2.3.2.jar
$ wget http://central.maven.org/maven2/org/apache/kafka/kafka-clients/1.1.1/kafka-clients-1.1.1.jar
$ cd ~

壓縮Spark並傳到hadoop 6跟7 Server

$ tar -czvf spark.tgz spark/
$ scp spark.tgz hadoop@hadoop6:~
$ scp spark.tgz hadoop@hadoop7:~

執行

可以在Mesos看到執行結果

$ spark-submit --class com.shark.spark.KafkaStreamingWordCount  com.shark.spark-1.0-SNAPSHOT.jar

PreviousSpark

Last updated 7 years ago

hashtagHadoop Server 分工內容

hashtag安裝Kafka

hashtag先進入hadoop user

hashtag下載Kafka到hadoop5 Server的hadoop User家目錄

hashtag設定必要環境變數

hashtag配置server.properties

hashtag配置zookeeper.properties

hashtag配置producer.properties

hashtag配置consumer.properties

hashtag複製Kafka到hadoop 6 - 7 server

hashtag配置hadoop 6 Server的Kafka server.properties

hashtag配置hadoop 7 Server的Kafka server.properties

hashtag配置hadoop 6 Server的consumer.properties

hashtag配置hadoop 7 Server的consumer.properties

hashtag設定hadoop 5 - 7 Server的Service

hashtag啟動hadoop 5 - 7 Kafka

hashtag測試Kafka

hashtag創建topic

hashtag檢查topic

hashtag發送訊息

hashtag看訊息

hashtag測試Kafka跟Spark Streaming

hashtag建置Maven Java Project

hashtag參照必要Lib

hashtag編輯KafkaStreamingWordCount.class

hashtag打包成war檔

hashtag將war檔上傳到hadoop 5 Service

hashtag前往hadoop 5 Server 下載必要lib到~/spark/jars

hashtag壓縮Spark並傳到hadoop 6跟7 Server

hashtag執行

Hadoop Server 分工內容

安裝Kafka

先進入hadoop user

下載Kafka到hadoop5 Server的hadoop User家目錄

設定必要環境變數

配置server.properties

配置zookeeper.properties

配置producer.properties

配置consumer.properties

複製Kafka到hadoop 6 - 7 server

配置hadoop 6 Server的Kafka server.properties

配置hadoop 7 Server的Kafka server.properties

配置hadoop 6 Server的consumer.properties

配置hadoop 7 Server的consumer.properties

設定hadoop 5 - 7 Server的Service

啟動hadoop 5 - 7 Kafka

測試Kafka

創建topic

檢查topic

發送訊息

看訊息

測試Kafka跟Spark Streaming

建置Maven Java Project

參照必要Lib

編輯KafkaStreamingWordCount.class

打包成war檔

將war檔上傳到hadoop 5 Service

前往hadoop 5 Server 下載必要lib到~/spark/jars

壓縮Spark並傳到hadoop 6跟7 Server

執行