1：增加kafka序列化类，用于获取日志写入kafka的时间戳。TSG-9844

2：删除kafka认证类型，通过连接端口判断。 3：删除强匹配模式；仅适用弱匹配和不匹配即可满足需求。
2022-03-08 15:18:28 +08:00
parent 53b07555f2
commit daea0a07a1
15 changed files with 173 additions and 289 deletions
--- a/src/main/java/com/zdjizhi/topology/LogFlowWriteTopology.java
+++ b/src/main/java/com/zdjizhi/topology/LogFlowWriteTopology.java
@@ -5,14 +5,15 @@ import cn.hutool.log.LogFactory;
 import com.zdjizhi.common.FlowWriteConfig;
 import com.zdjizhi.utils.functions.FilterNullFunction;
 import com.zdjizhi.utils.functions.MapCompletedFunction;
-import com.zdjizhi.utils.functions.ObjectCompletedFunction;
 import com.zdjizhi.utils.functions.TypeMapCompletedFunction;
-import com.zdjizhi.utils.kafka.Consumer;
-import com.zdjizhi.utils.kafka.Producer;
+import com.zdjizhi.utils.kafka.KafkaConsumer;
+import com.zdjizhi.utils.kafka.KafkaProducer;
 import org.apache.flink.streaming.api.datastream.DataStream;
 import org.apache.flink.streaming.api.datastream.DataStreamSource;
 import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

+import java.util.Map;
+
 /**
 * @author qidaijie
 * @Package com.zdjizhi.topology
@@ -25,56 +26,48 @@ public class LogFlowWriteTopology {
    public static void main(String[] args) {
        final StreamExecutionEnvironment environment = StreamExecutionEnvironment.getExecutionEnvironment();

-        //开启Checkpoint，interval用于指定checkpoint的触发间隔(单位milliseconds)
-//        environment.enableCheckpointing(5000);
-
        //两个输出之间的最大时间 (单位milliseconds)
        environment.setBufferTimeout(FlowWriteConfig.BUFFER_TIMEOUT);

-        DataStreamSource<String> streamSource = environment.addSource(Consumer.getKafkaConsumer())
-                .setParallelism(FlowWriteConfig.SOURCE_PARALLELISM);
-
        if (FlowWriteConfig.LOG_NEED_COMPLETE == 1) {
+            DataStreamSource<Map<String, Object>> streamSource = environment.addSource(KafkaConsumer.myDeserializationConsumer())
+                    .setParallelism(FlowWriteConfig.SOURCE_PARALLELISM);
+
            DataStream<String> cleaningLog;
            switch (FlowWriteConfig.LOG_TRANSFORM_TYPE) {
                case 0:
                    //对原始日志进行处理补全转换等，不对日志字段类型做校验。
                    cleaningLog = streamSource.map(new MapCompletedFunction()).name("MapCompletedFunction")
                            .setParallelism(FlowWriteConfig.TRANSFORM_PARALLELISM);
-
                    break;
                case 1:
-                    //对原始日志进行处理补全转换等，强制要求日志字段类型与schema一致。
-                    cleaningLog = streamSource.map(new ObjectCompletedFunction()).name("ObjectCompletedFunction")
-                            .setParallelism(FlowWriteConfig.TRANSFORM_PARALLELISM);
-
-                    break;
-                case 2:
                    //对原始日志进行处理补全转换等，对日志字段类型做若校验，可根据schema进行强转。
                    cleaningLog = streamSource.map(new TypeMapCompletedFunction()).name("TypeMapCompletedFunction")
                            .setParallelism(FlowWriteConfig.TRANSFORM_PARALLELISM);
-
                    break;
                default:
                    //对原始日志进行处理补全转换等，不对日志字段类型做校验。
                    cleaningLog = streamSource.map(new MapCompletedFunction()).name("MapCompletedFunction")
                            .setParallelism(FlowWriteConfig.TRANSFORM_PARALLELISM);
-
            }

-//            //过滤空数据不发送到Kafka内
+            //过滤空数据不发送到Kafka内
            DataStream<String> result = cleaningLog.filter(new FilterNullFunction()).name("FilterAbnormalData")
                    .setParallelism(FlowWriteConfig.TRANSFORM_PARALLELISM);

            //发送数据到Kafka
-            result.addSink(Producer.getKafkaProducer()).name("LogSinkKafka")
+            result.addSink(KafkaProducer.getKafkaProducer()).name("LogSinkKafka")
                    .setParallelism(FlowWriteConfig.SINK_PARALLELISM);
        } else {
+            DataStreamSource<String> streamSource = environment.addSource(KafkaConsumer.flinkConsumer())
+                    .setParallelism(FlowWriteConfig.SOURCE_PARALLELISM);
+
            //过滤空数据不发送到Kafka内
            DataStream<String> result = streamSource.filter(new FilterNullFunction()).name("FilterOriginalData")
                    .setParallelism(FlowWriteConfig.TRANSFORM_PARALLELISM);
+
            //发送数据到Kafka
-            result.addSink(Producer.getKafkaProducer()).name("LogSinkKafka")
+            result.addSink(KafkaProducer.getKafkaProducer()).name("LogSinkKafka")
                    .setParallelism(FlowWriteConfig.SINK_PARALLELISM);
        }