当前位置：首页 > 问道单机版 > 正文

Flink 全网最全资源（视频、博客、PPT、入门、实战、源码解析、问答等持续更

admin
问道单机版
2023-09-17
88

问道单机数据库修改教程_逍遥问道单机etc修改_单机问道修改装备

有人想问知识星球更新了哪些内容？值得加入吗？

知识星球目前更新的系列文章：

1.Flink源码分析——源码编译与执行

2.Flink源码分析-项目结构概述

3.Flink源码分析-本地模式启动流程

4.Flink源码分析——StandaloneSession模式启动流程

5.Flink源码分析-Job Manager启动深入分析Standalone Session Cluster启动流程

6.Flink源码分析-Task Manager启动深入分析Standalone Session Cluster启动流程

7.Flink源码分析——分析Batch WordCount程序的执行流程

8.Flink源码分析——分析Streaming WordCount程序的执行流程

9.Flink源码分析——如何获取JobGraph？

10.Flink源码分析-如何获取StreamGraph？

11、Flink源码分析——Flink JobManager的作用是什么？

12、Flink源码分析——Flink TaskManager的作用是什么？

13、Flink源码分析——JobManager处理SubmitJob的过程

14.Flink源码分析——TaskManager处理SubmitJob的过程

15.Flink源码分析——深入解析Flink Checkpoint机制

16.Flink源码分析——深入解析Flink序列化机制

17、Flink源码分析——深入剖析Flink如何管理内存？

除了《学习 Flink 从 1 到 100》源码学习系列文章外，知识星球上也会优先更新《学习 Flink 从 0 到 1》的案例文章，让大家先通过一些 demo 来学习 Flink，然后去深入源码学习！

如果大家在学习 Flink 的过程中遇到什么问题，可以在那里提问，我会优先解答。我想在这里道歉。我工作也很忙，所以无法回答微信上的所有问题。

但我们肯定会优先回复知识星球的付费用户。好在星球上活跃的气氛还可以，很多问题都通过问答得到了解决。

1、为什么使用ValueState保存Job的状态时状态没有恢复？

2、flink中watermark是如何生成的，生成规则是什么，如何用来处理乱序数据？

3、消费Kafka数据时，遇到脏数据或者不符合规则的数据怎么办？

4、如何指定向指定broker读写数据或者从Kafka集群中指定broker的偏移量开始消费？

5、Flink可以通过oozie或者azkaban提交吗？

6、jobmanager挂掉后，为什么无法手动重新提交已提交的作业执行？

7、使用flink-web-ui提交作业并执行，但/opt/flink/log目录下没有日志文件。请告诉我如何配置flink的日志（包括jobmanager、taskmanager以及每个job自己的日志默认存放的目录）。？

8、通过flink仪表板提交的jar存放在哪个目录下？

9.对Kafka消费数据进行etl清洗，并将结果写入hdfs并映射到hive表中。在压缩格式下，hive可以直接读取flink写入的文件，并根据文件大小或时间滚动生成文件。

10、flink jar包上传到集群并运行。挂起后，程序重启后会自动从检查点获取挂起期间kafka中未消费的数据。挂起前的kafka偏移位置会被自动消耗掉。处理，还是需要一些手工操作？

11. Flink启动时不会自动创建上传jar的路径。可以指定创建的目录吗？

12、Flink宿到es集群报告slot不足。最好在一台机器上运行它。为什么？

13. Fllink to elasticsearch 如何为索引文档创建时间戳？

14. Blink有API文档或demo吗？生产环境是否推荐使用blink？

15.flink的Python API怎么样？有很多bug吗？

16.Flink VS Spark Streaming VS Storm VS Kafka Stream

17、你们实时大屏开发的技术架构是怎样的？ Flume→kafka→flink→redis，然后后端去redis取数据。可行吗？

18、在做统计指标时，Flink的计算过程中需要多次读写redis。感觉很奇怪。星主有好的解决办法吗？

19、Flink使用场景大解析，列出了很多常见的场景。你可以仔细参考一下。

20、kafka下沉数据到mysql时，元数据数据为空，mysql数据导入不成功？？？

21、ValueState用于保存中间状态。中间状态在运行时通常被保存。但手动停止重新运行后，发现中间状态值没有了。之前出现的键值都是从0开始计数的，这是为什么呢？？我需要实施 CheckpointedFunction 吗？

22、如何在yarn jobmanager上配置flink的HA。还是yarn受管理？

23、有两个数据流就连接，其中一个是实时数据流（kafka读取），另一个是配置流。由于配置流是从关系型数据库读取的，速度较慢，所以当实时数据流流入数据时，配置信息还没有发送出去。这会导致一些实时数据无法读取配置信息。目前的措施是在connect方法之后实现flatmap。在open方法中，预先加载了配置信息。感觉这个实现方式不太友好。还有其他的实现方法吗？

24、Flink可以通过oozie或者azkaban提交吗？

25. 不使用YARM部署flink还有其他方案吗？主要是想解决服务器重启后如何自动启动flink服务的问题？ jobmanager挂掉后，为什么无法手动重新提交已提交的作业执行？

26、昨晚在一个作业中清理完相同的数据后，下沉到后端的多个地方（根据业务需求）。如何保持一致性？（如果一个sink出现故障，另一个sink保证不会插入）

27、flink sql任务在某个阶段会在tm和jm中失去心跳。是不是因为gc时间太长了？

28、需要统计近两周用户进入商品详情页的来源（1.首页搜索，2.商品渠道搜索，3.其他），为PHP后端提供数据支持。这个信息是在事件最后报告的，PHP 直接获取有点困难。我目前的解决方案是使用Flink滚动窗口（半小时）统计用户半小时内的3个源PV，然后根据日期序列化，直接写入mysql。 PHP从数据库中解析出来，然后统计近两周的比例。问题1：flink适合这个需求吗？问题2：我的解决方案总感觉很奇怪。有什么好的解决办法吗？

29. 一个任务槽只能运行一个任务，还是可以同时运行多个任务？如果任务槽运行的任务比较大，会不会出现OOM？

30.如何监控在线flink？如果整个程序失败了如何自动重启等等。

31、有接触过flink cep规则动态分析吗？有成型的框架吗？

32. 每个窗口都有水印吗？窗口是如何根据水印触发或销毁的？

33.CheckPoint和SavePoint有什么区别？

34. Flink 可以在算子之间共享状态吗？或者老大，有什么办法可以分享状态吗？

35、运行几分钟后，有报告。查看taskmager日志，报错elasticsearch批量请求null失败，但是我的代码中已经做了null值判断，并过滤掉了。 Flink 版本 1.7.2 es 版本 6.3.1

36、这种情况是应该调整并行度还是配置参数？

37.每个人都用jdbc编写。您在对各种数据库进行增删查改拼sql的时候是否感觉很累？ ps.set代码有很多，你必须计算每个参数的位置。

38、关于datasource的配置，每个taskmanager对应一个datasource吗？还是每个槽位都对应？实际操作中，每个slot中的datasource线程池只需要设置为1即可，多了就不用了？

39、kafka中每天都会发生数据丢失的情况。目前小批量数据每天200万左右。 kafka版本是1.0.0。该集群共有7个节点。 TOPIC有16个分区，单条消息约1.5k。

40、根据key.hash的绝对值调制并发度并分组。假设并发度为10，则只有8个分区实际处理数据，其中2个分区从不处理，还有1个分区处理其他数据。三次如截图所示

41. Flink 不知道它每 7 小时处理什么。 CPU负载每7小时出现一个峰值，5分钟内平均负载超过0.8，如图所示

42. 有 Flink 写的项目推荐吗？我想看看 Flink 写的整个项目是如何组织的，而不仅仅是单个示例

43.Flink源码结构图

44.我想根据不同的业务表（case when）执行不同的redis接收器（hash、set）。我该如何操作？

45. 哪些数据需要清理？我已经清理了hdfs中的数据并启动了它或报告了这一点。

46.流处理系统中，机器故障恢复后，什么情况下一条消息最多被处理一次？什么情况下一条消息会至少被处理一次？

47.我的检查点已调整为5分钟。问题是什么？

48、为什么reduce方法后的事务时间不是最新的，而是第一次进入的时间？

49、在Flink on Yarn模式下，用yarn session脚本启动时，后台没有看到Jobmanager、TaskManager、ApplicationMaster的进程。我想请问一下是什么原因？因为之前看官网的时候说Jobmanager是一个JVM进程，Taskmanage也是一个JVM进程。

50. 当 Flink on Yarn 时，您必须指定有多少个 TaskManager 以及每个 TaskManager slot 来运行任务。这感觉不合理，因为用户不知道需要多少个 TaskManager。 Flink有动态启动TaskManager的机制吗？

51、参考这个例子，Flink零基础实用教程：如何计算实时热门商品 | Jark的博客，聚合窗口时使用keywindow，使用timeWindowAll，然后聚合时使用aggregate(new CustomAggregateFunction(), new CustomWindowFunction()))，打印结果后发现窗口中已经使用了重复的数据，并且统计结果没有变化。去掉CustomWindowFunction()正常吗？很奇怪

52、用户进入商品预订页面（端到端上报），填写了一些信息（端到端上报），但是半小时内没有生成订单，然后向该类型发送推送用户的。 1、flink适合这个需求吗？ 2. 如果合适，请给出一个总体思路。

53、业务场景是实时获取数据并存储到redis中。如何按日、周、月将其存储在redis中？（比如一天后会自动改变存放redis的位置）

54. 有人有 AggregatingState 的例子吗？我感觉官方的例子和官网上的不一样？

55.flink-jdbc jar 可用吗？为什么我找不到它？未找到 1.8.0，但找到 1.6.2。

56.有一个关于保存点的问题。操作过程是取消任务时设置保存点，更新任务，然后从保存点启动任务。现在我遇到一个问题。假设我重写了其中一个运算符，该运算符最初是通过状态编写的。，有用定时器，现在改了之后，用window，反正实现方法完全不一样了；从保存点启动时总是会报错，重启后，无法恢复原来的保存点，并且会出现大量数据重复等问题，如何保证数据不丢失、不重复等等，并恢复到停止时的时间？我现在想到的是记录kafka的offset，然后处理。看来做起来不太容易。有什么解决办法吗？

57、需要在Flink中计算app页面访问时长，消费Kafka进行计算，然后输出到Kafka。第一个日志需要等待第二个日志的时间戳来计算访问时长。我想问的是，flink是分布式的，那么它能保证执行顺序吗？是否有可能先执行后面的数据？

58.我们公司想建一个实时大屏。现有技术是利用spark将业务所需的指标拉取到redis中并实时存储，然后利用spark Streaming流来计算简单的乘除运算。这些指标包括每个月的比较。如何使用flink来简化上述过程？

59.Flink on YARN方法，不知道这个是否正确。纱线会话脚本实际上准备了纱线环境。执行run任务时，根据yarn-session初始化的yarnDescription，将flink任务的jobGraph提交给yarn执行。

60、如果相同的代码逻辑写在单独的main函数中，Kafka是可以成功消费的。如果是写在spring boot程序中，接受外部请求，然后执行同样的逻辑，Kafka是无法被消费的。你遇到过吗？您能否提供一些故障排除建议，或者在哪里设置断点？你能明白为什么Kafka消息无法被消费吗？

61、flink能否在一个流中实现订单表和订单商品表的一对多关系？能否实现以订单表为主，一张订单订购多种产品的需求呢？

62、使用中间状态时，如果状态中保存了一些中间信息，是否需要在redis中再保存一份用于第三方存储？

63. 你能发表一篇关于flink state的文章吗？什么场景应该使用什么样的状态？例如，最简单的一种是实时累积状态更新。

64.博主有使用flink双流Join的经验吗？有什么常见问题吗？

65. 窗口触发条件问题

66.flink定时任务怎么做？有相关demo吗？

67、流式处理时如何保证或检测数据的一致性？

68、重启flink单机集群，报job not found异常。

69. Kafka 数据使用 org.apache.kafka.common.serialization.ByteArraySerialize 进行序列化。 Flink在消费时如何通过FlinkKafkaConsumer创建DataStream？

70.现在公司有一个要求。部分用户的支付日志是通过SLS收集的。处理这些日志后，将结果写入MySQL。关键是这些日志对于一个用户来说可能有几个连续的日志，因为当发起请求时，响应等每个环节都有对应的日志。只有对这些日志进行综合处理，才能得到最终的结果。博主有什么好的方法吗？

71、flink支持hadoop主备吗？如果hadoop主节点故障，flink会切换到hadoop备份节点吗？

72、请问大家：在实际的flink开发中，你用scala多还是java多？我刚刚开始使用flink大数据scala。我需要深入学习吗？

73. 我使用的是 flink 1.7.2，最近使用了 split Streaming，但底层的 SplitStream 被标记为 Deprecated。官方不建议使用分流吗？

74.正确理解KeyBy以及数据倾斜问题的解释

75.使用flink时，遇到一个问题。检查点大约是2G。当出现背压时，flink会重启。您遇到过这个问题吗？

76. Flink使用yarn-session部署。如何保证yarn-session的稳定性？如果yarn-session挂起，则需要重新部署yarn-session。如何恢复上一个纱线会话的作业？之前的检查点还能用吗？

77. 我想问一下水槽的事。我当前的需求是消费来自Kafka的Json数据。这个Json数据字段可能会增加，然后将获得的Json数据以parquet格式存储到HDFS中。现在我可以获取 json 数据的架构，但我不知道在保存 parquet 文件时如何处理它。首先，flink 没有特殊格式的 parquet。其次，如何将具有可变字段的 Json 处理成 parquet 合适？

78、flink 如何在大量数据中进行去重计算。

79. 即使没有数据，flink 也能定时执行算子吗？

80. 使用rocksdb status后端，如何实现自定义POJO的序列化和反序列化？有相关demo吗？

81. 检查点总是失败。是自定义POJO的问题吗？它可以在本地运行，但不能在HDFS上运行。网上有很多类似的问题，但没有很好的解释或解决方案。

82、cep规则如图所示。当开始事件进入时，时间为00:00:15，然后进入结束事件，时间为00:00:40。我发现规则无法命中。 “within”是指从开始事件开始计时吗？还是像window一样按照系统时间来划分？如果是后者，如何配置才能从头开始计时呢？

83、Flink聚合结果直接写入Mysql的幂等设计问题

84.Flink作业打开检查点并使用rocksdb。通过观察hdfs上的checkpoint目录，为什么总副本数会急剧增加和减少？

85、【Flink提交任务的jar包可以指定HDFS上的路径吗】（）

86、在flink web Ui上提交的任务，并行度设置为2，flink独立部署。这两个任务已经正常运行了几天。今天有一个逻辑需要修改，所以取消了任务（我也尝试过在命令行取消）。结果taskmanger挂了一个节点。后来尝试用其他任务，也导致节点挂了。

87.我很长一段时间都在纠结动态更新配置的问题（配置存储在一个静态的map变量中，有一个线程定期去数据库取数据然后保存在这个map中进行更新）。本地idea调试没有问题，集群部署一直报错。空指针异常。如果下游算子使用这个静态变量map来获取key，在cluster模式下会出现空指针异常，估计无法获取map。

88.批量写入MySQL并完成HBase批量写入

89、使用flink清洗数据，需要访问redis，根据redis的结果决定是否将数据传递给下游。这可能吗？

90、监控页面流处理时，发送和接收字节均为0。

91.沉入MySQL。如果直接使用idea就可以运行并且成功。大代码使用的是FlinkKafkaConsumer010，而我的Flink版本是1.7，kafka版本是2.12，所以使用FlinkKafkaConsumer010的时候出现了问题，所以我改成FlinkKafkaConsumer就可以在idea中直接完成sink到MySQL了，但是为什么当我将程序打成Jar包运行，报找不到FlinkKafkaConsumer？

92、无法计算SocketTextStreamWordCount中输入的汉字统计。如何解决这个问题？我想代码需要修改一下。这个例子应该是英文的默认统计。

93. Flink应用程序在本地IDE中运行时的并行度是如何计算的？

等等等等，还有很多。我的手因复制和粘贴而疲惫不堪。

另外，关于Flink的一些最新信息也会及时分享（包括数据、视频、PPT、优秀博客，这些都会持续更新，保证全网最完整的信息，因为我知道Flink目前没有太多信息）

关于学习Flink的一些想法和建议

Flink 获取全网最全面的信息，并且持续更新。点击获取。

然后是Planet用户的一些请求：偶尔分享一些我遇到的Flink项目的实践经验，生产项目中遇到的问题如何解决等等！

1.如何查看自己的Job执行计划并获取执行计划图

2、实时报警遇到Kafka千万级数据积累怎么办？

3.如何比较流数据中两个数据的大小？各种解决方案

4.kafka系列文章

5. Flink环境部署、应用配置和运行应用