当前位置:首页 > 问道单机版 > 正文

Flink 全网最全资源(视频、博客、PPT、入门、实战、源码解析、问答等持续更

问道单机数据库修改教程_逍遥问道单机etc修改_单机问道修改装备

有人想问知识星球更新了哪些内容? 值得加入吗?

知识星球目前更新的系列文章:

1.Flink源码分析——源码编译与执行

2.Flink源码分析-项目结构概述

3.Flink源码分析-本地模式启动流程

4.Flink源码分析——StandaloneSession模式启动流程

5.Flink源码分析-Job Manager启动深入分析Standalone Session Cluster启动流程

6.Flink源码分析-Task Manager启动深入分析Standalone Session Cluster启动流程

7.Flink源码分析——分析Batch WordCount程序的执行流程

8.Flink源码分析——分析Streaming WordCount程序的执行流程

9.Flink源码分析——如何获取JobGraph?

10.Flink源码分析-如何获取StreamGraph?

11、Flink源码分析——Flink JobManager的作用是什么?

12、Flink源码分析——Flink TaskManager的作用是什么?

13、Flink源码分析——JobManager处理SubmitJob的过程

14.Flink源码分析——TaskManager处理SubmitJob的过程

15.Flink源码分析——深入解析Flink Checkpoint机制

16.Flink源码分析——深入解析Flink序列化机制

17、Flink源码分析——深入剖析Flink如何管理内存?

除了《学习 Flink 从 1 到 100》源码学习系列文章外,知识星球上也会优先更新《学习 Flink 从 0 到 1》的案例文章,让大家先通过一些 demo 来学习 Flink,然后去深入源码学习!

如果大家在学习 Flink 的过程中遇到什么问题,可以在那里提问,我会优先解答。 我想在这里道歉。 我工作也很忙,所以无法回答微信上的所有问题。

但我们肯定会优先回复知识星球的付费用户。 好在星球上活跃的气氛还可以,很多问题都通过问答得到了解决。

1、为什么使用ValueState保存Job的状态时状态没有恢复?

2、flink中watermark是如何生成的,生成规则是什么,如何用来处理乱序数据?

3、消费Kafka数据时,遇到脏数据或者不符合规则的数据怎么办?

4、如何指定向指定broker读写数据或者从Kafka集群中指定broker的偏移量开始消费?

5、Flink可以通过oozie或者azkaban提交吗?

6、jobmanager挂掉后,为什么无法手动重新提交已提交的作业执行?

7、使用flink-web-ui提交作业并执行,但/opt/flink/log目录下没有日志文件。 请告诉我如何配置flink的日志(包括jobmanager、taskmanager以及每个job自己的日志默认存放的目录)。 ?

8、通过flink仪表板提交的jar存放在哪个目录下?

9.对Kafka消费数据进行etl清洗,并将结果写入hdfs并映射到hive表中。 在压缩格式下,hive可以直接读取flink写入的文件,并根据文件大小或时间滚动生成文件。

10、flink jar包上传到集群并运行。 挂起后,程序重启后会自动从检查点获取挂起期间kafka中未消费的数据。 挂起前的kafka偏移位置会被自动消耗掉。 处理,还是需要一些手工操作?

11. Flink启动时不会自动创建上传jar的路径。 可以指定创建的目录吗?

12、Flink宿到es集群报告slot不足。 最好在一台机器上运行它。 为什么?

13. Fllink to elasticsearch 如何为索引文档创建时间戳?

14. Blink有API文档或demo吗? 生产环境是否推荐使用blink?

15.flink的Python API怎么样? 有很多bug吗?

16.Flink VS Spark Streaming VS Storm VS Kafka Stream

17、你们实时大屏开发的技术架构是怎样的? Flume→kafka→flink→redis,然后后端去redis取数据。 可行吗?

18、在做统计指标时,Flink的计算过程中需要多次读写redis。 感觉很奇怪。 星主有好的解决办法吗?

19、Flink使用场景大解析,列出了很多常见的场景。 你可以仔细参考一下。

20、kafka下沉数据到mysql时,元数据数据为空,mysql数据导入不成功? ? ?

21、ValueState用于保存中间状态。 中间状态在运行时通常被保存。 但手动停止重新运行后,发现中间状态值没有了。 之前出现的键值都是从0开始计数的,这是为什么呢? ? 我需要实施 CheckpointedFunction 吗?

22、如何在yarn jobmanager上配置flink的HA。还是yarn受管理?

23、有两个数据流就连接,其中一个是实时数据流(kafka读取),另一个是配置流。 由于配置流是从关系型数据库读取的,速度较慢,所以当实时数据流流入数据时,配置信息还没有发送出去。 这会导致一些实时数据无法读取配置信息。 目前的措施是在connect方法之后实现flatmap。 在open方法中,预先加载了配置信息。 感觉这个实现方式不太友好。 还有其他的实现方法吗?

24、Flink可以通过oozie或者azkaban提交吗?

25. 不使用YARM部署flink还有其他方案吗? 主要是想解决服务器重启后如何自动启动flink服务的问题? jobmanager挂掉后,为什么无法手动重新提交已提交的作业执行?

26、昨晚在一个作业中清理完相同的数据后,下沉到后端的多个地方(根据业务需求)。 如何保持一致性? (如果一个sink出现故障,另一个sink保证不会插入)

27、flink sql任务在某个阶段会在tm和jm中失去心跳。 是不是因为gc时间太长了?

28、需要统计近两周用户进入商品详情页的来源(1.首页搜索,2.商品渠道搜索,3.其他),为PHP后端提供数据支持。 这个信息是在事件最后报告的,PHP 直接获取有点困难。 我目前的解决方案是使用Flink滚动窗口(半小时)统计用户半小时内的3个源PV,然后根据日期序列化,直接写入mysql。 PHP从数据库中解析出来,然后统计近两周的比例。 问题1:flink适合这个需求吗? 问题2:我的解决方案总感觉很奇怪。 有什么好的解决办法吗?

29. 一个任务槽只能运行一个任务,还是可以同时运行多个任务? 如果任务槽运行的任务比较大,会不会出现OOM?

30.如何监控在线flink? 如果整个程序失败了如何自动重启等等。

31、有接触过flink cep规则动态分析吗? 有成型的框架吗?

32. 每个窗口都有水印吗? 窗口是如何根据水印触发或销毁的?

33.CheckPoint和SavePoint有什么区别?

34. Flink 可以在算子之间共享状态吗? 或者老大,有什么办法可以分享状态吗?

35、运行几分钟后,有报告。 查看taskmager日志,报错elasticsearch批量请求null失败,但是我的代码中已经做了null值判断,并过滤掉了。 Flink 版本 1.7.2 es 版本 6.3.1

36、这种情况是应该调整并行度还是配置参数?

37.每个人都用jdbc编写。 您在对各种数据库进行增删查改拼sql的时候是否感觉很累? ps.set代码有很多,你必须计算每个参数的位置。

38、关于datasource的配置,每个taskmanager对应一个datasource吗? 还是每个槽位都对应? 实际操作中,每个slot中的datasource线程池只需要设置为1即可,多了就不用了?

39、kafka中每天都会发生数据丢失的情况。 目前小批量数据每天200万左右。 kafka版本是1.0.0。 该集群共有7个节点。 TOPIC有16个分区,单条消息约1.5k。

40、根据key.hash的绝对值调制并发度并分组。 假设并发度为10,则只有8个分区实际处理数据,其中2个分区从不处理,还有1个分区处理其他数据。 三次如截图所示

41. Flink 不知道它每 7 小时处理什么。 CPU负载每7小时出现一个峰值,5分钟内平均负载超过0.8,如图所示

42. 有 Flink 写的项目推荐吗?我想看看 Flink 写的整个项目是如何组织的,而不仅仅是单个示例

43.Flink源码结构图

44.我想根据不同的业务表(case when)执行不同的redis接收器(hash、set)。 我该如何操作?

45. 哪些数据需要清理? 我已经清理了hdfs中的数据并启动了它或报告了这一点。

46.​​流处理系统中,机器故障恢复后,什么情况下一条消息最多被处理一次? 什么情况下一条消息会至少被处理一次?

47.我的检查点已调整为5分钟。 问题是什么?

48、为什么reduce方法后的事务时间不是最新的,而是第一次进入的时间?

49、在Flink on Yarn模式下,用yarn session脚本启动时,后台没有看到Jobmanager、TaskManager、ApplicationMaster的进程。 我想请问一下是什么原因?因为之前看官网的时候说Jobmanager是一个JVM进程,Taskmanage也是一个JVM进程。

50. 当 Flink on Yarn 时,您必须指定有多少个 TaskManager 以及每个 TaskManager slot 来运行任务。 这感觉不合理,因为用户不知道需要多少个 TaskManager。 Flink有动态启动TaskManager的机制吗?

51、参考这个例子,Flink零基础实用教程:如何计算实时热门商品 | Jark的博客,聚合窗口时使用keywindow,使用timeWindowAll,然后聚合时使用aggregate(new CustomAggregateFunction(), new CustomWindowFunction())),打印结果后发现窗口中已经使用了重复的数据,并且统计结果没有变化。 去掉CustomWindowFunction()正常吗?很奇怪

52、用户进入商品预订页面(端到端上报),填写了一些信息(端到端上报),但是半小时内没有生成订单,然后向该类型发送推送用户的。 1、flink适合这个需求吗? 2. 如果合适,请给出一个总体思路。

53、业务场景是实时获取数据并存储到redis中。 如何按日、周、月将其存储在redis中? (比如一天后会自动改变存放redis的位置)

54. 有人有 AggregatingState 的例子吗? 我感觉官方的例子和官网上的不一样?

55.flink-jdbc jar 可用吗? 为什么我找不到它? 未找到 1.8.0,但找到 1.6.2。

56.有一个关于保存点的问题。 操作过程是取消任务时设置保存点,更新任务,然后从保存点启动任务。 现在我遇到一个问题。 假设我重写了其中一个运算符,该运算符最初是通过状态编写的。 ,有用定时器,现在改了之后,用window,反正实现方法完全不一样了; 从保存点启动时总是会报错,重启后,无法恢复原来的保存点,并且会出现大量数据重复等问题,如何保证数据不丢失、不重复等等,并恢复到停止时的时间? 我现在想到的是记录kafka的offset,然后处理。 看来做起来不太容易。 有什么解决办法吗?

57、需要在Flink中计算app页面访问时长,消费Kafka进行计算,然后输出到Kafka。 第一个日志需要等待第二个日志的时间戳来计算访问时长。 我想问的是,flink是分布式的,那么它能保证执行顺序吗? 是否有可能先执行后面的数据?

58.我们公司想建一个实时大屏。 现有技术是利用spark将业务所需的指标拉取到redis中并实时存储,然后利用spark Streaming流来计算简单的乘除运算。 这些指标包括每个月的比较。 如何使用flink来简化上述过程?

59.Flink on YARN方法,不知道这个是否正确。 纱线会话脚本实际上准备了纱线环境。 执行run任务时,根据yarn-session初始化的yarnDescription,将flink任务的jobGraph提交给yarn执行。

60、如果相同的代码逻辑写在单独的main函数中,Kafka是可以成功消费的。 如果是写在spring boot程序中,接受外部请求,然后执行同样的逻辑,Kafka是无法被消费的。 你遇到过吗? 您能否提供一些故障排除建议,或者在哪里设置断点? 你能明白为什么Kafka消息无法被消费吗?

61、flink能否在一个流中实现订单表和订单商品表的一对多关系? 能否实现以订单表为主,一张订单订购多种产品的需求呢?

62、使用中间状态时,如果状态中保存了一些中间信息,是否需要在redis中再保存一份用于第三方存储?

63. 你能发表一篇关于flink state的文章吗? 什么场景应该使用什么样的状态? 例如,最简单的一种是实时累积状态更新。

64.博主有使用flink双流Join的经验吗?有什么常见问题吗?

65. 窗口触发条件问题

66.flink定时任务怎么做? 有相关demo吗?

67、流式处理时如何保证或检测数据的一致性?

68、重启flink单机集群,报job not found异常。

69. Kafka 数据使用 org.apache.kafka.common.serialization.ByteArraySerialize 进行序列化。 Flink在消费时如何通过FlinkKafkaConsumer创建DataStream?

70.现在公司有一个要求。 部分用户的支付日志是通过SLS收集的。 处理这些日志后,将结果写入MySQL。 关键是这些日志对于一个用户来说可能有几个连续的日志,因为当发起请求时,响应等每个环节都有对应的日志。 只有对这些日志进行综合处理,才能得到最终的结果。 博主有什么好的方法吗?

71、flink支持hadoop主备吗? 如果hadoop主节点故障,flink会切换到hadoop备份节点吗?

72、请问大家:在实际的flink开发中,你用scala多还是java多? 我刚刚开始使用flink大数据scala。 我需要深入学习吗?

73. 我使用的是 flink 1.7.2,最近使用了 split Streaming,但底层的 SplitStream 被标记为 Deprecated。 官方不建议使用分流吗?

74.正确理解KeyBy以及数据倾斜问题的解释

75.使用flink时,遇到一个问题。 检查点大约是2G。 当出现背压时,flink会重启。 您遇到过这个问题吗?

76. Flink使用yarn-session部署。 如何保证yarn-session的稳定性? 如果yarn-session挂起,则需要重新部署yarn-session。 如何恢复上一个纱线会话的作业? 之前的检查点还能用吗?

77. 我想问一下水槽的事。 我当前的需求是消费来自Kafka的Json数据。 这个Json数据字段可能会增加,然后将获得的Json数据以parquet格式存储到HDFS中。 现在我可以获取 json 数据的架构,但我不知道在保存 parquet 文件时如何处理它。 首先,flink 没有特殊格式的 parquet。 其次,如何将具有可变字段的 Json 处理成 parquet 合适?

78、flink 如何在大量数据中进行去重计算。

79. 即使没有数据,flink 也能定时执行算子吗?

80. 使用rocksdb status后端,如何实现自定义POJO的序列化和反序列化? 有相关demo吗?

81. 检查点总是失败。 是自定义POJO的问题吗?它可以在本地运行,但不能在HDFS上运行。 网上有很多类似的问题,但没有很好的解释或解决方案。

82、cep规则如图所示。 当开始事件进入时,时间为00:00:15,然后进入结束事件,时间为00:00:40。 我发现规则无法命中。 “within”是指从开始事件开始计时吗? 还是像window一样按照系统时间来划分? 如果是后者,如何配置才能从头开始计时呢?

83、Flink聚合结果直接写入Mysql的幂等设计问题

84.Flink作业打开检查点并使用rocksdb。 通过观察hdfs上的checkpoint目录,为什么总副本数会急剧增加和减少?

85、【Flink提交任务的jar包可以指定HDFS上的路径吗】()

86、在flink web Ui上提交的任务,并行度设置为2,flink独立部署。 这两个任务已经正常运行了几天。 今天有一个逻辑需要修改,所以取消了任务(我也尝试过在命令行取消)。 结果taskmanger挂了一个节点。后来尝试用其他任务,也导致节点挂了。

87.我很长一段时间都在纠结动态更新配置的问题(配置存储在一个静态的map变量中,有一个线程定期去数据库取数据然后保存在这个map中进行更新)。 本地idea调试没有问题,集群部署一直报错。 空指针异常。 如果下游算子使用这个静态变量map来获取key,在cluster模式下会出现空指针异常,估计无法获取map。

88.批量写入MySQL并完成HBase批量写入

89、使用flink清洗数据,需要访问redis,根据redis的结果决定是否将数据传递给下游。 这可能吗?

90、监控页面流处理时,发送和接收字节均为0。

91.沉入MySQL。 如果直接使用idea就可以运行并且成功。 大代码使用的是FlinkKafkaConsumer010,而我的Flink版本是1.7,kafka版本是2.12,所以使用FlinkKafkaConsumer010的时候出现了问题,所以我改成FlinkKafkaConsumer就可以在idea中直接完成sink到MySQL了,但是为什么当我将程序打成Jar包运行,报找不到FlinkKafkaConsumer?

92、无法计算SocketTextStreamWordCount中输入的汉字统计。 如何解决这个问题? 我想代码需要修改一下。 这个例子应该是英文的默认统计。

93. Flink应用程序在本地IDE中运行时的并行度是如何计算的?

等等等等,还有很多。 我的手因复制和粘贴而疲惫不堪。

另外,关于Flink的一些最新信息也会及时分享(包括数据、视频、PPT、优秀博客,这些都会持续更新,保证全网最完整的信息,因为我知道Flink目前没有太多信息)

关于学习Flink的一些想法和建议

Flink 获取全网最全面的信息,并且持续更新。 点击获取。

然后是Planet用户的一些请求:偶尔分享一些我遇到的Flink项目的实践经验,生产项目中遇到的问题如何解决等等!

1.如何查看自己的Job执行计划并获取执行计划图

2、实时报警遇到Kafka千万级数据积累怎么办?

3.如何比较流数据中两个数据的大小?各种解决方案

4.kafka系列文章

5. Flink环境部署、应用配置和运行应用

6. 监控平台应该有这样的结构

7.《大数据“重磅炸弹”——实时计算框架Flink》专栏系列目录大纲

8、《大数据“重磅炸弹”——实时计算框架Flink》聊天付费文章

9. Apache Flink 如何管理内存?

10.K8s 上的 Flink

当然,除了更新Flink相关的东西之外,我也会更新一些大数据相关的东西。 因为我个人之前并不是大数据开发人员,所以现在我必须要补补一些知识! 总之,希望所有进来的孩子都能共同进步!

1.Java核心知识点整理.pdf

2.如果我是面试官,我会问你这些问题

3.Kafka系列文章和学习视频

4.重新定义Flink第二期pdf

5.GitChat Flink 文章问答记录

6. Java并发课程需要掌握的知识点

7.分布式数据流的轻量级异步快照

8. Apache Flink™ - 单引擎中的流和批处理

9. Flink状态管理和容错机制

10、Flink流批一体化技术架构及其在阿里巴巴的实践

11、Flink Checkpoint——轻量级分布式快照

12、Flink流批一体化技术架构及其在阿里巴巴的实践

13. 使用 Apache Flink 进行流处理 pdf