舒菀菀 发表于 2025-7-24 13:22:51

flinkcdc中checkpoint不成功问题排查

本文分享自天翼云开发者社区《flinkcdc中checkpoint不成功问题排查》,作者:徐****东
使用flink-1.16和flinkcdc-3.0进行数据接入,采用standalone模式。运行一段时间后checkpoint开始失败,但日志中没有报错信息。

因savepoint和checkpoint机制一致,使用手动打savepoint断点的方式,尝试查明失败原因。执行指令:
/usr/local/flink/bin/flink savepoint ${job_id} /usr/local/flink-cdc/savepoint/ 
执行后报错,发现如下报错信息。
:Caused by: org.apache.flink.util.SerializedThrowable: java.util.concurrent.ExecutionException: java.io.IOException: Size of the state is larger than the maximum permitted memory-backed state. Size=5325329, maxSize=5242880. Consider using a different checkpoint storage, like the FileSystemCheckpointStorage. 
经分析,是作业的state,默认使用内存存储。随着作业的运行,state超出允许的最大内存,所以无法存储,导致checkpoint被cancel进而失败。 
直接原因是作业的state,默认使用内存存储。随着作业的运行,state超出允许的最大内存,所以无法存储,导致checkpoint被cancel进而失败。 
尝试在flink-conf.yaml中添加如下参数,加大内存限制。发现checkpoint仍会超出内存限制失败。排查源码发现,flink在1.16已去掉该参数。官方建议standalone模式仅作为测试,因此不提供加大内存限制的方式。
state.backend.memory.max-state-size: 10000000 
正确解决办法为,使用hdfs存储checkpoint。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

客臂渐 发表于 2025-12-2 14:16:14

懂技术并乐意极积无私分享的人越来越少。珍惜

类饲冰 发表于 2025-12-6 15:20:36

分享、互助 让互联网精神温暖你我

轩辕娅童 发表于 2025-12-19 23:22:24

感谢分享

郏琼芳 发表于 2025-12-20 11:53:54

感谢分享,学习下。

全阳霁 发表于 2026-1-2 11:47:27

喜欢鼓捣这些软件,现在用得少,谢谢分享!

师佳思 发表于 2026-1-2 19:25:01

热心回复!

浅皮懔 发表于 2026-1-4 00:38:48

懂技术并乐意极积无私分享的人越来越少。珍惜

郗燕岚 发表于 2026-1-12 22:46:02

懂技术并乐意极积无私分享的人越来越少。珍惜

箝德孜 发表于 2026-1-15 17:00:03

yyds。多谢分享

佟棠华 发表于 2026-1-17 16:27:18

感谢分享

郏琼芳 发表于 2026-1-18 13:43:27

感谢分享,学习下。

东门芳洲 发表于 2026-1-19 07:59:06

这个有用。

蝙俚 发表于 2026-1-20 16:23:46

懂技术并乐意极积无私分享的人越来越少。珍惜

鞍汉 发表于 2026-1-23 03:52:31

谢谢分享,辛苦了

接快背 发表于 2026-1-24 19:03:42

热心回复!

汪之亦 发表于 2026-1-29 03:47:54

这个好,看起来很实用

哈梨尔 发表于 2026-1-30 02:57:11

yyds。多谢分享

但婆 发表于 2026-2-2 11:30:29

分享、互助 让互联网精神温暖你我

忿惺噱 发表于 2026-2-4 17:47:27

感谢,下载保存了
页: [1] 2
查看完整版本: flinkcdc中checkpoint不成功问题排查