apache
diff --git a/‎fluss-flink/fluss-flink-common/src/main/java/org/apache/fluss/flink/lake/LakeSplitGenerator.java
Lines changed: 34 additions & 16 deletions b/‎fluss-flink/fluss-flink-common/src/main/java/org/apache/fluss/flink/lake/LakeSplitGenerator.java
Lines changed: 34 additions & 16 deletions
diff --git a/‎fluss-flink/fluss-flink-common/src/main/java/org/apache/fluss/flink/source/FlinkSource.java
Lines changed: 3 additions & 1 deletion b/‎fluss-flink/fluss-flink-common/src/main/java/org/apache/fluss/flink/source/FlinkSource.java
Lines changed: 3 additions & 1 deletion
diff --git a/‎fluss-flink/fluss-flink-common/src/main/java/org/apache/fluss/flink/source/enumerator/FlinkSourceEnumerator.java
Lines changed: 64 additions & 6 deletions b/‎fluss-flink/fluss-flink-common/src/main/java/org/apache/fluss/flink/source/enumerator/FlinkSourceEnumerator.java
Lines changed: 64 additions & 6 deletions
@@ -75,7 +75,11 @@ public LakeSplitGenerator(
         this.listPartitionSupplier = listPartitionSupplier;
     }
 
-    public List<SourceSplitBase> generateHybridLakeSplits(Map<Long, String> newPartitionNameById)
+    public List<SourceSplitBase> generateHybridLakeSplits(
+            Map<Long, String> newPartitionNameById,
+            boolean loadLakeSplits,
+            List<LakeSplit> remainingLakeSplits,
+            Map<TableBucket, Long> tableBucketsOffsetState)
             throws Exception {
         // get the file store
         LakeSnapshot lakeSnapshotInfo =
@@ -84,17 +88,32 @@ public List<SourceSplitBase> generateHybridLakeSplits(Map<Long, String> newParti
         boolean isLogTable = !tableInfo.hasPrimaryKey();
         boolean isPartitioned = tableInfo.isPartitioned();
 
-        Map<String, Map<Integer, List<LakeSplit>>> lakeSplits =
-                groupLakeSplits(
-                        lakeSource
-                                .createPlanner(
-                                        (LakeSource.PlannerContext) lakeSnapshotInfo::getSnapshotId)
-                                .plan());
-
-        if (lakeSplits.isEmpty()) {
-            return Collections.emptyList();
+        Map<String, Map<Integer, List<LakeSplit>>> lakeSplits;
+        if (remainingLakeSplits.isEmpty()) {
+            if (loadLakeSplits) {
+                lakeSplits = Collections.emptyMap();
+            } else {
+                lakeSplits =
+                        groupLakeSplits(
+                                lakeSource
+                                        .createPlanner(
+                                                (LakeSource.PlannerContext)
+                                                        lakeSnapshotInfo::getSnapshotId)
+                                        .plan());
+            }
+        } else {
+            lakeSplits = groupLakeSplits(remainingLakeSplits);
         }
 
+        // TODO 注释掉是否有问题, 看单元测试结果
+        //        if (lakeSplits.isEmpty()) {
+        //            return Collections.emptyList();
+        //        }
+        Map<TableBucket, Long> tableBucketsOffset = lakeSnapshotInfo.getTableBucketsOffset();
+        if (!tableBucketsOffsetState.isEmpty()) {
+            // TODO tableBucketsOffsetState 未赋值
+            tableBucketsOffset = tableBucketsOffsetState;
+        }
         if (isPartitioned) {
             Map<Long, String> partitionNameById;
             if (newPartitionNameById.isEmpty()) {
@@ -110,16 +129,13 @@ public List<SourceSplitBase> generateHybridLakeSplits(Map<Long, String> newParti
             }
 
             return generatePartitionTableSplit(
-                    lakeSplits,
-                    isLogTable,
-                    lakeSnapshotInfo.getTableBucketsOffset(),
-                    partitionNameById);
+                    lakeSplits, isLogTable, tableBucketsOffset, partitionNameById);
         } else {
             Map<Integer, List<LakeSplit>> nonPartitionLakeSplits =
                     lakeSplits.values().iterator().next();
             // non-partitioned table
             return generateNoPartitionedTableSplit(
-                    nonPartitionLakeSplits, isLogTable, lakeSnapshotInfo.getTableBucketsOffset());
+                    nonPartitionLakeSplits, isLogTable, tableBucketsOffset);
         }
     }
 
@@ -224,10 +240,12 @@ private List<SourceSplitBase> generateSplit(
             Map<Integer, Long> bucketEndOffset) {
         List<SourceSplitBase> splits = new ArrayList<>();
         if (isLogTable) {
+            int needInitOffsetBucketsNum = bucketCount;
             if (lakeSplits != null) {
                 splits.addAll(toLakeSnapshotSplits(lakeSplits, partitionName, partitionId));
+                needInitOffsetBucketsNum = lakeSplits.size();
             }
-            for (int bucket = 0; bucket < bucketCount; bucket++) {
+            for (int bucket = 0; bucket < needInitOffsetBucketsNum; bucket++) {
                 TableBucket tableBucket =
                         new TableBucket(tableInfo.getTableId(), partitionId, bucket);
                 Long snapshotLogOffset = tableBucketSnapshotLogOffset.get(tableBucket);
 
@@ -161,6 +161,8 @@ public SplitEnumerator<SourceSplitBase, SourceEnumeratorState> restoreEnumerator
                 splitEnumeratorContext,
                 sourceEnumeratorState.getAssignedBuckets(),
                 sourceEnumeratorState.getAssignedPartitions(),
+                sourceEnumeratorState.getRemainingLakeSnapshotSplits(),
+                sourceEnumeratorState.getTableBucketsOffset(),
                 offsetsInitializer,
                 scanPartitionDiscoveryIntervalMs,
                 streaming,
@@ -175,7 +177,7 @@ public SimpleVersionedSerializer<SourceSplitBase> getSplitSerializer() {
 
     @Override
     public SimpleVersionedSerializer<SourceEnumeratorState> getEnumeratorCheckpointSerializer() {
-        return FlussSourceEnumeratorStateSerializer.INSTANCE;
+        return new FlussSourceEnumeratorStateSerializer(lakeSource);
     }
 
     @Override
 
@@ -24,6 +24,7 @@
 import org.apache.fluss.config.ConfigOptions;
 import org.apache.fluss.config.Configuration;
 import org.apache.fluss.flink.lake.LakeSplitGenerator;
+import org.apache.fluss.flink.lake.split.LakeSnapshotSplit;
 import org.apache.fluss.flink.source.enumerator.initializer.BucketOffsetsRetrieverImpl;
 import org.apache.fluss.flink.source.enumerator.initializer.NoStoppingOffsetsInitializer;
 import org.apache.fluss.flink.source.enumerator.initializer.OffsetsInitializer;
@@ -111,6 +112,10 @@ public class FlinkSourceEnumerator
     /** buckets that have been assigned to readers. */
     private final Set<TableBucket> assignedTableBuckets;
 
+    private final List<LakeSnapshotSplit> remainingLakeSnapshotSplits;
+
+    private final Map<TableBucket, Long> tableBucketsOffset;
+
     private final long scanPartitionDiscoveryIntervalMs;
 
     private final boolean streaming;
@@ -129,6 +134,8 @@ public class FlinkSourceEnumerator
 
     private boolean lakeEnabled = false;
 
+    private boolean loadLakeSplits = true;
+
     private volatile boolean closed = false;
 
     private final List<FieldEqual> partitionFilters;
@@ -177,6 +184,8 @@ public FlinkSourceEnumerator(
                 context,
                 Collections.emptySet(),
                 Collections.emptyMap(),
+                Collections.emptyList(),
+                Collections.emptyMap(),
                 startingOffsetsInitializer,
                 scanPartitionDiscoveryIntervalMs,
                 streaming,
@@ -192,6 +201,8 @@ public FlinkSourceEnumerator(
             SplitEnumeratorContext<SourceSplitBase> context,
             Set<TableBucket> assignedTableBuckets,
             Map<Long, String> assignedPartitions,
+            List<LakeSnapshotSplit> remainingLakeSnapshotSplits,
+            Map<TableBucket, Long> tableBucketsOffset,
             OffsetsInitializer startingOffsetsInitializer,
             long scanPartitionDiscoveryIntervalMs,
             boolean streaming,
@@ -206,6 +217,8 @@ public FlinkSourceEnumerator(
         this.assignedTableBuckets = new HashSet<>(assignedTableBuckets);
         this.startingOffsetsInitializer = startingOffsetsInitializer;
         this.assignedPartitions = new HashMap<>(assignedPartitions);
+        this.remainingLakeSnapshotSplits = new ArrayList<>(remainingLakeSnapshotSplits);
+        this.tableBucketsOffset = new HashMap<>(tableBucketsOffset);
         this.scanPartitionDiscoveryIntervalMs = scanPartitionDiscoveryIntervalMs;
         this.streaming = streaming;
         this.partitionFilters = checkNotNull(partitionFilters);
@@ -276,7 +289,14 @@ private void genHybridSplitsInBatchMode() {
 
     private void genHybridSplitsInStreamNonPartitionedMode() {
         if (lakeEnabled) {
-            context.callAsync(this::getLakeSplit, this::handleSplitsAdd);
+            context.callAsync(
+                    () ->
+                            getLakeSplit(
+                                    Collections.EMPTY_MAP,
+                                    true,
+                                    remainingLakeSnapshotSplits,
+                                    tableBucketsOffset),
+                    this::handleSplitsAdd);
         } else {
             // init bucket splits and assign
             context.callAsync(this::initNonPartitionedSplits, this::handleSplitsAdd);
@@ -292,7 +312,15 @@ private void genHybridSplitsInStreamPartitionedMode(PartitionChange partitionCha
                                             Partition::getPartitionId,
                                             Partition::getPartitionName));
 
-            context.callAsync(() -> getLakeSplit(newPartitionsNameById), this::handleSplitsAdd);
+            context.callAsync(
+                    () ->
+                            getLakeSplit(
+                                    newPartitionsNameById,
+                                    loadLakeSplits,
+                                    remainingLakeSnapshotSplits,
+                                    tableBucketsOffset),
+                    this::handleSplitsAdd);
+            loadLakeSplits = false;
         } else {
             context.callAsync(
                     () -> initPartitionedSplits(partitionChange.newPartitions),
@@ -535,7 +563,11 @@ private List<SourceSplitBase> getLogSplit(
         return splits;
     }
 
-    private List<SourceSplitBase> getLakeSplit(Map<Long, String> newPartitionsNameById)
+    private List<SourceSplitBase> getLakeSplit(
+            Map<Long, String> newPartitionsNameById,
+            boolean loadLakeSplits,
+            List<LakeSnapshotSplit> remainingLakeSnapshotSplits,
+            Map<TableBucket, Long> tableBucketsOffset)
             throws Exception {
         LakeSplitGenerator lakeSplitGenerator =
                 new LakeSplitGenerator(
@@ -546,11 +578,17 @@ private List<SourceSplitBase> getLakeSplit(Map<Long, String> newPartitionsNameBy
                         stoppingOffsetsInitializer,
                         tableInfo.getNumBuckets(),
                         this::listPartitions);
-        return lakeSplitGenerator.generateHybridLakeSplits(newPartitionsNameById);
+        List<LakeSplit> remainingLakeSplits =
+                remainingLakeSnapshotSplits.stream()
+                        .map(LakeSnapshotSplit::getLakeSplit)
+                        .collect(Collectors.toList());
+        return lakeSplitGenerator.generateHybridLakeSplits(
+                newPartitionsNameById, loadLakeSplits, remainingLakeSplits, tableBucketsOffset);
     }
 
     private List<SourceSplitBase> getLakeSplit() throws Exception {
-        return getLakeSplit(Collections.EMPTY_MAP);
+        return getLakeSplit(
+                Collections.EMPTY_MAP, true, Collections.emptyList(), Collections.emptyMap());
     }
 
     private boolean ignoreTableBucket(TableBucket tableBucket) {
@@ -640,6 +678,19 @@ private void assignPendingSplits(Set<Integer> pendingReaders) {
                 incrementalAssignment
                         .computeIfAbsent(pendingReader, (ignored) -> new ArrayList<>())
                         .addAll(pendingAssignmentForReader);
+                remainingLakeSnapshotSplits.addAll(
+                        pendingAssignmentForReader.stream()
+                                .filter(SourceSplitBase::isLakeSplit)
+                                .map(x -> (LakeSnapshotSplit) x)
+                                .collect(Collectors.toList()));
+
+                Map<TableBucket, Long> tableBucketRecordsToSplit =
+                        remainingLakeSnapshotSplits.stream()
+                                .collect(
+                                        Collectors.toMap(
+                                                SourceSplitBase::getTableBucket,
+                                                LakeSnapshotSplit::getRecordsToSplit));
+                tableBucketsOffset.putAll(tableBucketRecordsToSplit);
 
                 // Mark pending bucket assignment as already assigned
                 pendingAssignmentForReader.forEach(
@@ -658,6 +709,9 @@ private void assignPendingSplits(Set<Integer> pendingReaders) {
                                                 "partition name shouldn't be null for the splits of partitioned table.");
                                 assignedPartitions.put(partitionId, partitionName);
                             }
+                            if (split.isLakeSplit()) {
+                                remainingLakeSnapshotSplits.remove((LakeSnapshotSplit) split);
+                            }
                         });
             }
         }
@@ -783,7 +837,11 @@ public void addReader(int subtaskId) {
     @Override
     public SourceEnumeratorState snapshotState(long checkpointId) {
         final SourceEnumeratorState enumeratorState =
-                new SourceEnumeratorState(assignedTableBuckets, assignedPartitions);
+                new SourceEnumeratorState(
+                        assignedTableBuckets,
+                        assignedPartitions,
+                        remainingLakeSnapshotSplits,
+                        tableBucketsOffset);
         LOG.debug("Source Checkpoint is {}", enumeratorState);
         return enumeratorState;
     }