Aiven-Open · muralibasani · Oct 15, 2024 · Oct 15, 2024 · Oct 15, 2024 · Oct 16, 2024
@@ -21,6 +21,7 @@
 import static io.aiven.kafka.connect.s3.source.config.S3SourceConfig.AWS_S3_ENDPOINT_CONFIG;
 import static io.aiven.kafka.connect.s3.source.config.S3SourceConfig.AWS_S3_PREFIX_CONFIG;
 import static io.aiven.kafka.connect.s3.source.config.S3SourceConfig.AWS_SECRET_ACCESS_KEY_CONFIG;
+import static io.aiven.kafka.connect.s3.source.config.S3SourceConfig.MAX_MESSAGE_BYTES_SIZE;
 import static io.aiven.kafka.connect.s3.source.config.S3SourceConfig.OUTPUT_FORMAT_KEY;
 import static io.aiven.kafka.connect.s3.source.config.S3SourceConfig.SCHEMA_REGISTRY_URL;
 import static io.aiven.kafka.connect.s3.source.config.S3SourceConfig.TARGET_TOPICS;
@@ -146,6 +147,7 @@ void bytesTest(final TestInfo testInfo) throws ExecutionException, InterruptedEx
         final var topicName = IntegrationBase.topicName(testInfo);
         final Map<String, String> connectorConfig = getConfig(basicConnectorConfig(CONNECTOR_NAME), topicName);
 
+        connectorConfig.put(MAX_MESSAGE_BYTES_SIZE, "2");
         connectRunner.createConnector(connectorConfig);
         connectorConfig.put(OUTPUT_FORMAT_KEY, OutputFormat.BYTES.getValue());
 

@@ -40,6 +40,7 @@
 import io.aiven.kafka.connect.s3.source.output.OutputWriter;
 import io.aiven.kafka.connect.s3.source.output.OutputWriterFactory;
 import io.aiven.kafka.connect.s3.source.utils.AivenS3SourceRecord;
+import io.aiven.kafka.connect.s3.source.utils.FileReader;
 import io.aiven.kafka.connect.s3.source.utils.OffsetManager;
 import io.aiven.kafka.connect.s3.source.utils.RecordProcessor;
 import io.aiven.kafka.connect.s3.source.utils.SourceRecordIterator;
@@ -54,7 +55,7 @@
  * S3SourceTask is a Kafka Connect SourceTask implementation that reads from source-s3 buckets and generates Kafka
  * Connect records.
  */
-@SuppressWarnings("PMD.TooManyMethods")
+@SuppressWarnings({ "PMD.TooManyMethods", "PMD.ExcessiveImports" })
 public class S3SourceTask extends SourceTask {
 
     private static final Logger LOGGER = LoggerFactory.getLogger(S3SourceTask.class);
@@ -71,7 +72,7 @@ public class S3SourceTask extends SourceTask {
     private S3SourceConfig s3SourceConfig;
     private AmazonS3 s3Client;
 
-    private Iterator<List<AivenS3SourceRecord>> sourceRecordIterator;
+    private Iterator<AivenS3SourceRecord> sourceRecordIterator;
     private Optional<Converter> keyConverter;
 
     private Converter valueConverter;
@@ -132,8 +133,9 @@ private void initializeS3Client() {
     }
 
     private void prepareReaderFromOffsetStorageReader() {
+        final FileReader fileReader = new FileReader(s3SourceConfig, this.s3Bucket, failedObjectKeys);
         sourceRecordIterator = new SourceRecordIterator(s3SourceConfig, s3Client, this.s3Bucket, offsetManager,
-                this.outputWriter, failedObjectKeys);
+                this.outputWriter, fileReader);
     }
 
     @Override

@@ -86,6 +86,8 @@ final public class S3SourceConfig extends AbstractConfig {
     public static final String TARGET_TOPICS = "topics";
     public static final String FETCH_PAGE_SIZE = "aws.s3.fetch.page.size";
     public static final String MAX_POLL_RECORDS = "max.poll.records";
+
+    public static final String MAX_MESSAGE_BYTES_SIZE = "max.message.bytes";
     public static final String KEY_CONVERTER = "key.converter";
     public static final String VALUE_CONVERTER = "value.converter";
     public static final int S3_RETRY_BACKOFF_MAX_RETRIES_DEFAULT = 3;
@@ -179,6 +181,11 @@ private static void addOtherConfig(final S3SourceConfigDef configDef) {
                 "Value converter", GROUP_OTHER, awsOtherGroupCounter++, // NOPMD
                 // UnusedAssignment
                 ConfigDef.Width.NONE, VALUE_CONVERTER);
+        configDef.define(MAX_MESSAGE_BYTES_SIZE, ConfigDef.Type.INT, 1_048_588, ConfigDef.Importance.MEDIUM,
+                "The largest record batch size allowed by Kafka config max.message.bytes", GROUP_OTHER,
+                awsOtherGroupCounter++, // NOPMD
+                // UnusedAssignment
+                ConfigDef.Width.NONE, MAX_MESSAGE_BYTES_SIZE);
     }
 
     private static void addAwsStsConfigGroup(final ConfigDef configDef) {

@@ -46,7 +46,8 @@ public void configureValueConverter(final Map<String, String> config, final S3So
     }
 
     @Override
-    public List<Object> getRecords(final InputStream inputStream, final String topic, final int topicPartition) {
+    public List<Object> getRecords(final InputStream inputStream, final String topic, final int topicPartition,
+            final S3SourceConfig s3SourceConfig) {
         final DatumReader<GenericRecord> datumReader = new GenericDatumReader<>();
         return readAvroRecords(inputStream, datumReader);
     }

@@ -16,14 +16,16 @@
 
 package io.aiven.kafka.connect.s3.source.output;
 
+import static io.aiven.kafka.connect.s3.source.config.S3SourceConfig.MAX_MESSAGE_BYTES_SIZE;
+
 import java.io.IOException;
 import java.io.InputStream;
+import java.util.ArrayList;
 import java.util.List;
 import java.util.Map;
 
 import io.aiven.kafka.connect.s3.source.config.S3SourceConfig;
 
-import com.amazonaws.util.IOUtils;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -35,18 +37,33 @@ public void configureValueConverter(final Map<String, String> config, final S3So
 
     }
 
+    @SuppressWarnings("PMD.AvoidInstantiatingObjectsInLoops")
     @Override
-    public List<Object> getRecords(final InputStream inputStream, final String topic, final int topicPartition) {
-        return List.of(inputStream);
-    }
+    public List<Object> getRecords(final InputStream inputStream, final String topic, final int topicPartition,
+            final S3SourceConfig s3SourceConfig) {
 
-    @Override
-    public byte[] getValueBytes(final Object record, final String topic, final S3SourceConfig s3SourceConfig) {
+        final int maxMessageBytesSize = s3SourceConfig.getInt(MAX_MESSAGE_BYTES_SIZE);
+        final byte[] buffer = new byte[maxMessageBytesSize];
+        int bytesRead;
+
+        final List<Object> chunks = new ArrayList<>();
         try {
-            return IOUtils.toByteArray((InputStream) record);
+            bytesRead = inputStream.read(buffer);
+            while (bytesRead != -1) {
+                final byte[] chunk = new byte[bytesRead];
+                System.arraycopy(buffer, 0, chunk, 0, bytesRead);
+                chunks.add(chunk);
+                bytesRead = inputStream.read(buffer);
+            }
         } catch (IOException e) {
-            LOGGER.error("Error in reading s3 object stream " + e.getMessage());
-            return new byte[0];
+            LOGGER.error("Error reading from input stream: " + e.getMessage(), e);
         }
+
+        return chunks;
+    }
+
+    @Override
+    public byte[] getValueBytes(final Object record, final String topic, final S3SourceConfig s3SourceConfig) {
+        return (byte[]) record;
     }
 }
@@ -43,7 +43,8 @@ public void configureValueConverter(final Map<String, String> config, final S3So
     }
 
     @Override
-    public List<Object> getRecords(final InputStream inputStream, final String topic, final int topicPartition) {
+    public List<Object> getRecords(final InputStream inputStream, final String topic, final int topicPartition,
+            final S3SourceConfig s3SourceConfig) {
         final List<Object> jsonNodeList = new ArrayList<>();
         JsonNode jsonNode;
         try (BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream, StandardCharsets.UTF_8))) {

@@ -31,7 +31,7 @@ public interface OutputWriter {
 
     void configureValueConverter(Map<String, String> config, S3SourceConfig s3SourceConfig);
 
-    List<Object> getRecords(InputStream inputStream, String topic, int topicPartition);
+    List<Object> getRecords(InputStream inputStream, String topic, int topicPartition, S3SourceConfig s3SourceConfig);
 
     byte[] getValueBytes(Object record, String topic, S3SourceConfig s3SourceConfig);
 }
@@ -50,7 +50,8 @@ public void configureValueConverter(final Map<String, String> config, final S3So
     }
 
     @Override
-    public List<Object> getRecords(final InputStream inputStream, final String topic, final int topicPartition) {
+    public List<Object> getRecords(final InputStream inputStream, final String topic, final int topicPartition,
+            final S3SourceConfig s3SourceConfig) {
         return getParquetRecords(inputStream, topic, topicPartition);
     }
 

@@ -16,7 +16,6 @@
 
 package io.aiven.kafka.connect.s3.source.utils;
 
-import java.util.ArrayList;
 import java.util.HashMap;
 import java.util.Iterator;
 import java.util.List;
@@ -43,7 +42,8 @@ public final class RecordProcessor {
     private RecordProcessor() {
 
     }
-    public static List<SourceRecord> processRecords(final Iterator<List<AivenS3SourceRecord>> sourceRecordIterator,
+
+    public static List<SourceRecord> processRecords(final Iterator<AivenS3SourceRecord> sourceRecordIterator,
             final List<SourceRecord> results, final S3SourceConfig s3SourceConfig,
             final Optional<Converter> keyConverter, final Converter valueConverter,
             final AtomicBoolean connectorStopped, final OutputWriter outputWriter, final Set<String> failedObjectKeys,
@@ -53,44 +53,39 @@ public static List<SourceRecord> processRecords(final Iterator<List<AivenS3Sourc
         final int maxPollRecords = s3SourceConfig.getInt(S3SourceConfig.MAX_POLL_RECORDS);
 
         for (int i = 0; sourceRecordIterator.hasNext() && i < maxPollRecords && !connectorStopped.get(); i++) {
-            final List<AivenS3SourceRecord> recordList = sourceRecordIterator.next();
-            final List<SourceRecord> sourceRecords = createSourceRecords(recordList, s3SourceConfig, keyConverter,
-                    valueConverter, conversionConfig, outputWriter, failedObjectKeys, offsetManager);
-            results.addAll(sourceRecords);
+            final AivenS3SourceRecord aivenS3SourceRecord = sourceRecordIterator.next();
+            if (aivenS3SourceRecord != null) {
+                final SourceRecord sourceRecord = createSourceRecord(aivenS3SourceRecord, s3SourceConfig, keyConverter,
+                        valueConverter, conversionConfig, outputWriter, failedObjectKeys, offsetManager);
+                results.add(sourceRecord);
+            }
         }
 
         LOGGER.info("Number of records sent {}", results.size());
         return results;
     }
 
-    @SuppressWarnings("PMD.AvoidInstantiatingObjectsInLoops")
-    static List<SourceRecord> createSourceRecords(final List<AivenS3SourceRecord> aivenS3SourceRecordList,
+    static SourceRecord createSourceRecord(final AivenS3SourceRecord aivenS3SourceRecord,
             final S3SourceConfig s3SourceConfig, final Optional<Converter> keyConverter, final Converter valueConverter,
             final Map<String, String> conversionConfig, final OutputWriter outputWriter,
             final Set<String> failedObjectKeys, final OffsetManager offsetManager) {
 
-        final List<SourceRecord> sourceRecordList = new ArrayList<>();
-        for (final AivenS3SourceRecord aivenS3SourceRecord : aivenS3SourceRecordList) {
-            LOGGER.info(" ******* CSR key ******** {}", aivenS3SourceRecord.getObjectKey());
-            final String topic = aivenS3SourceRecord.getToTopic();
-            final Optional<SchemaAndValue> keyData = keyConverter
-                    .map(c -> c.toConnectData(topic, aivenS3SourceRecord.key()));
-
-            outputWriter.configureValueConverter(conversionConfig, s3SourceConfig);
-            valueConverter.configure(conversionConfig, false);
-            try {
-                final SchemaAndValue schemaAndValue = valueConverter.toConnectData(topic, aivenS3SourceRecord.value());
-                offsetManager.updateCurrentOffsets(aivenS3SourceRecord.getPartitionMap(),
-                        aivenS3SourceRecord.getOffsetMap());
-                aivenS3SourceRecord.setOffsetMap(offsetManager.getOffsets().get(aivenS3SourceRecord.getPartitionMap()));
-                sourceRecordList.add(aivenS3SourceRecord.getSourceRecord(topic, keyData, schemaAndValue));
-            } catch (DataException e) {
-                LOGGER.error("Error in reading s3 object stream " + e.getMessage());
-                failedObjectKeys.add(aivenS3SourceRecord.getObjectKey());
-                throw e;
-            }
+        final String topic = aivenS3SourceRecord.getToTopic();
+        final Optional<SchemaAndValue> keyData = keyConverter
+                .map(c -> c.toConnectData(topic, aivenS3SourceRecord.key()));
+
+        outputWriter.configureValueConverter(conversionConfig, s3SourceConfig);
+        valueConverter.configure(conversionConfig, false);
+        try {
+            final SchemaAndValue schemaAndValue = valueConverter.toConnectData(topic, aivenS3SourceRecord.value());
+            offsetManager.updateCurrentOffsets(aivenS3SourceRecord.getPartitionMap(),
+                    aivenS3SourceRecord.getOffsetMap());
+            aivenS3SourceRecord.setOffsetMap(offsetManager.getOffsets().get(aivenS3SourceRecord.getPartitionMap()));
+            return aivenS3SourceRecord.getSourceRecord(topic, keyData, schemaAndValue);
+        } catch (DataException e) {
+            LOGGER.error("Error in reading s3 object stream " + e.getMessage());
+            failedObjectKeys.add(aivenS3SourceRecord.getObjectKey());
+            throw e;
         }
-
-        return sourceRecordList;
     }
 }