HIVE-28258: Use Iceberg semantics for Merge task #5251

SourabhBadhya · 2024-05-15T07:06:43Z

What changes were proposed in this pull request?

Use Iceberg semantics for Merge task

Why are the changes needed?

To use Iceberg readers and writers for merge task.

Does this PR introduce any user-facing change?

No

Is the change a dependency upgrade?

No

How was this patch tested?

Existing tests - iceberg_merge_files.q is present.

...erg/iceberg-handler/src/main/java/org/apache/iceberg/mr/mapred/MapredIcebergInputFormat.java

iceberg/iceberg-handler/src/main/java/org/apache/iceberg/mr/mapreduce/IcebergInputFormat.java

...erg/iceberg-handler/src/main/java/org/apache/iceberg/mr/mapred/MapredIcebergInputFormat.java

deniskuzZ · 2024-06-03T16:33:22Z

...rg-handler/src/main/java/org/apache/iceberg/mr/mapred/AbstractMapredIcebergRecordReader.java


 @SuppressWarnings("checkstyle:VisibilityModifier")
 public abstract class AbstractMapredIcebergRecordReader<T> implements RecordReader<Void, T> {

  protected final org.apache.hadoop.mapreduce.RecordReader<Void, ?> innerReader;

  public AbstractMapredIcebergRecordReader(org.apache.iceberg.mr.mapreduce.IcebergInputFormat<?> mapreduceInputFormat,
-      IcebergSplit split, JobConf job, Reporter reporter) throws IOException {
+      InputSplit split, JobConf job, Reporter reporter) throws IOException {


why is that change? do we support non IcebergSplit in IcebergRecordReader?

This is required since I have created a new split by the name of IcebergMergeSplit which extends FileSplit.

deniskuzZ · 2024-06-03T16:35:25Z

...erg/iceberg-handler/src/main/java/org/apache/iceberg/mr/mapred/MapredIcebergInputFormat.java

@@ -85,7 +90,8 @@ private static final class MapredIcebergRecordReader<T> extends AbstractMapredIc
    private final long splitLength; // for getPos()

    MapredIcebergRecordReader(org.apache.iceberg.mr.mapreduce.IcebergInputFormat<T> mapreduceInputFormat,
-                              IcebergSplit split, JobConf job, Reporter reporter) throws IOException {
+        org.apache.hadoop.mapreduce.InputSplit split, JobConf job, Reporter reporter)


IcebergSplit

This is required since I have created a new split by the name of IcebergMergeSplit which extends FileSplit.

ql/src/java/org/apache/hadoop/hive/ql/plan/MergeTaskProperties.java

ql/src/java/org/apache/hadoop/hive/ql/plan/MapWork.java

ql/src/java/org/apache/hadoop/hive/ql/io/MergeSplitProperties.java

deniskuzZ · 2024-06-03T16:40:52Z

ql/src/java/org/apache/hadoop/hive/ql/io/CombineHiveRecordReader.java

+    if (inputFormat instanceof CombineHiveInputFormat.MergeSplit) {
+      if (mrwork == null) {
+        mrwork = (MapWork) Utilities.getMergeWork(jobConf);
+        if (mrwork == null) {


can it be null?

It can be null, hence we do Utilities.getMapWork()

deniskuzZ · 2024-06-03T16:41:41Z

ql/src/java/org/apache/hadoop/hive/ql/io/CombineHiveInputFormat.java

@@ -768,4 +763,8 @@ public String toString() {
  public interface AvoidSplitCombination {
    boolean shouldSkipCombine(Path path, Configuration conf) throws IOException;
  }
+
+  public interface MergeSplit {


is that generic or only Iceberg specific? btw, interface always public

is that used at all?

This is generic interface for creating merge splits and its used.

deniskuzZ · 2024-06-03T16:45:23Z

iceberg/iceberg-handler/src/main/java/org/apache/iceberg/mr/mapreduce/IcebergMergeSplit.java

+import org.apache.iceberg.ContentFile;
+import org.apache.iceberg.util.SerializationUtil;
+
+public class IcebergMergeSplit extends FileSplit implements org.apache.hadoop.mapred.InputSplit {


should it extend IcebergSplit?

There are inherent problems of extending it with IcebergSplit. The required split for merge task must be of type FileSplit however IcebergSplit extends InputSplit only. Also the IcebergSplitContainer is also extended by IcebergSplit which is not used here.

iceberg/iceberg-handler/src/main/java/org/apache/iceberg/mr/mapreduce/IcebergInputFormat.java

deniskuzZ · 2024-06-03T16:53:12Z

iceberg/iceberg-handler/src/main/java/org/apache/iceberg/mr/mapreduce/IcebergInputFormat.java

@@ -436,49 +526,34 @@ private CloseableIterable<T> openGeneric(FileScanTask task, Schema readSchema) {

    @SuppressWarnings("unchecked")
    private CloseableIterable<T> open(FileScanTask currentTask, Schema readSchema) {
-      switch (inMemoryDataModel) {
+      switch (getInMemoryDataModel()) {


why not just make fields protected to avoid all those getters

To avoid checkstyle errors. Checkstyle rules prevent usage of protected variables.

sonarcloud · 2024-06-07T07:06:10Z

Quality Gate passed

Issues
32 New issues
0 Accepted issues

Measures
0 Security Hotspots
No data about Coverage
No data about Duplication

See analysis details on SonarCloud

asf-ci-hive added tests pending tests unstable and removed tests pending labels May 15, 2024

SourabhBadhya force-pushed the HIVE-28258 branch from 90eded2 to acb6b3b Compare May 17, 2024 04:57

asf-ci-hive added tests pending and removed tests unstable labels May 17, 2024

SourabhBadhya force-pushed the HIVE-28258 branch from acb6b3b to f7d1f37 Compare May 17, 2024 06:30

asf-ci-hive added tests unstable tests pending and removed tests pending tests unstable labels May 17, 2024

SourabhBadhya force-pushed the HIVE-28258 branch from f7d1f37 to f7ec736 Compare May 21, 2024 07:06

asf-ci-hive added tests pending tests passed and removed tests unstable tests pending labels May 21, 2024

kasakrisz requested changes May 22, 2024

View reviewed changes

SourabhBadhya force-pushed the HIVE-28258 branch from f7ec736 to fc67711 Compare May 28, 2024 11:07

asf-ci-hive added tests pending and removed tests passed labels May 28, 2024

SourabhBadhya requested a review from kasakrisz May 28, 2024 11:11

asf-ci-hive added tests passed and removed tests pending labels May 28, 2024

kasakrisz reviewed May 29, 2024

View reviewed changes

...erg/iceberg-handler/src/main/java/org/apache/iceberg/mr/mapred/MapredIcebergInputFormat.java Outdated Show resolved Hide resolved

SourabhBadhya force-pushed the HIVE-28258 branch from fc67711 to 30c2ec2 Compare May 30, 2024 12:36

asf-ci-hive added tests pending and removed tests passed labels May 30, 2024

SourabhBadhya requested a review from kasakrisz May 30, 2024 12:37