An implementation of ListRecords-based harvesting without cheating (without additional GetRecord calls) #10909

landreev · landreev · commit 9c82c2de0521 · 2025-01-28T19:33:24.000-05:00
diff --git a/src/main/java/edu/harvard/iq/dataverse/api/imports/ImportServiceBean.java b/src/main/java/edu/harvard/iq/dataverse/api/imports/ImportServiceBean.java
@@ -215,6 +215,23 @@ public Dataset doImportHarvestedDataset(DataverseRequest dataverseRequest,
             File metadataFile, 
             Date oaiDateStamp, 
             PrintWriter cleanupLog) throws ImportException, IOException {
+        
+        logger.fine("importing " + metadataFormat + " saved in " + metadataFile.getAbsolutePath());
+      
+        //@todo check for an IOException here, through ImportException instead, if caught
+        String metadataAsString = new String(Files.readAllBytes(metadataFile.toPath()));
+        return doImportHarvestedDataset(dataverseRequest, harvestingClient, harvestIdentifier, metadataFormat, metadataAsString, oaiDateStamp, cleanupLog);
+    }
+    
+    @TransactionAttribute(TransactionAttributeType.REQUIRES_NEW)
+    public Dataset doImportHarvestedDataset(DataverseRequest dataverseRequest, 
+            HarvestingClient harvestingClient, 
+            String harvestIdentifier, 
+            String metadataFormat, 
+            String metadataString, 
+            Date oaiDateStamp, 
+            PrintWriter cleanupLog) throws ImportException, IOException {
+ 
         if (harvestingClient == null || harvestingClient.getDataverse() == null) {
             throw new ImportException("importHarvestedDataset called with a null harvestingClient, or an invalid harvestingClient.");
         }
@@ -234,32 +251,32 @@ public Dataset doImportHarvestedDataset(DataverseRequest dataverseRequest,
         // Kraffmiller's export modules; replace the logic below with clean
         // programmatic lookup of the import plugin needed. 
 
+        logger.fine("importing " + metadataFormat + " for " + harvestIdentifier);
+        
         if ("ddi".equalsIgnoreCase(metadataFormat) || "oai_ddi".equals(metadataFormat) 
                 || metadataFormat.toLowerCase().matches("^oai_ddi.*")) {
             try {
-                String xmlToParse = new String(Files.readAllBytes(metadataFile.toPath()));
+                ///String xmlToParse = new String(Files.readAllBytes(metadataFile.toPath()));
                 // TODO: 
                 // import type should be configurable - it should be possible to 
                 // select whether you want to harvest with or without files, 
                 // ImportType.HARVEST vs. ImportType.HARVEST_WITH_FILES
-                logger.fine("importing DDI "+metadataFile.getAbsolutePath());
-                dsDTO = importDDIService.doImport(ImportType.HARVEST, xmlToParse);
-            } catch (IOException | XMLStreamException | ImportException e) {
+                ///logger.fine("importing DDI "+metadataFile.getAbsolutePath());
+                dsDTO = importDDIService.doImport(ImportType.HARVEST, metadataString);
+            } catch (XMLStreamException | ImportException e) {
                 throw new ImportException("Failed to process DDI XML record: "+ e.getClass() + " (" + e.getMessage() + ")");
             }
         } else if ("dc".equalsIgnoreCase(metadataFormat) || "oai_dc".equals(metadataFormat)) {
-            logger.fine("importing DC "+metadataFile.getAbsolutePath());
+            //logger.fine("importing DC "+metadataFile.getAbsolutePath());
             try {
-                String xmlToParse = new String(Files.readAllBytes(metadataFile.toPath())); 
-                dsDTO = importGenericService.processOAIDCxml(xmlToParse, harvestIdentifier, harvestingClient.isUseOaiIdentifiersAsPids());
-            } catch (IOException | XMLStreamException e) {
+                ///String xmlToParse = new String(Files.readAllBytes(metadataFile.toPath())); 
+                dsDTO = importGenericService.processOAIDCxml(metadataString, harvestIdentifier, harvestingClient.isUseOaiIdentifiersAsPids());
+            } catch (XMLStreamException e) {
                 throw new ImportException("Failed to process Dublin Core XML record: "+ e.getClass() + " (" + e.getMessage() + ")");
             }
         } else if ("dataverse_json".equals(metadataFormat)) {
             // This is Dataverse metadata already formatted in JSON. 
-            // Simply read it into a string, and pass to the final import further down:
-            logger.fine("Attempting to import custom dataverse metadata from file "+metadataFile.getAbsolutePath());
-            json = new String(Files.readAllBytes(metadataFile.toPath())); 
+            json = metadataString; 
         } else {
             throw new ImportException("Unsupported import metadata format: " + metadataFormat);
         }
@@ -394,17 +411,23 @@ public Dataset doImportHarvestedDataset(DataverseRequest dataverseRequest,
 
         } catch (JsonParseException | ImportException | CommandException ex) {
             logger.fine("Failed to import harvested dataset: " + ex.getClass() + ": " + ex.getMessage());
-            FileOutputStream savedJsonFileStream = new FileOutputStream(new File(metadataFile.getAbsolutePath() + ".json"));
-            byte[] jsonBytes = json.getBytes();
-            int i = 0;
-            while (i < jsonBytes.length) {
-                int chunkSize = i + 8192 <= jsonBytes.length ? 8192 : jsonBytes.length - i;
-                savedJsonFileStream.write(jsonBytes, i, chunkSize);
-                i += chunkSize;
-                savedJsonFileStream.flush();
+            
+            if (!"dataverse_json".equals(metadataFormat) && json != null) {
+                // If this was an xml format that were able to transform into 
+                // our json, let's save it for debugging etc. purposes
+                File tempFile = File.createTempFile("meta", ".json");
+                FileOutputStream savedJsonFileStream = new FileOutputStream(tempFile);
+                byte[] jsonBytes = json.getBytes();
+                int i = 0;
+                while (i < jsonBytes.length) {
+                    int chunkSize = i + 8192 <= jsonBytes.length ? 8192 : jsonBytes.length - i;
+                    savedJsonFileStream.write(jsonBytes, i, chunkSize);
+                    i += chunkSize;
+                    savedJsonFileStream.flush();
+                }
+                savedJsonFileStream.close();
+                logger.info("JSON produced saved in " + tempFile.getAbsolutePath());
             }
-            savedJsonFileStream.close();
-            logger.info("JSON produced saved in " + metadataFile.getAbsolutePath() + ".json");
             throw new ImportException("Failed to import harvested dataset: " + ex.getClass() + " (" + ex.getMessage() + ")", ex);
         }
         return importedDataset;
diff --git a/src/main/java/edu/harvard/iq/dataverse/harvest/client/FastGetRecord.java b/src/main/java/edu/harvard/iq/dataverse/harvest/client/FastGetRecord.java
@@ -81,8 +81,8 @@ public class FastGetRecord {
     private static final String XML_METADATA_TAG_OPEN = "<"+XML_METADATA_TAG+">";
     private static final String XML_METADATA_TAG_CLOSE = "</"+XML_METADATA_TAG+">";
     private static final String XML_OAI_PMH_CLOSING_TAGS = "</record></GetRecord></OAI-PMH>";
-    private static final String XML_XMLNS_XSI_ATTRIBUTE_TAG = "xmlns:xsi=";
-    private static final String XML_XMLNS_XSI_ATTRIBUTE = " "+XML_XMLNS_XSI_ATTRIBUTE_TAG+"\"http://www.w3.org/2001/XMLSchema-instance\">";
+    public static final String XML_XMLNS_XSI_ATTRIBUTE_TAG = "xmlns:xsi=";
+    public static final String XML_XMLNS_XSI_ATTRIBUTE = " "+XML_XMLNS_XSI_ATTRIBUTE_TAG+"\"http://www.w3.org/2001/XMLSchema-instance\">";
     private static final String XML_COMMENT_START = "<!--";
     private static final String XML_COMMENT_END = "-->";
     
diff --git a/src/main/java/edu/harvard/iq/dataverse/harvest/client/HarvesterServiceBean.java b/src/main/java/edu/harvard/iq/dataverse/harvest/client/HarvesterServiceBean.java
@@ -39,10 +39,11 @@
 import edu.harvard.iq.dataverse.EjbDataverseEngine;
 import edu.harvard.iq.dataverse.api.imports.ImportServiceBean;
 import edu.harvard.iq.dataverse.engine.command.DataverseRequest;
+import static edu.harvard.iq.dataverse.harvest.client.FastGetRecord.XML_XMLNS_XSI_ATTRIBUTE_TAG;
+import static edu.harvard.iq.dataverse.harvest.client.FastGetRecord.XML_XMLNS_XSI_ATTRIBUTE;
 import edu.harvard.iq.dataverse.harvest.client.oai.OaiHandler;
 import edu.harvard.iq.dataverse.harvest.client.oai.OaiHandlerException;
 import edu.harvard.iq.dataverse.search.IndexServiceBean;
-import io.gdcc.xoai.xml.XmlWriter;
 import java.io.FileOutputStream;
 import java.io.FileWriter;
 import java.io.InputStream;
@@ -296,11 +297,12 @@ private void harvestOAIviaListRecords(OaiHandler oaiHandler, DataverseRequest da
 
             Record oaiRecord = idIter.next();
             
-            /*try {
-                harvesterLogger.info("record.getMetadata() (via XmlWriter):" + XmlWriter.toString(oaiRecord.getMetadata()));
-            } catch (XMLStreamException xsx) {
-                harvesterLogger.info("Caught an XMLStreamException: " + xsx.getMessage());
-            }*/
+            //try {
+                //harvesterLogger.info("record.getMetadata() (via getMetadataAsString()):" + oaiRecord.getMetadata().getMetadataAsString());
+            System.out.println("record.getMetadata() (via getMetadataAsString()):" + oaiRecord.getMetadata().getMetadataAsString());
+            //} catch (XMLStreamException xsx) {
+            //    harvesterLogger.info("Caught an XMLStreamException: " + xsx.getMessage());
+            //}
             
             
             Header h = oaiRecord.getHeader();
@@ -318,10 +320,41 @@ private void harvestOAIviaListRecords(OaiHandler oaiHandler, DataverseRequest da
 
             MutableBoolean getRecordErrorOccurred = new MutableBoolean(false);
             
-            //Metadata oaiMetadata = oaiRecord.getMetadata();
+            Metadata oaiMetadata = oaiRecord.getMetadata();
+            String metadataString = oaiMetadata.getMetadataAsString();
 
-            // Retrieve and process this record with a separate GetRecord call:
-            Long datasetId = processRecord(dataverseRequest, harvesterLogger, importCleanupLog, oaiHandler, identifier, getRecordErrorOccurred, deletedIdentifiers, dateStamp, httpClient);
+            Long datasetId = null; 
+            
+            if (metadataString != null) {
+                Dataset harvestedDataset = null;
+                
+                // Some xml header sanitation: 
+                if (!metadataString.matches("^<[^>]*" + XML_XMLNS_XSI_ATTRIBUTE_TAG + ".*")) {
+                    metadataString = metadataString.replaceFirst(">", XML_XMLNS_XSI_ATTRIBUTE);
+                }
+
+                try {
+                    harvestedDataset = importService.doImportHarvestedDataset(dataverseRequest,
+                            oaiHandler.getHarvestingClient(),
+                            identifier,
+                            oaiHandler.getMetadataPrefix(),
+                            metadataString,
+                            dateStamp,
+                            importCleanupLog);
+
+                    harvesterLogger.fine("Harvest Successful for identifier " + identifier);
+                    harvesterLogger.fine("Size of this record: " + metadataString.length());
+                } catch (Throwable e) {
+                    logGetRecordException(harvesterLogger, oaiHandler, identifier, e);
+                }
+                if (harvestedDataset != null) {
+                    datasetId = harvestedDataset.getId();
+                }
+            } else {
+                // Instead of giving up here, let's try to retrieve and process 
+                // this record with a separate GetRecord call:
+                datasetId = processRecord(dataverseRequest, harvesterLogger, importCleanupLog, oaiHandler, identifier, getRecordErrorOccurred, deletedIdentifiers, dateStamp, httpClient);
+            }
 
             if (datasetId != null) {
                 harvestedDatasetIds.add(datasetId);