bigdatagenomics · akmorrow13 · Apr 20, 2016 · Jul 13, 2016 · fnothaft · Jul 13, 2016
diff --git a/.../src/main/scala/org/bdgenomics/adam/rdd/contig/NucleotideContigFragmentRDDFunctions.scala b/.../src/main/scala/org/bdgenomics/adam/rdd/contig/NucleotideContigFragmentRDDFunctions.scala
@@ -18,27 +18,16 @@
 package org.bdgenomics.adam.rdd.contig
 
 import com.google.common.base.Splitter
-import java.util.logging.Level
-import org.apache.avro.specific.SpecificRecord
-import org.bdgenomics.utils.misc.Logging
-import org.apache.spark.SparkContext._
 import org.apache.spark.rdd.RDD
 import org.bdgenomics.adam.converters.FragmentConverter
 import org.bdgenomics.adam.models._
-import org.bdgenomics.adam.rdd.ADAMContext._
 import org.bdgenomics.adam.rdd.ADAMSequenceDictionaryRDDAggregator
-import org.bdgenomics.adam.util.ParquetLogger
+import org.bdgenomics.adam.util.ReferenceFile
 import org.bdgenomics.formats.avro._
-import org.bdgenomics.utils.misc.HadoopUtil
-import org.apache.parquet.avro.AvroParquetOutputFormat
-import org.apache.parquet.hadoop.ParquetOutputFormat
-import org.apache.parquet.hadoop.metadata.CompressionCodecName
-import org.apache.parquet.hadoop.util.ContextUtil
 import scala.collection.JavaConversions._
 import scala.math.max
-import scala.Some
 
-class NucleotideContigFragmentRDDFunctions(rdd: RDD[NucleotideContigFragment]) extends ADAMSequenceDictionaryRDDAggregator[NucleotideContigFragment](rdd) {
+class NucleotideContigFragmentRDDFunctions(rdd: RDD[NucleotideContigFragment]) extends ADAMSequenceDictionaryRDDAggregator[NucleotideContigFragment](rdd) with ReferenceFile {
 
   /**
    * Converts an RDD of nucleotide contig fragments into reads. Adjacent contig fragments are
@@ -103,6 +92,16 @@ class NucleotideContigFragmentRDDFunctions(rdd: RDD[NucleotideContigFragment]) e
       .values
   }
 
+  /**
+   * Added for ReferenceFile trait.
+   *
+   * @see ReferenceFile.scala
+   *      
+   * @param region The desired ReferenceRegion to extract.
+   * @return The reference sequence at the desired locus.
+   */
+  def extract(region: ReferenceRegion): String = getReferenceString(region)
+
   /**
    * From a set of contigs, returns the base sequence that corresponds to a region of the reference.
    *

diff --git a/adam-core/src/main/scala/org/bdgenomics/adam/util/TwoBitFile.scala b/adam-core/src/main/scala/org/bdgenomics/adam/util/TwoBitFile.scala
@@ -22,7 +22,7 @@ import java.nio.{ ByteOrder, ByteBuffer }
 import com.esotericsoftware.kryo.io.{ Output, Input }
 import com.esotericsoftware.kryo.{ Kryo, Serializer }
 import org.bdgenomics.utils.io.{ ByteArrayByteAccess, ByteAccess }
-import org.bdgenomics.adam.models.{ NonoverlappingRegions, ReferencePosition, ReferenceRegion }
+import org.bdgenomics.adam.models._
 
 object TwoBitFile {
   val MAGIC_NUMBER: Int = 0x1A412743
@@ -92,6 +92,16 @@ class TwoBitFile(byteAccess: ByteAccess) extends ReferenceFile {
     name -> contigOffset
   }
 
+  def getSequenceDictionary(performLexSort: Boolean = false): SequenceDictionary = {
+    val sd = new SequenceDictionary(seqRecords.toVector.map(r => SequenceRecord(r._1, r._2.dnaSize)))
+
+    if (performLexSort) {
+      implicit val ordering = SequenceOrderingByName
+      SequenceDictionary(sd.records.map(_.copy(referenceIndex = None)).sorted: _*)
+    } else
+      sd
+  }
+
   /**
    * Extract reference sequence from the .2bit data.
    *

diff --git a/adam-core/src/test/scala/org/bdgenomics/adam/util/TwoBitSuite.scala b/adam-core/src/test/scala/org/bdgenomics/adam/util/TwoBitSuite.scala
@@ -49,4 +49,13 @@ class TwoBitSuite extends ADAMFunSuite {
     val twoBitFile = new TwoBitFile(byteAccess)
     assert(twoBitFile.extract(ReferenceRegion("1", 9990, 10010), true) == "NNNNNNNNNNTAACCCTAAC")
   }
+
+  test("correctly calculates sequence dictionary") {
+    val file = new File(resourcePath("hg19.chrM.2bit"))
+    val byteAccess = new LocalFileByteAccess(file)
+    val twoBitFile = new TwoBitFile(byteAccess)
+    val dict = twoBitFile.getSequenceDictionary(true)
+    assert(dict.records.length == 1)
+    assert(dict.records.head.length == 16571)
+  }
 }