opentargets · project-defiant · Sep 9, 2024 · Sep 2, 2024 · Sep 2, 2024 · Sep 2, 2024
diff --git a/src/gentropy/dataset/study_locus.py b/src/gentropy/dataset/study_locus.py
@@ -323,14 +323,14 @@ def _align_overlapping_tags(
     def assign_study_locus_id(
         study_id_col: Column,
         variant_id_col: Column,
-        finemapping_col: Column,
+        finemapping_col: Column = None,
     ) -> Column:
         """Hashes a column with a variant ID and a study ID to extract a consistent studyLocusId.
 
         Args:
             study_id_col (Column): column name with a study ID
             variant_id_col (Column): column name with a variant ID
-            finemapping_col (Column): column with fine mapping methodology
+            finemapping_col (Column, optional): column with fine mapping methodology
 
         Returns:
             Column: column with a study locus ID
@@ -341,13 +341,31 @@ def assign_study_locus_id(
             +----------+----------+-----------------+-------------------+
             |   studyId| variantId|finemappingMethod|     study_locus_id|
             +----------+----------+-----------------+-------------------+
-            |GCST000001|1_1000_A_C|        SuSiE-inf|1553357789130151995|
-            |GCST000002|1_1000_A_C|             pics|-415050894682709184|
+            |GCST000001|1_1000_A_C|        SuSiE-inf|3801266831619496075|
+            |GCST000002|1_1000_A_C|             pics|1581844826999194430|
             +----------+----------+-----------------+-------------------+
             <BLANKLINE>
+            >>> df = spark.createDataFrame([("GCST000001", "1_1000_A_C"), ("GCST000002", "1_1000_A_C")]).toDF("studyId", "variantId")
+            >>> df.withColumn("study_locus_id", StudyLocus.assign_study_locus_id(f.col("studyId"), f.col("variantId"))).show()
+            +----------+----------+-------------------+
+            |   studyId| variantId|     study_locus_id|
+            +----------+----------+-------------------+
+            |GCST000001|1_1000_A_C|1553357789130151995|
+            |GCST000002|1_1000_A_C|-415050894682709184|
+            +----------+----------+-------------------+
+            <BLANKLINE>
         """
         variant_id_col = f.coalesce(variant_id_col, f.rand().cast("string"))
-        return f.xxhash64(study_id_col, variant_id_col).alias("studyLocusId")
+
+        if finemapping_col is None:
+            return f.xxhash64(
+                study_id_col,
+                variant_id_col,
+            ).alias("studyLocusId")
+        else:
+            return f.xxhash64(study_id_col, variant_id_col, finemapping_col).alias(
+                "studyLocusId"
+            )
 
     @classmethod
     def calculate_credible_set_log10bf(cls: type[StudyLocus], logbfs: Column) -> Column:

diff --git a/src/gentropy/datasource/gwas_catalog/associations.py b/src/gentropy/datasource/gwas_catalog/associations.py
@@ -1096,9 +1096,7 @@ def update_study_id(
             .drop("subStudyDescription", "updatedStudyId")
         ).withColumn(
             "studyLocusId",
-            StudyLocus.assign_study_locus_id(
-                f.col("studyId"), f.col("variantId"), f.col("finemappingMethod")
-            ),
+            StudyLocus.assign_study_locus_id(f.col("studyId"), f.col("variantId")),
         )
         return self
 

diff --git a/src/gentropy/datasource/open_targets/l2g_gold_standard.py b/src/gentropy/datasource/open_targets/l2g_gold_standard.py
@@ -52,9 +52,7 @@ def parse_positive_curation(
             )
             .withColumn(
                 "studyLocusId",
-                StudyLocus.assign_study_locus_id(
-                    f.col("studyId"), f.col("variantId"), f.col("finemappingMethod")
-                ),
+                StudyLocus.assign_study_locus_id(f.col("studyId"), f.col("variantId")),
             )
             .groupBy("studyLocusId", "studyId", "variantId", "geneId")
             .agg(f.collect_set("source").alias("sources"))

diff --git a/src/gentropy/method/locus_breaker_clumping.py b/src/gentropy/method/locus_breaker_clumping.py
@@ -112,7 +112,7 @@ def locus_breaker(
                     .cast(t.ArrayType(t.StringType()))
                     .alias("qualityControls"),
                     StudyLocus.assign_study_locus_id(
-                        f.col("studyId"), f.col("variantId"), f.col("finemappingMethod")
+                        f.col("studyId"), f.col("variantId")
                     ).alias("studyLocusId"),
                 )
             ),

diff --git a/src/gentropy/method/window_based_clumping.py b/src/gentropy/method/window_based_clumping.py
@@ -237,7 +237,7 @@ def clump(
                 .withColumn(
                     "studyLocusId",
                     StudyLocus.assign_study_locus_id(
-                        f.col("studyId"), f.col("variantId"), f.col("finemappingMethod")
+                        f.col("studyId"), f.col("variantId")
                     ),
                 )
                 # Initialize QC column as array of strings:

diff --git a/tests/gentropy/dataset/test_study_locus.py b/tests/gentropy/dataset/test_study_locus.py
@@ -240,9 +240,7 @@ def test_assign_study_locus_id__null_variant_id(spark: SparkSession) -> None:
         schema="studyId: string, variantId: string",
     ).withColumn(
         "studyLocusId",
-        StudyLocus.assign_study_locus_id(
-            f.col("studyId"), f.col("variantId"), f.col("finemappingMethod")
-        ),
+        StudyLocus.assign_study_locus_id(f.col("studyId"), f.col("variantId")),
     )
     assert (
         df.select("studyLocusId").distinct().count() == 2