NVIDIA · bene-ges · May 5, 2022 · May 5, 2022 · May 5, 2022 · May 5, 2022
diff --git a/.../nlp/text_normalization_as_tagging/dataset_preparation/prepare_corpora_after_alignment.py b/.../nlp/text_normalization_as_tagging/dataset_preparation/prepare_corpora_after_alignment.py
@@ -24,8 +24,7 @@
 from collections import Counter
 from typing import Dict, Optional, TextIO, Tuple
 
-from examples.nlp.text_normalization_as_tagging.dataset_preparation.utils import get_src_and_dst_for_alignment
-
+from nemo.collections.nlp.data.text_normalization_as_tagging.utils import get_src_and_dst_for_alignment
 from nemo.utils import logging
 
 parser = ArgumentParser(description="Produce data for the ThutmoseTaggerModel")

diff --git a/...es/nlp/text_normalization_as_tagging/dataset_preparation/prepare_corpora_for_alignment.py b/...es/nlp/text_normalization_as_tagging/dataset_preparation/prepare_corpora_for_alignment.py
@@ -47,7 +47,7 @@
 from os.path import isdir, join
 from shutil import rmtree
 
-from examples.nlp.text_normalization_as_tagging.dataset_preparation.utils import get_src_and_dst_for_alignment
+from nemo.collections.nlp.data.text_normalization_as_tagging.utils import get_src_and_dst_for_alignment
 
 parser = ArgumentParser(description='Split corpus to subcorpora for giza alignment')
 parser.add_argument('--data_dir', type=str, required=True, help='Path to folder with data')

diff --git a/examples/nlp/text_normalization_as_tagging/dataset_preparation/utils.py b/examples/nlp/text_normalization_as_tagging/dataset_preparation/utils.py
diff --git a/nemo/collections/nlp/data/text_normalization_as_tagging/tagging.py b/nemo/collections/nlp/data/text_normalization_as_tagging/tagging.py
@@ -207,9 +207,10 @@ def realize_output(self, tags: List[Tag], semiotic_labels: List[str]) -> Tuple[s
                 output_tokens.append(frag.replace(" ", "").replace("_", ""))
             else:
                 output_tokens.append(frag.strip().replace("_", ""))
-
+        output_str = " ".join(output_tokens)
+        output_str = re.sub(r" +", " ", output_str)
         return (
-            " ".join(output_tokens),
+            output_str,
             " ".join(self.source_tokens),
             " ".join(out_tags_without_swap),
             output_tags_with_swap_str,