Implement text_to_mo.py, version 0.11.0 (#159)

insolor · web-flow · commit e1f39f41b852 · 2025-10-11T13:37:32.000+03:00
diff --git a/df_translation_toolkit/convert/text_to_mo.py b/df_translation_toolkit/convert/text_to_mo.py
@@ -0,0 +1,70 @@
+from collections.abc import Iterable, Iterator
+from typing import BinaryIO, TextIO
+
+from babel.messages.catalog import Catalog, Message
+from babel.messages.mofile import write_mo
+from babel.messages.pofile import read_po
+from loguru import logger
+
+from df_translation_toolkit.parse.parse_raws import join_tag, split_tag
+from df_translation_toolkit.utils.fix_translated_strings import cleanup_string, fix_spaces
+from df_translation_toolkit.validation.validate_objects import validate_tag
+from df_translation_toolkit.validation.validation_models import Diagnostics, ProblemInfo
+
+
+def fix_spaces_in_tag_parts_translations(original_parts: list[str], translation_parts: list[str]) -> Iterator[str]:
+    for original, translation in zip(original_parts, translation_parts, strict=False):
+        yield fix_spaces(original, translation, strict=True)
+
+
+def translate_tag(
+    original_tag: str,
+    translation_tag: str,
+    diagnostics: Diagnostics | None = None,
+) -> str | None:
+    validation_problems = list(validate_tag(original_tag, translation_tag))
+    problem_info = ProblemInfo(original=original_tag, translation=translation_tag, problems=validation_problems)
+    logger.error("\n" + str(problem_info))
+    if diagnostics:
+        diagnostics.add(problem_info)
+
+    if problem_info.contains_errors():
+        return None
+
+    original_parts = split_tag(original_tag)
+    translation_parts = split_tag(translation_tag)
+
+    return join_tag(fix_spaces_in_tag_parts_translations(original_parts, translation_parts))
+
+
+def translate_tag_string(
+    original_string_tag: str,
+    translation_tag: str,
+    diagnostics: Diagnostics | None = None,
+) -> str | None:
+    if not (original_string_tag and translation_tag and translation_tag != original_string_tag):
+        return None
+
+    translation_tag = fix_spaces(original_string_tag, translation_tag, strict=True)
+    translation = translate_tag(original_string_tag, translation_tag, diagnostics=diagnostics)
+    if not translation:
+        return None
+
+    return cleanup_string(translation)
+
+
+def prepare_translation_messages(catalog: Catalog, diagnostics: Diagnostics | None = None) -> Iterable[Message]:
+    for message in catalog:
+        translation = translate_tag_string(str(message.id), str(message.string), diagnostics=diagnostics)
+        if translation:
+            yield Message(id=message.id, context=message.context, string=translation)
+
+
+def convert(po_file: TextIO, mo_file: BinaryIO, diagnostics: Diagnostics | None = None) -> None:
+    input_catalog = read_po(po_file)
+    output_catalog = Catalog()
+
+    for message in prepare_translation_messages(input_catalog, diagnostics):
+        output_catalog.add(id=message.id, context=message.context, string=message.string)
+
+    write_mo(mo_file, output_catalog)
diff --git a/df_translation_toolkit/utils/fix_translated_strings.py b/df_translation_toolkit/utils/fix_translated_strings.py
@@ -1,36 +1,42 @@
 from unidecode import unidecode_expect_nonascii as unidecode
 
 
-def fix_leading_spaces(original_string: str, translation: str) -> str:
+def fix_leading_spaces(original_string: str, translation: str, *, strict: bool = False) -> str:
     """
     Adds missing space in the beginning of the translation.
     Removes extra spaces, if the translation starts with "." or ",".
     """
-    if original_string.startswith(" ") and not translation.startswith(" "):
-        translation = " " + translation
+    if original_string.startswith(" "):
+        if not translation.startswith(" "):
+            translation = " " + translation
+    elif strict:
+        translation = translation.lstrip()
 
     if translation.lstrip().startswith((".", ",")):
         translation = translation.lstrip()
 
     return translation
 
 
-def fix_trailing_spaces(original_string: str, translation: str) -> str:
+def fix_trailing_spaces(original_string: str, translation: str, *, strict: bool = False) -> str:
     """
     Adds a missing trailing space.
     """
-    if original_string.endswith(" ") and not translation.endswith(" "):
-        translation += " "
+    if original_string.endswith(" "):
+        if not translation.endswith(" "):
+            translation += " "
+    elif strict:
+        translation = translation.rstrip()
 
     return translation
 
 
-def fix_spaces(original_string: str, translation: str) -> str:
+def fix_spaces(original_string: str, translation: str, *, strict: bool = False) -> str:
     """
     Fixes leading and trailing spaces of the translation string
     """
-    translation = fix_leading_spaces(original_string, translation)
-    return fix_trailing_spaces(original_string, translation)
+    translation = fix_leading_spaces(original_string, translation, strict=strict)
+    return fix_trailing_spaces(original_string, translation, strict=strict)
 
 
 _exclusions = "¿¡"
diff --git a/df_translation_toolkit/validation/validate_objects.py b/df_translation_toolkit/validation/validate_objects.py
@@ -16,7 +16,10 @@ def validate_tag(original_tag: str, translation_tag: str) -> Iterator[Validation
         return
 
     if translation_tag.strip() != translation_tag:
-        yield ValidationProblem("Extra spaces at the beginning or at the end of the translation")
+        yield ValidationProblem(
+            "Extra spaces at the beginning or at the end of the translation",
+            ProblemSeverity.WARNING,
+        )
         translation_tag = translation_tag.strip()
         # No return to check issues with brackets after stripping spaces
 
@@ -39,7 +42,10 @@ def validate_tag_parts(original_parts: list[str], translation_parts: list[str])
         if all_caps(original) or original.isdecimal():
             valid = not (original != translation and original == translation.strip())
             if not valid:
-                yield ValidationProblem("Don't add extra spaces at the beginning or at the end of a tag part")
+                yield ValidationProblem(
+                    "Don't add extra spaces at the beginning or at the end of a tag part",
+                    ProblemSeverity.WARNING,
+                )
 
             valid = original == translation or original in ("STP", "NP", "SINGULAR", "PLURAL")
             if not valid:
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [tool.poetry]
 name = "df-translation-toolkit"
-version = "0.10.0"
+version = "0.11.0"
 description = "Toolset to convert text extracted from DF to translation format and aback"
 authors = [
     "insolor <insolor@gmail.com>",
diff --git a/tests/test_text_to_mo.py b/tests/test_text_to_mo.py
@@ -0,0 +1,29 @@
+import pytest
+
+from df_translation_toolkit.convert.text_to_mo import fix_spaces_in_tag_parts_translations, translate_tag_string
+
+
+@pytest.mark.parametrize(
+    "original_parts, translated_parts, result",
+    [
+        (["FIRST", " original "], ["FIRST", "translation"], ["FIRST", " translation "]),
+    ],
+)
+def test_fix_spaces_in_tag_parts_translations(
+    original_parts: list[str],
+    translated_parts: list[str],
+    result: list[str],
+) -> None:
+    assert list(fix_spaces_in_tag_parts_translations(original_parts, translated_parts)) == result
+
+
+@pytest.mark.parametrize(
+    "original, translation, result",
+    [
+        ("[FIRST: original ]", "[FIRST:translation]", "[FIRST: translation ]"),
+        ("[FIRST:original]", "[FIRST: translation ]", "[FIRST:translation]"),
+        ("[FIRST:original]", " [FIRST:translation] ", "[FIRST:translation]"),
+    ],
+)
+def test_translate_tag_string(original: str, translation: str, result: str) -> None:
+    assert translate_tag_string(original, translation) == result