Work Area: Add Dependency Parser - Search Settings - Search term position

BLKSerene · BLKSerene · commit ba5185e65679 · 2025-09-08T20:54:18.000+08:00
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -25,6 +25,7 @@
 - Settings: Add Settings - Tables - Miscellaneous Settings
 - Utils: Add Wordless's character tokenizer
 - Work Area: Add Profiler - Export all tables
+- Work Area: Add Dependency Parser - Search Settings - Search term position
 - Work Area: Add Work Area - Table Settings - Show total
 - Work Area: Add Work Area - Sample
 
diff --git a/tests/tests_nlp/test_nlp_utils.py b/tests/tests_nlp/test_nlp_utils.py
@@ -105,7 +105,7 @@ def test_wl_worker_download_model_spacy():
     ).run()
 
 def test_wl_worker_download_model_stanza():
-    for lang in ('zho_cn', 'zho_tw', 'other', 'ara'):
+    for lang in ('ara', 'eng_us'):
         wl_nlp_utils.Wl_Worker_Download_Model_Stanza(
             main,
             dialog_progress = wl_dialogs_misc.Wl_Dialog_Progress_Download_Model(main),
@@ -130,14 +130,10 @@ def test_init_model_spacy():
     assert 'spacy_nlp_sentencizer' in main.__dict__
 
 def test_init_model_stanza():
-    wl_nlp_utils.init_model_stanza(main, lang = 'zho_cn', lang_util = 'sentence_tokenizer')
-    wl_nlp_utils.init_model_stanza(main, lang = 'zho_tw', lang_util = 'sentence_tokenizer')
-    wl_nlp_utils.init_model_stanza(main, lang = 'eng_gb', lang_util = 'sentence_tokenizer')
-    wl_nlp_utils.init_model_stanza(main, lang = 'eng_us', lang_util = 'sentence_tokenizer')
+    wl_nlp_utils.init_model_stanza(main, lang = 'eng_gb', lang_util = 'sentence_tokenizer', tokenized = False)
+    wl_nlp_utils.init_model_stanza(main, lang = 'eng_us', lang_util = 'sentence_tokenizer', tokenized = True)
     wl_nlp_utils.init_model_stanza(main, lang = 'other', lang_util = 'sentence_tokenizer')
 
-    assert 'stanza_nlp_zho_cn' in main.__dict__
-    assert 'stanza_nlp_zho_tw' in main.__dict__
     assert 'stanza_nlp_eng' in main.__dict__
     assert 'stanza_nlp_eng_gb' not in main.__dict__
     assert 'stanza_nlp_eng_us' not in main.__dict__
@@ -182,7 +178,6 @@ def test_init_word_detokenizers():
 def test_init_pos_taggers():
     wl_nlp_utils.init_pos_taggers(main, 'eng_us', 'sapcy_eng')
     wl_nlp_utils.init_pos_taggers(main, 'eng_us', 'stanza_eng')
-    wl_nlp_utils.init_pos_taggers(main, 'eng_us', 'stanza_eng', tokenized = True)
 
     wl_nlp_utils.init_pos_taggers(main, 'jpn', 'sudachipy_jpn')
     wl_nlp_utils.init_pos_taggers(main, 'kor', 'python_mecab_ko_mecab')
@@ -193,7 +188,6 @@ def test_init_pos_taggers():
 def test_init_lemmatizers():
     wl_nlp_utils.init_lemmatizers(main, 'eng_us', 'sapcy_eng')
     wl_nlp_utils.init_lemmatizers(main, 'eng_us', 'stanza_eng')
-    wl_nlp_utils.init_lemmatizers(main, 'eng_us', 'stanza_eng', tokenized = True)
 
     wl_nlp_utils.init_lemmatizers(main, 'jpn', 'sudachipy_jpn')
 
@@ -203,11 +197,9 @@ def test_init_lemmatizers():
 def test_init_dependency_parsers():
     wl_nlp_utils.init_dependency_parsers(main, 'eng_us', 'spacy_eng')
     wl_nlp_utils.init_dependency_parsers(main, 'eng_us', 'stanza_eng')
-    wl_nlp_utils.init_dependency_parsers(main, 'eng_us', 'stanza_eng', tokenized = True)
 
 def test_init_sentiment_analyzers():
     wl_nlp_utils.init_sentiment_analyzers(main, 'eng_us', 'stanza_eng')
-    wl_nlp_utils.init_sentiment_analyzers(main, 'eng_us', 'stanza_eng', tokenized = True)
 
 def test_align_tokens():
     assert wl_nlp_utils.align_tokens(['a', 'b'], ['a', 'b'], ['1', '2']) == ['1', '2']
diff --git a/wordless/wl_dependency_parser.py b/wordless/wl_dependency_parser.py
@@ -41,6 +41,7 @@
     wl_threading
 )
 from wordless.wl_widgets import (
+    wl_boxes,
     wl_labels,
     wl_layouts,
     wl_tables,
@@ -121,11 +122,20 @@ def __init__(self, main):
         ) = wl_widgets.wl_widgets_search_settings_tokens(self, tab = self.tab)
         self.checkbox_match_dependency_relations = QtWidgets.QCheckBox(self.tr('Match dependency relations'), self)
 
+        self.label_search_term_position = QtWidgets.QLabel(self.tr('Search term position:'), self)
+        self.combo_box_search_term_position = wl_boxes.Wl_Combo_Box(self)
+
         (
             self.label_context_settings,
             self.button_context_settings
         ) = wl_widgets.wl_widgets_context_settings(self, tab = self.tab)
 
+        self.combo_box_search_term_position.addItems([
+            self.tr('Head/dependent'),
+            self.tr('Head'),
+            self.tr('Dependent')
+        ])
+
         self.checkbox_multi_search_mode.stateChanged.connect(self.search_settings_changed)
         self.line_edit_search_term.textChanged.connect(self.search_settings_changed)
         self.line_edit_search_term.returnPressed.connect(self.table_dependency_parser.button_generate_table.click)
@@ -140,6 +150,13 @@ def __init__(self, main):
         self.checkbox_match_without_tags.stateChanged.connect(self.search_settings_changed)
         self.checkbox_match_tags.stateChanged.connect(self.search_settings_changed)
         self.checkbox_match_dependency_relations.stateChanged.connect(self.search_settings_changed)
+        self.combo_box_search_term_position.currentTextChanged.connect(self.search_settings_changed)
+
+        layout_search_term_position = wl_layouts.Wl_Layout()
+        layout_search_term_position.addWidget(self.label_search_term_position, 0, 0)
+        layout_search_term_position.addWidget(self.combo_box_search_term_position, 0, 1)
+
+        layout_search_term_position.setColumnStretch(1, 1)
 
         layout_context_settings = wl_layouts.Wl_Layout()
         layout_context_settings.addWidget(self.label_context_settings, 0, 0)
@@ -163,7 +180,11 @@ def __init__(self, main):
 
         self.group_box_search_settings.layout().addWidget(wl_layouts.Wl_Separator(self), 10, 0, 1, 2)
 
-        self.group_box_search_settings.layout().addLayout(layout_context_settings, 11, 0, 1, 2)
+        self.group_box_search_settings.layout().addLayout(layout_search_term_position, 11, 0, 1, 2)
+
+        self.group_box_search_settings.layout().addWidget(wl_layouts.Wl_Separator(self), 12, 0, 1, 2)
+
+        self.group_box_search_settings.layout().addLayout(layout_context_settings, 13, 0, 1, 2)
 
         # Table Settings
         self.group_box_table_settings = QtWidgets.QGroupBox(self.tr('Table Settings'), self)
@@ -243,6 +264,7 @@ def load_settings(self, defaults = False):
         self.checkbox_match_without_tags.setChecked(settings['search_settings']['match_without_tags'])
         self.checkbox_match_tags.setChecked(settings['search_settings']['match_tags'])
         self.checkbox_match_dependency_relations.setChecked(settings['search_settings']['match_dependency_relations'])
+        self.combo_box_search_term_position.setCurrentText(settings['search_settings']['search_term_position'])
 
         # Context Settings
         if defaults:
@@ -295,6 +317,7 @@ def search_settings_changed(self):
         settings['match_without_tags'] = self.checkbox_match_without_tags.isChecked()
         settings['match_tags'] = self.checkbox_match_tags.isChecked()
         settings['match_dependency_relations'] = self.checkbox_match_dependency_relations.isChecked()
+        settings['search_term_position'] = self.combo_box_search_term_position.currentText()
 
         # Match dependency relations
         if settings['match_dependency_relations']:
@@ -551,7 +574,19 @@ def run(self):
                                 (
                                     (
                                         not settings['search_settings']['match_dependency_relations']
-                                        and (token in search_terms or token.head in search_terms)
+                                        and settings['search_settings']['search_term_position'] == self.tr('Head/dependent')
+                                        and (
+                                            token in search_terms
+                                            or token.head in search_terms
+                                        )
+                                    ) or (
+                                        not settings['search_settings']['match_dependency_relations']
+                                        and settings['search_settings']['search_term_position'] == self.tr('Head')
+                                        and token.head in search_terms
+                                    ) or (
+                                        not settings['search_settings']['match_dependency_relations']
+                                        and settings['search_settings']['search_term_position'] == self.tr('Dependent')
+                                        and token in search_terms
                                     ) or (
                                         settings['search_settings']['match_dependency_relations']
                                         and token.dependency_relation in wl_texts.to_display_texts(search_terms)
diff --git a/wordless/wl_nlp/wl_nlp_utils.py b/wordless/wl_nlp/wl_nlp_utils.py
@@ -86,6 +86,15 @@ def to_lang_util_texts(main, util_type, util_codes):
         for util_code in util_codes
     )
 
+def get_langs_stanza(main, util_type):
+    langs_stanza = set()
+
+    for lang_code, lang_utils in main.settings_global[util_type].items():
+        if any((lang_util.startswith('stanza_') for lang_util in lang_utils)):
+            langs_stanza.add(lang_code)
+
+    return langs_stanza
+
 LANGS_SPACY = {
     'cat': 'ca_core_news_trf',
     'zho': 'zh_core_web_trf',
@@ -115,14 +124,17 @@ def to_lang_util_texts(main, util_type, util_codes):
     'other': 'en_core_web_trf'
 }
 
-def get_langs_stanza(main, util_type):
-    langs_stanza = set()
+LANGS_SPACY_LEMMATIZERS = (
+    'ben', 'ces', 'grc', 'hun', 'ind', 'gle', 'ltz', 'fas', 'srp', 'tgl',
+    'tur', 'urd'
+)
 
-    for lang_code, lang_utils in main.settings_global[util_type].items():
-        if any((lang_util.startswith('stanza_') for lang_util in lang_utils)):
-            langs_stanza.add(lang_code)
+LANGS_STANZA = {
+    'zho_cn': 'zh-hans',
+    'zho_tw': 'zh-hant',
 
-    return langs_stanza
+    'other': 'en'
+}
 
 @wl_misc.log_time
 def check_models(parent, langs, lang_utils = None):
@@ -333,15 +345,7 @@ def run(self):
             if self.lang in get_langs_stanza(self.main, util_type = 'sentiment_analyzers'):
                 processors.append('sentiment')
 
-            match self.lang:
-                case 'zho_cn':
-                    lang_stanza = 'zh-hans'
-                case 'zho_tw':
-                    lang_stanza = 'zh-hant'
-                case 'other':
-                    lang_stanza = 'en'
-                case _:
-                    lang_stanza = wl_conversion.to_iso_639_1(self.main, self.lang, no_suffix = True)
+            lang_stanza = LANGS_STANZA.get(self.lang, wl_conversion.to_iso_639_1(self.main, self.lang, no_suffix = True))
 
             # Using existing resources.json if network error occurs
             try:
@@ -368,11 +372,6 @@ def run(self):
         self.progress_updated.emit(self.tr('Download completed successfully.'))
         self.finished.emit(err_msg)
 
-LANGS_SPACY_LEMMATIZERS = (
-    'ben', 'ces', 'grc', 'hun', 'ind', 'gle', 'ltz', 'fas', 'srp', 'tgl',
-    'tur', 'urd'
-)
-
 def init_model_spacy(main, lang, sentencizer_only = False):
     sentencizer_config = {'punct_chars': wl_sentence_tokenization.SENTENCE_TERMINATORS}
 
@@ -448,15 +447,7 @@ def init_model_stanza(main, lang, lang_util, tokenized = False):
             or set(processors) | {'mwt'} != set(main.__dict__[f'stanza_nlp_{lang}'].processors) | {'mwt'}
             or tokenized != main.__dict__[f'stanza_nlp_{lang}'].kwargs.get('tokenize_pretokenized', False)
         ):
-            match lang:
-                case 'zho_cn':
-                    lang_stanza = 'zh-hans'
-                case 'zho_tw':
-                    lang_stanza = 'zh-hant'
-                case 'other':
-                    lang_stanza = 'en'
-                case _:
-                    lang_stanza = wl_conversion.to_iso_639_1(main, lang, no_suffix = True)
+            lang_stanza = LANGS_STANZA.get(lang, wl_conversion.to_iso_639_1(main, lang, no_suffix = True))
 
             if getattr(sys, '_MEIPASS', False):
                 model_dir = wl_paths.get_path_file('stanza_resources')
@@ -569,7 +560,7 @@ def init_syl_tokenizers(main, lang, syl_tokenizer):
             main.__dict__[f'pyphen_syl_tokenizer_{lang}'] = pyphen.Pyphen(lang = lang_pyphen)
 
 def init_word_detokenizers(main, lang):
-    if lang not in ('zho_cn', 'zho_tw', 'jpn', 'tha', 'bod'):
+    if lang not in LANGS_WITHOUT_SPACES:
         # Sacremoses
         lang_sacremoses = wl_conversion.remove_lang_code_suffixes(wl_conversion.to_iso_639_1(main, lang))
         lang = wl_conversion.remove_lang_code_suffixes(lang)
diff --git a/wordless/wl_settings/wl_settings_default.py b/wordless/wl_settings/wl_settings_default.py
@@ -404,6 +404,7 @@ def init_settings_default(main):
                 'match_without_tags': False,
                 'match_tags': False,
                 'match_dependency_relations': False,
+                'search_term_position': _tr('wl_settings_default', 'Head/dependent'),
 
                 'context_settings': {
                     'incl': {
diff --git a/wordless/wl_widgets/wl_tables.py b/wordless/wl_widgets/wl_tables.py
@@ -686,6 +686,10 @@ def run(self):
                 for i, _ in enumerate(worksheet.rows):
                     worksheet.row_dimensions[2 + i].height = self.table.verticalHeader().sectionSize(0) / dpi_vertical * 72
 
+                # Filter
+                if self.table.results_filter:
+                    worksheet.auto_filter.ref = worksheet.dimensions
+
                 self.progress_updated.emit(self.tr('Saving file...'))
 
                 workbook.save(self.file_path)