|
21 | 21 | def test_stanza_deu(): |
22 | 22 | test_stanza.wl_test_stanza( |
23 | 23 | lang = 'deu_de', |
24 | | - results_sentence_tokenize = ['Das Deutsche ist eine plurizentrische Sprache, enthält also mehrere Standardvarietäten in verschiedenen Regionen.', 'Ihr Sprachgebiet umfasst Deutschland, Österreich, die Deutschschweiz, Liechtenstein, Luxemburg, Ostbelgien, Südtirol, das Elsass und Lothringen sowie Nordschleswig.', 'Außerdem ist Deutsch eine Minderheitensprache in einigen europäischen und außereuropäischen Ländern, z. B. in Rumänien und Südafrika sowie Nationalsprache im afrikanischen Namibia.', 'Deutsch ist die meistgesprochene Muttersprache in der Europäischen Union (EU).', '[26]'], |
25 | | - results_word_tokenize = ['Das', 'Deutsche', 'ist', 'eine', 'plurizentrische', 'Sprache', ',', 'enthält', 'also', 'mehrere', 'Standardvarietäten', 'in', 'verschiedenen', 'Regionen', '.'], |
26 | | - results_pos_tag = [('Das', 'ART'), ('Deutsche', 'NN'), ('ist', 'VAFIN'), ('eine', 'ART'), ('plurizentrische', 'ADJA'), ('Sprache', 'NN'), (',', '$,'), ('enthält', 'VVFIN'), ('also', 'ADV'), ('mehrere', 'PIAT'), ('Standardvarietäten', 'NN'), ('in', 'APPR'), ('verschiedenen', 'ADJA'), ('Regionen', 'NN'), ('.', '$.')], |
27 | | - results_pos_tag_universal = [('Das', 'DET'), ('Deutsche', 'PROPN'), ('ist', 'AUX'), ('eine', 'DET'), ('plurizentrische', 'ADJ'), ('Sprache', 'NOUN'), (',', 'PUNCT'), ('enthält', 'VERB'), ('also', 'ADV'), ('mehrere', 'DET'), ('Standardvarietäten', 'NOUN'), ('in', 'ADP'), ('verschiedenen', 'ADJ'), ('Regionen', 'NOUN'), ('.', 'PUNCT')], |
28 | | - results_lemmatize = ['der', 'deutsch', 'sein', 'ein', 'plurizentrisch', 'Sprache', ',', 'enthalten', 'also', 'mehr', 'Standardvarietät', 'in', 'verschieden', 'Region', '.'], |
29 | | - results_dependency_parse = [('Das', 'Deutsche', 'det', 1), ('Deutsche', 'Sprache', 'nsubj', 4), ('ist', 'Sprache', 'cop', 3), ('eine', 'Sprache', 'det', 2), ('plurizentrische', 'Sprache', 'amod', 1), ('Sprache', 'Sprache', 'root', 0), (',', 'enthält', 'punct', 1), ('enthält', 'Sprache', 'conj', -2), ('also', 'enthält', 'advmod', -1), ('mehrere', 'Standardvarietäten', 'det', 1), ('Standardvarietäten', 'enthält', 'obj', -3), ('in', 'Regionen', 'case', 2), ('verschiedenen', 'Regionen', 'amod', 1), ('Regionen', 'Standardvarietäten', 'nmod', -3), ('.', 'Sprache', 'punct', -9)], |
| 24 | + results_sentence_tokenize = ['Die deutsche Sprache oder Deutsch [dɔɪ̯tʃ][24] ist eine westgermanische Sprache, die weltweit etwa 90 bis 105 Millionen Menschen als Muttersprache und weiteren rund 80 Millionen als Zweit- oder Fremdsprache dient.', 'Das Deutsche ist eine plurizentrische Sprache, enthält also mehrere Standardvarietäten in verschiedenen Regionen.'], |
| 25 | + results_word_tokenize = ['Die', 'deutsche', 'Sprache', 'oder', 'Deutsch', '[', 'dɔɪ̯tʃ][24', ']', 'ist', 'eine', 'westgermanische', 'Sprache', ',', 'die', 'weltweit', 'etwa', '90', 'bis', '105', 'Millionen', 'Menschen', 'als', 'Muttersprache', 'und', 'weiteren', 'rund', '80', 'Millionen', 'als', 'Zweit', '-', 'oder', 'Fremdsprache', 'dient', '.'], |
| 26 | + results_pos_tag = [('Die', 'ART'), ('deutsche', 'ADJA'), ('Sprache', 'NN'), ('oder', 'KON'), ('Deutsch', 'NN'), ('[', '$('), ('dɔɪ̯tʃ][24', 'NE'), (']', '$('), ('ist', 'VAFIN'), ('eine', 'ART'), ('westgermanische', 'ADJA'), ('Sprache', 'NN'), (',', '$,'), ('die', 'PRELS'), ('weltweit', 'ADJD'), ('etwa', 'ADV'), ('90', 'CARD'), ('bis', 'KON'), ('105', 'CARD'), ('Millionen', 'NN'), ('Menschen', 'NN'), ('als', 'KOKOM'), ('Muttersprache', 'NN'), ('und', 'KON'), ('weiteren', 'ADJA'), ('rund', 'ADV'), ('80', 'CARD'), ('Millionen', 'NN'), ('als', 'KOKOM'), ('Zweit', 'TRUNC'), ('-', '$('), ('oder', 'KON'), ('Fremdsprache', 'NN'), ('dient', 'VVFIN'), ('.', '$.')], |
| 27 | + results_pos_tag_universal = [('Die', 'DET'), ('deutsche', 'ADJ'), ('Sprache', 'NOUN'), ('oder', 'CCONJ'), ('Deutsch', 'NOUN'), ('[', 'PUNCT'), ('dɔɪ̯tʃ][24', 'PROPN'), (']', 'PUNCT'), ('ist', 'AUX'), ('eine', 'DET'), ('westgermanische', 'ADJ'), ('Sprache', 'NOUN'), (',', 'PUNCT'), ('die', 'PRON'), ('weltweit', 'ADJ'), ('etwa', 'ADV'), ('90', 'NUM'), ('bis', 'ADP'), ('105', 'NUM'), ('Millionen', 'NOUN'), ('Menschen', 'NOUN'), ('als', 'ADP'), ('Muttersprache', 'NOUN'), ('und', 'CCONJ'), ('weiteren', 'ADJ'), ('rund', 'ADV'), ('80', 'NUM'), ('Millionen', 'NOUN'), ('als', 'ADP'), ('Zweit', 'NOUN'), ('-', 'PUNCT'), ('oder', 'CCONJ'), ('Fremdsprache', 'NOUN'), ('dient', 'VERB'), ('.', 'PUNCT')], |
| 28 | + results_lemmatize = ['der', 'deutsch', 'Sprache', 'oder', 'deutsch', '[', 'denfellelhuldellulfelliehueruu', ']', 'sein', 'ein', 'westgermanisch', 'Sprache', ',', 'der', 'weltweit', 'etwa', '90', 'bis', '105', 'Million', 'Mensch', 'als', 'Muttersprache', 'und', 'weit', 'rund', '80', 'Million', 'als', 'Zweit', '-', 'oder', 'Fremdsprache', 'dienen', '.'], |
| 29 | + results_dependency_parse = [('Die', 'Sprache', 'det', 2), ('deutsche', 'Sprache', 'amod', 1), ('Sprache', 'Sprache', 'nsubj', 9), ('oder', 'Deutsch', 'cc', 1), ('Deutsch', 'Sprache', 'conj', -2), ('[', 'dɔɪ̯tʃ][24', 'punct', 1), ('dɔɪ̯tʃ][24', 'Sprache', 'appos', -4), (']', 'dɔɪ̯tʃ][24', 'punct', -1), ('ist', 'Sprache', 'cop', 3), ('eine', 'Sprache', 'det', 2), ('westgermanische', 'Sprache', 'amod', 1), ('Sprache', 'Sprache', 'root', 0), (',', 'dient', 'punct', 21), ('die', 'dient', 'nsubj', 20), ('weltweit', 'dient', 'advmod', 19), ('etwa', '90', 'advmod', 1), ('90', 'Millionen', 'nummod', 3), ('bis', '105', 'case', 1), ('105', 'Millionen', 'nmod', 1), ('Millionen', 'Menschen', 'nmod', 1), ('Menschen', 'dient', 'obj', 13), ('als', 'Muttersprache', 'case', 1), ('Muttersprache', 'dient', 'obl', 11), ('und', 'Millionen', 'cc', 4), ('weiteren', 'Millionen', 'amod', 3), ('rund', '80', 'advmod', 1), ('80', 'Millionen', 'nummod', 1), ('Millionen', 'Zweit', 'nmod', 2), ('als', 'Zweit', 'case', 1), ('Zweit', 'dient', 'obl', 4), ('-', 'Fremdsprache', 'punct', 2), ('oder', 'Fremdsprache', 'cc', 1), ('Fremdsprache', 'Zweit', 'conj', -3), ('dient', 'Sprache', 'acl', -22), ('.', 'Sprache', 'punct', -23)], |
30 | 30 | results_sentiment_analayze = [0] |
31 | 31 | ) |
32 | 32 |
|
|
0 commit comments