Logo Cal2Lab


Module im CAL²Lab

Neben der Darstellung statistischer Grunddaten in Form von Kontextprofilen, werden Module zur Einschätzung der Bestimmtheit/Unbestimmtheit und der Ähnlichkeit von Lemmata bereitgestellt.

Kontextprofile: Eine Multi-level Kontextanalyse

Kontextprofile geben Aufschluss über die statistische Verteilung eines Lemmas im Korpus, so kann beispielsweise der Gebrauch des Lemmas unter zeitlichen und textsortenspezifischen Gesichtspunkten betrachtet werden. Für die 200 000 häuigsten Lemmata der Wortarten Substantiv, Verb und Adjaktiv sind ausführliche Kontextprofile abrufbar. Die Liste der Basislemmata wurde über verschiedene Säuberungsschritte gewonnen, so wurde entfernt, was Sonderzeichen enthält oder in einer Liste mit Namen und Abkürzungen vorkommt. Zusätzlich wurden über eine zweite Liste Rechtschreibvarianten zusammengeführt. Die Tabellen sind absteigend nach relativer Häufigkeit bzw. LLR-Wert sortiert.

Die Kontextprofile bieten statistische Daten auf verschiedenen Ebenen:

Für die häufig vorkommenden Verben sein, werden, haben, können, müssen und sollen wurden keine Kookkurrenzen und Mehrworteinheiten berechnet.

Key Word in Context (KWIC)

Durch linzenzrechtliche Beschränkungen ist es nicht möglich alle Texte vollständig anzuzeigen. Stattdessen wird für jedes Lemma eine KWIC-Ansicht erzeugt. Es wird maximal eine zufällige Auswahl von 1000 Belegen pro Lemma online zur Verfügung gestellt (über oben stehenden Button "Alle verfügbaren Ergebnisse mit Quellenangaben anzeigen"). Bei einem Vorkommen unter 1000 werden alle Belege vollständig angezeigt. Falls Sie einen Vollzugriff benötigen, melden Sie sich bitte bei den Projektverantwortlichen.

Maß zur Bewertung der Bestimmtheit/Umbestimmtheit eines Ausdrucks (in Vorbereitung)

Über einen Index wird quantifiziert wie flexibel das Lemma in seiner Verwendung ist. Dies hilft beispielsweise bei der Einschätzung der Eignung eines Ausdrucks in spezifischen Kontexten.

Semantische Ähnlichkeit (in Vorbereitung)

Um die Ähnlichkeit von Lemmata sichtbar zu machen, werden die Kontextprofile der Lemmata miteinander in einer Matrix verglichen und anschließend ähnliche Profile geclustert. Eine Visualisierung der Ergebnisse erfolgt über selbstorganisierende Karten.