Module im CAL²Lab

Neben der Darstellung statistischer Grunddaten in Form von Kontextprofilen, werden Module zur Einschätzung der Bestimmtheit/Unbestimmtheit und der Ähnlichkeit von Lemmata bereitgestellt.

Kontextprofile: Eine Multi-level Kontextanalyse

Kontextprofile geben Aufschluss über die statistische Verteilung eines Lemmas im Korpus, so kann beispielsweise der Gebrauch des Lemmas unter zeitlichen und textsortenspezifischen Gesichtspunkten betrachtet werden. Für die 200 000 häuigsten Lemmata der Wortarten Substantiv, Verb und Adjaktiv sind ausführliche Kontextprofile abrufbar. Die Liste der Basislemmata wurde über verschiedene Säuberungsschritte gewonnen, so wurde entfernt, was Sonderzeichen enthält oder in einer Liste mit Namen und Abkürzungen vorkommt. Zusätzlich wurden über eine zweite Liste Rechtschreibvarianten zusammengeführt. Die Tabellen sind absteigend nach relativer Häufigkeit bzw. LLR-Wert sortiert.

Die Kontextprofile bieten statistische Daten auf verschiedenen Ebenen:

Hinweise zur Gesamtfrequenz und zur Häufigkeitsklasse.
Verteilung in Texten, also in wie vielen Texten das Listenlemma auftaucht und die durchschnittliche Anzahl der Vorkommen in diesen Texten sowie die Standardabweichung davon.
Häufigkeit der zugeordneten Token, Lemma und Part-of-Speech-Tags durch den TreeTagger
Vorkommenshäufigkeit und Verteilung in Texten in Verbindung mit Metadaten: Erscheinungsjahr des Textes, Vorkommen in Textsorten, bei Entscheidungen Vorkommen nach Gericht, Vorkommen in Artikeln nach Autor und Zeitschrift, sowie Vorkommen in Textabschnitten, also im ersten/zweiten/dritten/vierten Viertel des Textes. Für die Verteilung nach Jahren wird eine Diagrammansicht erstellt (ab 1980).
Kookkurrenzanalyse, die Aufschluss über signifikant (>= P(0,05)) vorkommende Token in einem Rahmen von +/- 8 gibt. Die Ergebnisliste ist nach LLR-Wert sortiert. Bei der Berechnung des LLR-Wertes wurde über Satzgrenzen hinweg gezählt und Doppeltzählungen innerhalb eines Fensters wurden erlaubt. Das kann dazu führen, dass Funktionswörter recht hohe LLR-Werte erhalten. Wenn es durch doppelte Vorkommen innerhalb eines Fensters bei der Berechnung zu einem Nullwert kommen würde, wurde der betreffende Wert auf das Minumin gesetzt (= 1,0) gesetzt um zu vermeiden, dass das Ergbnis in diesen Fällen immer Null beträgt.
Häufig vorkommende Clusterverbindungen, in Form von Token-, Lemma- und PoS-Clustern, sowie gemischten Clustern bestehend aus Leerstellen, Lemmata und PoS-Tags. Die Cluster werden in verschiedenen Größen berechnet: Für Lemmata und Token mit den Längen 2, 3 und 5, für PoS und Gemischte mit der Länge 3. Alle angezeigten Cluster kommen mindestens 10 (Gemischte 20) mal im Korpus vor.

Für die häufig vorkommenden Verben sein, werden, haben, können, müssen und sollen wurden keine Kookkurrenzen und Mehrworteinheiten berechnet.

Key Word in Context (KWIC)

Durch linzenzrechtliche Beschränkungen ist es nicht möglich alle Texte vollständig anzuzeigen. Stattdessen wird für jedes Lemma eine KWIC-Ansicht erzeugt. Es wird maximal eine zufällige Auswahl von 1000 Belegen pro Lemma online zur Verfügung gestellt (über oben stehenden Button "Alle verfügbaren Ergebnisse mit Quellenangaben anzeigen"). Bei einem Vorkommen unter 1000 werden alle Belege vollständig angezeigt. Falls Sie einen Vollzugriff benötigen, melden Sie sich bitte bei den Projektverantwortlichen.

Maß zur Bewertung der Bestimmtheit/Umbestimmtheit eines Ausdrucks (in Vorbereitung)

Über einen Index wird quantifiziert wie flexibel das Lemma in seiner Verwendung ist. Dies hilft beispielsweise bei der Einschätzung der Eignung eines Ausdrucks in spezifischen Kontexten.

Semantische Ähnlichkeit (in Vorbereitung)

Um die Ähnlichkeit von Lemmata sichtbar zu machen, werden die Kontextprofile der Lemmata miteinander in einer Matrix verglichen und anschließend ähnliche Profile geclustert. Eine Visualisierung der Ergebnisse erfolgt über selbstorganisierende Karten.