Neben der Darstellung statistischer Grunddaten in Form von Kontextprofilen, werden Module zur Einschätzung der Bestimmtheit/Unbestimmtheit und der Ähnlichkeit von Lemmata bereitgestellt.
Kontextprofile geben Aufschluss über die statistische Verteilung eines Lemmas im Korpus, so kann beispielsweise der Gebrauch des Lemmas unter zeitlichen und textsortenspezifischen Gesichtspunkten betrachtet werden. Für die 200 000 häuigsten Lemmata der Wortarten Substantiv, Verb und Adjaktiv sind ausführliche Kontextprofile abrufbar. Die Liste der Basislemmata wurde über verschiedene Säuberungsschritte gewonnen, so wurde entfernt, was Sonderzeichen enthält oder in einer Liste mit Namen und Abkürzungen vorkommt. Zusätzlich wurden über eine zweite Liste Rechtschreibvarianten zusammengeführt. Die Tabellen sind absteigend nach relativer Häufigkeit bzw. LLR-Wert sortiert.
Die Kontextprofile bieten statistische Daten auf verschiedenen Ebenen:
Für die häufig vorkommenden Verben sein, werden, haben, können, müssen und sollen wurden keine Kookkurrenzen und Mehrworteinheiten berechnet.
Durch linzenzrechtliche Beschränkungen ist es nicht möglich alle Texte vollständig anzuzeigen. Stattdessen wird für jedes Lemma eine KWIC-Ansicht erzeugt. Es wird maximal eine zufällige Auswahl von 1000 Belegen pro Lemma online zur Verfügung gestellt (über oben stehenden Button "Alle verfügbaren Ergebnisse mit Quellenangaben anzeigen"). Bei einem Vorkommen unter 1000 werden alle Belege vollständig angezeigt. Falls Sie einen Vollzugriff benötigen, melden Sie sich bitte bei den Projektverantwortlichen.
Über einen Index wird quantifiziert wie flexibel das Lemma in seiner Verwendung ist. Dies hilft beispielsweise bei der Einschätzung der Eignung eines Ausdrucks in spezifischen Kontexten.
Um die Ähnlichkeit von Lemmata sichtbar zu machen, werden die Kontextprofile der Lemmata miteinander in einer Matrix verglichen und anschließend ähnliche Profile geclustert. Eine Visualisierung der Ergebnisse erfolgt über selbstorganisierende Karten.