Logo Cal2Lab


Basiskorpus des CAL²Lab

Inhalt

Das juristische Referenz Korpus (JuReko) ist das nur deutsche Texte enthaltende Subkorpus des größeren CAL²-Korpus. Es wurde optimiert um eine repräsentative Textauswahl zur semantischen Analyse juristischer Sprache zur Verfügung zu stellen. Das Korpus enthält folgende Textsorten:

Textsorte Anzahl der Texte Herkunft
Artikel 41 379 21 juristische Fachzeitschriften
Entscheidungen 333 677 openjur.de (bis März 2015), gesetze-bayern.de und justizportal-bw.de (bis Ende 2015)
Gesetze 4 746 gesetze-im-internet.de (Stand: 4.1.2016)

Es wurden 379 802 Texte mit insgesamt über einer Milliarde Token zur Berechung der statistischen Daten als Basis für das CAL²-Korpus verwendet. Die zeitliche Verteilung der Texte können der folgenden Tabelle entnommen werden:

vor 1960 1960er 1970er 1980er 1990er 2000er nach 2010
Artikel 0 0 0 4313 9 599 18 556 8 911
Entscheidungen 82 82 670 2 351 16 301 174 339 139 852
Gesetze 382 306 499 403 971 1 364 821
gesamt 464 388 1 169 7 067 26 871 194 259 149 584

Hintergrund

Das Korpus wurde mit der Hilfe von xsl-Transformationen und Java-Programmen erstellt und mit PoS-Tags angereichert (TreeTagger). Alle Texte liegen TEI P5 konform vor, wobei Metadaten (zum Beispiel Titel, Autor, Gericht, Datum) ebenfalls in einer relationalen Datenbank erfasst und manuell nachkorrigiert wurden. Anschließend wurde eine Deduplizierung vorgenommen und Präfixverben zusammengefügt.


Weitere Informationen finden Sie auf der Projekthomepage.