Das juristische Referenz Korpus (JuReko) ist das nur deutsche Texte enthaltende Subkorpus des größeren CAL²-Korpus. Es wurde optimiert um eine repräsentative Textauswahl zur semantischen Analyse juristischer Sprache zur Verfügung zu stellen. Das Korpus enthält folgende Textsorten:
Textsorte | Anzahl der Texte | Herkunft |
---|---|---|
Artikel | 41 379 | 21 juristische Fachzeitschriften |
Entscheidungen | 333 677 | openjur.de (bis März 2015), gesetze-bayern.de und justizportal-bw.de (bis Ende 2015) |
Gesetze | 4 746 | gesetze-im-internet.de (Stand: 4.1.2016) |
Es wurden 379 802 Texte mit insgesamt über einer Milliarde Token zur Berechung der statistischen Daten als Basis für das CAL²-Korpus verwendet. Die zeitliche Verteilung der Texte können der folgenden Tabelle entnommen werden:
vor 1960 | 1960er | 1970er | 1980er | 1990er | 2000er | nach 2010 | |
---|---|---|---|---|---|---|---|
Artikel | 0 | 0 | 0 | 4313 | 9 599 | 18 556 | 8 911 |
Entscheidungen | 82 | 82 | 670 | 2 351 | 16 301 | 174 339 | 139 852 |
Gesetze | 382 | 306 | 499 | 403 | 971 | 1 364 | 821 |
gesamt | 464 | 388 | 1 169 | 7 067 | 26 871 | 194 259 | 149 584 |
Das Korpus wurde mit der Hilfe von xsl-Transformationen und Java-Programmen erstellt und mit PoS-Tags angereichert (TreeTagger). Alle Texte liegen TEI P5 konform vor, wobei Metadaten (zum Beispiel Titel, Autor, Gericht, Datum) ebenfalls in einer relationalen Datenbank erfasst und manuell nachkorrigiert wurden. Anschließend wurde eine Deduplizierung vorgenommen und Präfixverben zusammengefügt.
Weitere Informationen finden Sie auf der Projekthomepage.