The Corpus of Slovenian School Texts: Design and Creation
DOI:
https://doi.org/10.3986/JZ.28.1.07Keywords:
school text corpus, school dictionary, TEI, open access, copyrightAbstract
This article presents the Corpus of Slovenian School Texts, which is a specialized corpus of written Slovenian containing around 1.8 million tokens. It was designed within the scope of the project Franček, Language Advising Service for Teachers of Slovenian and the Slovenian School Dictionary, and it was intended to provide language material for compilation of Šolski slovar slovenskega jezika (Slovenian School Dictionary), the first research-based school dictionary of Slovenian. The article discusses the text type composition and size of the corpus, sheds light on technical procedures in text preprocessing and corpus annotation, and presents the set of corpus metadata. It also explains in which formats and under what licenses the Corpus of Slovenian School Texts has been made available, and also draws attention to legal aspects of obtaining texts.
Downloads
References
Ahačič idr. 2021a = Kozma Ahačič – Simon Atelšek – Tomaž Erjavec – Peter Holozan – Nataša Jakop – Mateja Jemec Tomazin – Janoš Ježovnik – Nina Ledinek – Andrej Perdih – Miro Romih – Mitja Trojar, Corpus of Slovenian school texts SBSJ 1.0, Slovenian language resource repository CLARIN.SI, 2021, http://hdl.handle.net/11356/1413.
Ahačič idr. 2021b = Kozma Ahačič – Janoš Ježovnik – Nina Ledinek – Andrej Perdih – Špela Petric Žižić – Duša Race, Priprava jezikovnih podatkov za pedagoški portal o slovenščini Franček, Philological Studies 19.1 (2021), 203–224.
Ahačič – Ledinek – Perdih 2015 = Kozma Ahačič – Nina Ledinek – Andrej Perdih, Portal Fran – nastanek in trenutno stanje, v: Slovnica in slovar – aktualni jezikovni opis (1. del), ur. Mojca Smolej, Ljubljana: Znanstvena založba Filozofske fakultete, 2015 (Obdobja 34), 57–66.
BN 2002 = Tatjana Kokalj, Besede nagajivke: učni pripomoček za učence od 2. do 5. razreda devetletne osnovne šole, Trzin: Založba Izolit, 2002.
Čebulj 2013 = Monika Čebulj, Raba slovarja v 1. in 2. triletju osnovne šole, diplomsko delo, Univerza v Ljubljani, Pedagoška fakulteta, 2013, http://pefprints.pef.uni-lj.si/1854/1/Čebulj-za_oddajo_(1).pdf.
Erjavec – Krek 2008 = Tomaž Erjavec – Simon Krek, The JOS morphosyntactically tagged corpus of Slovene, v: Proceedings of the Sixth International Conference on Language Resources and Evaluation, LREC'08, Pariz: ELRA, 2008.
Erjavec idr. 2010 = Tomaž Erjavec – Darja Fišer – Simon Krek – Nina Ledinek, The JOS linguistically tagged corpus of Slovene, v: Proceedings of the Seventh International Conference on Language Resources and Evaluation, LREC’10, Valetta: ELRA, 2010.
Godec Soršak 2015 = Lara Godec Soršak, Slovenski otroški šolski slovar, v: Slovnica in slovar – aktualni jezikovni opis (1. del), ur. Mojca Smolej, Ljubljana: Znanstvena založba Filozofske fakultete, 2015 (Obdobja 34), 243–250.
Godec Soršak 2019 = Lara Godec Soršak, Zasnova šolskega slovarja za otroke v 1. in 2. vzgojno-izobraževalnem obdobju, doktorska disertacija, Univerza v Ljubljani, Filozofska fakulteta, 2019.
Grčar – Krek – Dobrovoljc 2012 = Miha Grčar – Simon Krek – Kaja Dobrovoljc, Obeliks: statistični oblikoskladenjski označevalnik in lematizator za slovenski jezik, v: Zbornik Osme konference Jezikovne tehnologije, ur. Tomaž Erjavec – Jerneja Žganec Gros, Ljubljana: Institut Jožef Stefan, 2012, 89–94.
Ježovnik – Kenda-Jež – Škofic 2020 = Janoš Ježovnik – Karmen Kenda-Jež – Jožica Škofic, Reduce, Reuse, Recycle: Adaptation of Scientific Dialect Data for Use in a Language Portal for Schoolchildren, v: Proceedings of XIX EURALEX Congress: Lexicography for Inclusion, Vol. I., ur. Zoe Gavriilidou – Maria Mitsiaki – Asimakis Fliatouras, [Poznań : European Association for Lexicography], 2020, 31–37.
Kilgarriff idr. 2014 = Adam Kilgarriff – Vít Baisa – Jan Bušta – Miloš Jakubíček – Vojtěch Kovář – Jan Michelfeit – Pavel Rychlý – Vít Suchomel, The Sketch Engine: ten years on, Lexicography 1 (2014), 7–36.
Kosem – Rozman – Stritar 2011 = Iztok Kosem – Tadeja Rozman – Mojca Stritar, How do Slovenian primary and secondary school students write and what their teachers correct: a corpus of student writing, v: Proceedings of the Corpus Linguistics 2011 conference, 20-22 July 2011, Birmingham: University, 2011, http://www.birmingham.ac.uk/research/activity/corpus/publications/conference-archives/2011-birmingham.aspx.
Kosem idr. 2012 = Iztok Kosem – Mojca Stritar Kučuk – Sara Može – Ana Zwitter Vitez – Špela Arhar Holdt – Tadeja Rozman, Analiza jezikovnih težav učencev: korpusni pristop, Ljubljana: Trojina, zavod za uporabno humanistiko, 2012.
Kosem idr. 2016 = Iztok Kosem – Tadeja Rozman – Špela Arhar Holdt – Polonca Kocjančič – Cyprian Adam Laskowski, Šolar 2.0: nadgradnja korpusa šolskih pisnih izdelkov, v: Zbornik konference Jezikovne tehnologije in digitalna humanistika 2016, ur. Tomaž Erjavec – Darja Fišer, Ljubljana: Znanstvena založba Filozofske fakultete, 2016, 95–100, http://www.sdjt.si/wp/wp-content/uploads/2016/09/JTDH-2016_Kosem-et-al_Solar-2-0-nadgradnja-korpusa-solskih-pisnih-izdelkov.pdf.
Krek idr. 2020 = Simon Krek – Špela Arhar Holdt – Tomaž Erjavec – Jaka Čibej – Andraž Repar – Polona Gantar – Nikola Ljubešić – Iztok Kosem – Kaja Dobrovoljc, Gigafida 2.0: the reference corpus of written standard Slovene, v: LREC 2020: Twelfth International Conference on Language Resources and Evaluation: May 11-16, 2020, Marseille, France, ur. Nicoletta Calzolari, Paris: ELRA - European Language Resources Association, 2020, 3340–3345, http://www.lrec‑conf.org/proceedings/lrec2020/LREC-2020.pdf.
Logar Berginc idr. 2020 = Nataša Logar Berginc – Miha Grčar – Marko Brakus – Tomaž Erjavec – Špela Arhar Holdt – Simon Krek, Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKres: gradnja, vsebina, uporaba, 1. e-izdaja, Ljubljana: Znanstvena založba Filozofske fakultete, 2020, https://doi.org/10.4312/9789610603542.
Machálek 2020 = Tomáš Machálek, KonText: Advanced and Flexible Corpus Query Interface, v: LREC 2020: Twelfth International Conference on Language Resources and Evaluation: May 11–16, 2020, Marseille, France, ur. Nicoletta Calzolari, Paris: ELRA – European Language Resources Association, 2020, 7003–7008, https://www.aclweb.org/anthology/2020.
MMS 1996 = Majda Bitenc – Majda Starovašnik – Marija Ajdovec – Dijana Korošec, Moj mali slovar, Kranj: Osnovna šola Franceta Prešerna, 1996.
MPS 2002 = Damjana Šubic – Breda Sivec, Moj prvi slovar, Ljubljana: DZS, 2002.
MS 2000 = Barbara Hanuš – Irena Šimenc Mihalič – Damjana Šubic, Moj slovar, Ljubljana: DZS, 2000.
Perdih 2021 = Andrej Perdih, Indikatorji pri homografih na portalu Franček, Jezikoslovni zapiski 27.2 (2021), 7–21.
Perdih idr. 2021 = Andrej Perdih – Kozma Ahačič – Janoš Ježovnik – Duša Race, Building an Educational Language Portal Using Existing Dictionary Data, Jazykovedný časopis 72.2 (2021), 568–578.
Petric Žižić 2020 = Špela Petric Žižić, Tipologija razlag v Šolskem slovarju slovenskega jezika, Slavistična revija 68.3 (2020), 391–409.
Rozman 2010 = Tadeja Rozman, Vloga enojezičnega slovarja slovenščine pri razvoju jezikovne zmožnosti, doktorska disertacija, Univerza v Ljubljani, Filozofska fakulteta, 2010.
Rozman 2012 = Tadeja Rozman, Jezikovni pouk slovenščine: model (za) nove generacije, v: Slavistika v regijah – Koper, ur. Boža Krakar Vogel, Ljubljana: Zveza društev Slavistično društvo Slovenije – Znanstvena založba Filozofske fakultete, 2012 (Zbornik Slavističnega društva Slovenije 23), 219–225.
Rozman idr. 2015 = Tadeja Rozman – Iztok Kosem – Nataša Pirih Svetina – Ina Ferbežar, Slovarji in učenje slovenščine, v: Slovar sodobne slovenščine: problemi in rešitve, ur. Vojko Gorjanc – Polona Gantar – Iztok Kosem – Simon Krek, Ljubljana: Znanstvena založba Filozofske fakultete, 2015, 67–74.
Rozman idr. 2020 = Tadeja Rozman – Irena Krapš Vodopivec – Mojca Stritar – Iztok Kosem, Empirični pogled na pouk slovenskega jezika, Ljubljana: Znanstvena založba Filozofske fakultete, 2020.
Rychlý 2007 = Pavel Rychlý, Manatee/Bonito – A Modular Corpus Manager, v: Proceedings of the First Workshop on Recent Advances in Slavonic Natural Language Processing (RASLAN 2007), ur. Petr Sojka – Aleš Horák, Brno: Masaryk University, 2007, 65–70.
Stabej idr. 2008 = Marko Stabej – Tadeja Rozman – Nataša Pirih Svetina – Nina Modrijan – Boštjan Bajec, Jezikovni viri pri jezikovnem pouku v osnovni in srednji šoli: končno poročilo z rezultati dela, Ljubljana: Pedagoški inštitut, 2008, https://www.trojina.si/wp-content/uploads/2019/08/StabejRozman.pdf.
TEI Consortium 2017 = TEI P5: guidelines for electronic text encoding and interchange, TEI Consortium, http://www.tei-c.org/Guidelines/P5/.
Weiss 1994 = Peter Weiss, Katere slovarje smemo pričakovati po izidu Slovarja slovenskega knjižnega jezika, Jezik in slovstvo 39.7–8 (1994), 346–350.
Weiss 2001 = Peter Weiss, Slovenski šolski slovar, v: Sodobna slovenska narečna poezija. Ciril Kosmač in razvoj povojne slovenske proze, ur. Zoltan Jan, Ljubljana: Zavod Republike Slovenije za šolstvo, 2001 (Zbornik Slavističnega društva Slovenije 11), 179–188.
Downloads
Published
Versions
- 2022-09-28 (2)
- 2022-09-27 (1)
How to Cite
Issue
Section
License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Authors guarantee that the work is their own original creation and does not infringe any statutory or common-law copyright or any proprietary right of any third party. In case of claims by third parties, authors commit their self to defend the interests of the publisher, and shall cover any potential costs.
More in: Submission chapter