Korpus šolskih besedil slovenskega jezika: zasnova in gradnja

Avtorji

  • Nina Ledinek
  • Mateja Jemec Tomazin
  • Mitja Trojar
  • Andrej Perdih
  • Janoš Ježovnik
  • Miro Romih
  • Tomaž Erjavec

DOI:

https://doi.org/10.3986/JZ.28.1.07

Ključne besede:

korpus šolskih besedil, šolski slovar, TEI, odprti dostop, urejanje avtorskih pravic

Povzetek

V prispevku je predstavljen Korpus šolskih besedil slovenskega jezika, specializirani pisni korpus slovenščine v obsegu približno 1,8 milijona pojavnic. Korpus je bil zasnovan v okviru projekta Franček, Jezikovna svetovalnica za učitelje slovenščine in Šolski slovar slovenskega jezika, in sicer kot gradivska osnova za oblikovanje Šolskega slovarja slovenskega jezika, prvega znanstveno utemeljenega pedagoškega slovarja za slovenski jezik. Prispevek obravnava besedilnotipsko sestavo in obseg korpusa, osvetljuje tehnične postopke predpriprave besedil in njihovega jezikoslovnega označevanja ter predstavlja nabor korpusnih metapodatkov, hkrati pa pojasnjuje, v katerih formatih in pod katerimi licencami je Korpus šolskih besedil slovenskega jezika na voljo. Članek opozarja tudi na pravne vidike pridobivanja besedil.

Prenosi

Podatki o prenosih še niso na voljo.

Literatura

Ahačič idr. 2021a = Kozma Ahačič – Simon Atelšek – Tomaž Erjavec – Peter Holozan – Nataša Jakop – Mateja Jemec Tomazin – Janoš Ježovnik – Nina Ledinek – Andrej Perdih – Miro Romih – Mitja Trojar, Corpus of Slovenian school texts SBSJ 1.0, Slovenian language resource repository CLARIN.SI, 2021, http://hdl.handle.net/11356/1413.

Ahačič idr. 2021b = Kozma Ahačič – Janoš Ježovnik – Nina Ledinek – Andrej Perdih – Špela Petric Žižić – Duša Race, Priprava jezikovnih podatkov za pedagoški portal o slovenščini Franček, Philological Studies 19.1 (2021), 203–224.

Ahačič – Ledinek – Perdih 2015 = Kozma Ahačič – Nina Ledinek – Andrej Perdih, Portal Fran – nastanek in trenutno stanje, v: Slovnica in slovar – aktualni jezikovni opis (1. del), ur. Mojca Smolej, Ljubljana: Znanstvena založba Filozofske fakultete, 2015 (Obdobja 34), 57–66.

BN 2002 = Tatjana Kokalj, Besede nagajivke: učni pripomoček za učence od 2. do 5. razreda devet­let­ne osnovne šole, Trzin: Založba Izolit, 2002.

Čebulj 2013 = Monika Čebulj, Raba slovarja v 1. in 2. triletju osnovne šole, diplomsko delo, Univerza v Ljubljani, Pedagoška fakulteta, 2013, http://pefprints.pef.uni-lj.si/1854/1/Čebulj-za_oddajo_(1).pdf.

Erjavec – Krek 2008 = Tomaž Erjavec – Simon Krek, The JOS morphosyntactically tagged corpus of Slovene, v: Proceedings of the Sixth International Conference on Language Resources and Evaluation, LREC'08, Pariz: ELRA, 2008.

Erjavec idr. 2010 = Tomaž Erjavec – Darja Fišer – Simon Krek – Nina Ledinek, The JOS linguistically tagged corpus of Slovene, v: Proceedings of the Seventh International Conference on Language Resources and Evaluation, LREC’10, Valetta: ELRA, 2010.

Godec Soršak 2015 = Lara Godec Soršak, Slovenski otroški šolski slovar, v: Slovnica in slovar – aktualni jezikovni opis (1. del), ur. Mojca Smolej, Ljubljana: Znanstvena založba Filozofske fakultete, 2015 (Obdobja 34), 243–250.

Godec Soršak 2019 = Lara Godec Soršak, Zasnova šolskega slovarja za otroke v 1. in 2. vzgojno-izobraževalnem obdobju, doktorska disertacija, Univerza v Ljubljani, Filozofska fakulteta, 2019.

Grčar – Krek – Dobrovoljc 2012 = Miha Grčar – Simon Krek – Kaja Dobrovoljc, Obeliks: statistični oblikoskladenjski označevalnik in lematizator za slovenski jezik, v: Zbornik Osme konference Jezikovne tehnologije, ur. Tomaž Erjavec – Jerneja Žganec Gros, Ljubljana: Institut Jožef Stefan, 2012, 89–94.

Ježovnik – Kenda-Jež – Škofic 2020 = Janoš Ježovnik – Karmen Kenda-Jež – Jožica Škofic, Reduce, Reuse, Recycle: Adaptation of Scientific Dialect Data for Use in a Language Portal for Schoolchildren, v: Proceedings of XIX EURALEX Congress: Lexicography for Inclusion, Vol. I., ur. Zoe Gavriilidou – Maria Mitsiaki – Asimakis Fliatouras, [Poznań : European Association for Lexicography], 2020, 31–37.

Kilgarriff idr. 2014 = Adam Kilgarriff – Vít Baisa – Jan Bušta – Miloš Jakubíček – Vojtěch Kovář – Jan Michelfeit – Pavel Rychlý – Vít Suchomel, The Sketch Engine: ten years on, Lexicography 1 (2014), 7–36.

Kosem – Rozman – Stritar 2011 = Iztok Kosem – Tadeja Rozman – Mojca Stritar, How do Slovenian primary and secondary school students write and what their teachers correct: a corpus of student writing, v: Proceedings of the Corpus Linguistics 2011 conference, 20-22 July 2011, Birmingham: University, 2011, http://www.birmingham.ac.uk/research/activity/corpus/publications/conference-archives/2011-birmingham.aspx.

Kosem idr. 2012 = Iztok Kosem – Mojca Stritar Kučuk – Sara Može – Ana Zwitter Vitez – Špela Arhar Holdt – Tadeja Rozman, Analiza jezikovnih težav učencev: korpusni pristop, Ljubljana: Trojina, zavod za uporabno humanistiko, 2012.

Kosem idr. 2016 = Iztok Kosem – Tadeja Rozman – Špela Arhar Holdt – Polonca Kocjančič – Cyprian Adam Laskowski, Šolar 2.0: nadgradnja korpusa šolskih pisnih izdelkov, v: Zbornik konference Jezikovne tehnologije in digitalna humanistika 2016, ur. Tomaž Erjavec – Darja Fišer, Ljubljana: Znanstvena založba Filozofske fakultete, 2016, 95–100, http://www.sdjt.si/wp/wp-content/uploads/2016/09/JTDH-2016_Kosem-et-al_Solar-2-0-nadgradnja-korpusa-solskih-pisnih-izdelkov.pdf.

Krek idr. 2020 = Simon Krek – Špela Arhar Holdt – Tomaž Erjavec – Jaka Čibej – Andraž Repar – Polona Gantar – Nikola Ljubešić – Iztok Kosem – Kaja Dobrovoljc, Gigafida 2.0: the reference corpus of written standard Slovene, v: LREC 2020: Twelfth International Conference on Language Resources and Evaluation: May 11-16, 2020, Marseille, France, ur. Nicoletta Calzolari, Paris: ELRA - European Language Resources Association, 2020, 3340–3345, http://www.lrec­‑conf.org/proceedings/lrec2020/LREC-2020.pdf.

Logar Berginc idr. 2020 = Nataša Logar Berginc – Miha Grčar – Marko Brakus – Tomaž Erjavec – Špela Arhar Holdt – Simon Krek, Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKres: gradnja, vsebina, uporaba, 1. e-izdaja, Ljubljana: Znanstvena založba Filozofske fakultete, 2020, https://doi.org/10.4312/9789610603542.

Machálek 2020 = Tomáš Machálek, KonText: Advanced and Flexible Corpus Query Interface, v: LREC 2020: Twelfth International Conference on Language Resources and Evaluation: May 11–16, 2020, Marseille, France, ur. Nicoletta Calzolari, Paris: ELRA – European Language Resources Association, 2020, 7003–7008, https://www.aclweb.org/anthology/2020.

MMS 1996 = Majda Bitenc – Majda Starovašnik – Marija Ajdovec – Dijana Korošec, Moj mali slovar, Kranj: Osnovna šola Franceta Prešerna, 1996.

MPS 2002 = Damjana Šubic – Breda Sivec, Moj prvi slovar, Ljubljana: DZS, 2002.

MS 2000 = Barbara Hanuš – Irena Šimenc Mihalič – Damjana Šubic, Moj slovar, Ljubljana: DZS, 2000.

Perdih 2021 = Andrej Perdih, Indikatorji pri homografih na portalu Franček, Jezikoslovni zapiski 27.2 (2021), 7–21.

Perdih idr. 2021 = Andrej Perdih – Kozma Ahačič – Janoš Ježovnik – Duša Race, Building an Educational Language Portal Using Existing Dictionary Data, Jazykovedný časopis 72.2 (2021), 568–578.

Petric Žižić 2020 = Špela Petric Žižić, Tipologija razlag v Šolskem slovarju slovenskega jezika, Slavistična revija 68.3 (2020), 391–409.

Rozman 2010 = Tadeja Rozman, Vloga enojezičnega slovarja slovenščine pri razvoju jezikovne zmožnosti, doktorska disertacija, Univerza v Ljubljani, Filozofska fakulteta, 2010.

Rozman 2012 = Tadeja Rozman, Jezikovni pouk slovenščine: model (za) nove generacije, v: Slavistika v regijah – Koper, ur. Boža Krakar Vogel, Ljubljana: Zveza društev Slavistično društvo Slovenije – Znanstvena založba Filozofske fakultete, 2012 (Zbornik Slavističnega društva Slovenije 23), 219–225.

Rozman idr. 2015 = Tadeja Rozman – Iztok Kosem – Nataša Pirih Svetina – Ina Ferbežar, Slovarji in učenje slovenščine, v: Slovar sodobne slovenščine: problemi in rešitve, ur. Vojko Gorjanc – Polona Gantar – Iztok Kosem – Simon Krek, Ljubljana: Znanstvena založba Filozofske fakultete, 2015, 67–74.

Rozman idr. 2020 = Tadeja Rozman – Irena Krapš Vodopivec – Mojca Stritar – Iztok Kosem, Empirični pogled na pouk slovenskega jezika, Ljubljana: Znanstvena založba Filozofske fakultete, 2020.

Rychlý 2007 = Pavel Rychlý, Manatee/Bonito – A Modular Corpus Manager, v: Proceedings of the First Workshop on Recent Advances in Slavonic Natural Language Processing (RASLAN 2007), ur. Petr Sojka – Aleš Horák, Brno: Masaryk University, 2007, 65–70.

Stabej idr. 2008 = Marko Stabej – Tadeja Rozman – Nataša Pirih Svetina – Nina Modrijan – Boštjan Bajec, Jezikovni viri pri jezikovnem pouku v osnovni in srednji šoli: končno poročilo z rezultati dela, Ljubljana: Pedagoški inštitut, 2008, https://www.trojina.si/wp-content/uploads/2019/08/StabejRozman.pdf.

TEI Consortium 2017 = TEI P5: guidelines for electronic text encoding and interchange, TEI Consortium, http://www.tei-c.org/Guidelines/P5/.

Weiss 1994 = Peter Weiss, Katere slovarje smemo pričakovati po izidu Slovarja slovenskega knjižnega jezika, Jezik in slovstvo 39.7–8 (1994), 346–350.

Weiss 2001 = Peter Weiss, Slovenski šolski slovar, v: Sodobna slovenska narečna poezija. Ciril Kosmač in razvoj povojne slovenske proze, ur. Zoltan Jan, Ljubljana: Zavod Republike Slovenije za šolstvo, 2001 (Zbornik Slavističnega društva Slovenije 11), 179–188.

Prenosi

Objavljeno

27.09.2022 — posodobljeno 28.09.2022

Verzije

Kako citirati

Ledinek, N., Jemec Tomazin, M., Trojar, M., Perdih, A., Ježovnik, J., Romih, M., & Erjavec, T. (2022). Korpus šolskih besedil slovenskega jezika: zasnova in gradnja. Jezikoslovni Zapiski, 28(1), 123–137. https://doi.org/10.3986/JZ.28.1.07 (Original work published 27. september 2022)

Številka

Rubrike

Razprave in članki