Razvoj algoritma za samodejno prepoznavanje krajšav in krajšavnih razvezav v elektronskih besedilih

Mojca Kompara

DOI: https://doi.org/10.3986/jz.v17i2.2379

Povzetek

Namen prispevka je predstaviti razvoj algoritma za samodejno prepoznavanje krajšav in krajšavnih razvezav v slovenskih elektronskih besedilih. Prepoznavanje krajšav poteka na leksikalni oz. besedni ravni z opazovanjem lastnosti krajšav in krajšavnih razvezav ter sovpadanja. Algoritem prepozna krajšave na podlagi pravil za prepoznavanje, razvezave pa išče v sobesedilu ob upoštevanju pravil sovpadanja. V prispevku predstavljamo algoritem na podlagi filtriranja petih letnikov dnevnika Delo, s katerim v 30 minutah izluščimo 5820 kandidatov za krajšavno-razvezavne pare, ki so potem ročno čiščeni. Natančnost algoritma je 96,75-odstotna.

Ključne besede

krajšave, razvezave, algoritmi

Celotno besedilo:

PDF

Literatura

ADAM 〈http://128.248.65.210/arrowsmith_uic/adam.html〉.

Byrd – Park 2001 = Youngja Park – Roy J. Byrd, Hybrid TextMining for Finding Abbreviations and Their Definitions, IMB Thomas J. Watson Research Center, 2001, 167–170.

Chiari 2007 = Isabella Chiari, Introduzione alla linguistica computazionale, Roma – Bari: Laterza, 2007.

Google 〈http://www.google.com/〉.

Jun Xu – Yalou Huang 2005 = Jun Xu – Yalou Huang, A Machine Learning Approach to Recognising Acronyms and Their Expansions, 2005 〈http://research.microsoft.com/en-us/people/junxu/acronymextraction-icmlc2005.pdf〉.

Larkey idr. 2000 = Leah S. Larkey idr., Acrophile: An Automated Acronym Extractor and Server, Proceedings of the fifth ACM conference on Digital libraries, 2000, 205–214.

Schwartz – Hearst 2003 = Ariel S. Schwartz – Marti A. Hearst, A simple algorithm for identifying abbreviation definitions in biomedical texts, Proceedings of the Pacific Symposium on Biocomputing, 2003, 451–462.

Šatev – Nikolov 2008 = Vesna Šatev – Nicolas Nikolov, Using the Web as a Corpus for Extracting Abbreviations in the Serbian Language, v: Jezikovne tehnologije: zbornik 11. mednarodne multikonference Informacijska družba – IS 2008, zvezek C, ur. Tomaž Erjavec – Jerneja Žganec Gros, Ljubljana: Institut Jožef Stefan, 2008, 75–79.

Taghva – Gilbreth 1999 = Kazem Taghva – Jeff Gilbreth, Recognizing acronyms and their definitions, International Journal on Document Analysis and Recognition 1 (1999), št. 4, 191–198.

Yeates 1999 = Stuart Yeates, Automatic extraction of acronyms from text, Proceedings of the Third New Zealand Computer Science Research Students’ Conference, Hamilton: University of Waikato, 1999, 117–124.

Zahariev 2004 = Manuel Zahariev, A (Acronyms): doktorska disertacija, School of Computing Science, Simon Fraser University, 2004.

ur.com 〈http://24ur.com/〉.



DOI: https://doi.org/10.3986/jz.v17i2.2379

Avtorske pravice (c) 2019 Jezikoslovni zapiski

##submission.license.cc.by-nc-nd4.footer##

Revija se indeksira v Dlib.

Za nemoteno delovanje spletna stran uporablja piškotek za čas trajanja seje. Po končani seje se piškotek izbriše.