Letnik 4 (2016), številka 2 (4)
July 14, 2016 — 10:28

Darja Fišer
Filozofska fakulteta Univerze v Ljubljani, Institut “Jožef Stefan”
Ljubljana, Slovenija

Tomaž Erjavec
Institut “Jožef Stefan”
Ljubljana, Slovenija

Nikola Ljubešić
Filozofska fakulteta v Zagrebu”, Institut “Jožef Stefan”
Zagreb, Hrvaška in Ljubljana, Slovenija

JANES v0.4: Korpus slovenskih spletnih uporabniških vsebin


Izvleček:
V prispevku predstavimo najnovejšo različico korpusa spletne slovenščine Janes, ki vsebuje tvite, spletne forume, novice in uporabniške komentarje nanje, blogovske zapise in komentarje nanje ter uporabniške in pogovorne strani na Wikipediji. Najprej opišemo postopek zajema besedil za vsakega od vključenih virov in podamo kvantitativno analizo zgrajenega korpusa. Sledi predstavitev avtomatskih in ročnih postopkov za obogatitev korpusa s koristnimi metapodatki, kot so tip, spol in regija avtorja ter sentiment in stopnja tehnične in jezikovne standardnosti posameznega besedila. Prispevek sklenemo z opisom delotoka za jezikoslovno označevanje korpusa, ki vključuje tokenizacijo, stavčno segmentacijo, rediakritizacijo, normalizacijo, oblikoskladenjsko označevanje in lematizacijo.

Ključne besede: gradnja korpusa, računalniško posredovana komunikacija, uporabniške spletne vsebine, spletna slovenščina, nestandardna slovenščina

Referenca: Fišer, D., Erjavec, T., Ljubešić, N. (2016): JANES v0.4: Korpus slovenskih spletnih uporabniških vsebin. Slovenščina 2.0, 4 (2): 67–99.

URL: http://slovenscina2.0.trojina.si/arhiv/2016/2/Slo2.0_2016_2_04.pdf

DOI: http://dx.doi.org/10.4312/slo2.0.2016.2.67-99

Objavljeno: 30. 9. 2016

…na kazalo vsebine…