Tutkimusmateriaalit ja niiden käyttö

 

Volgan alueen kielten tutkimusyksikössä on sähköisten kielikorpusten kokoelma, jota jatkuvasti kehitetään. Tutkimusaineistot jakaantuvat seuraaviin luokkiin:

  • koodaamattomat tekstit
  • kieliopillisesti koodatut tekstit
  • paralleelitekstit
  • kirjakielen historian korpukset
  • sanaluettelot

Koodaamattomat tekstit

Tutkimusyksikön tavoitteena on kerätä kaikista tutkimusyksikön kohdekielistä vähintään miljoonan sanan laajuinen tekstiaineisto. Tähän mennessä laajoja aineistoja on kerätty udmurtista, komipermjakista, marista, mordvasta, tshuvassista ja tataarista. Osa näistä teksteistä on käytettävissä myös Internetin kautta. Koska teksteihin ei ole liitetty morfosyntaktista koodausta, niistä voi tehdä vain merkkijonohakuja.

Kieliopillisesti koodatut tekstit

Toistaiseksi ainoa koodattu korpus sisältää ersää ja mokshaa. Korpuksen laajuus on n. 240 000 sanaa, ja se käsittää sekä kansanrunoutta että kirjakielisiä tekstejä. Jokaiseen sanaan on liitetty tiedot sanan sanaluokasta ja taivutuksesta. Käyttäjä voi siis esimerkiksi pyytää kaikki aineistossa esiintyvät monikon inesiivit.

Paralleelitekstit

Kielten morfosyntaktista ja semanttista vertailua helpottamaan on laadittu paralleelitekstikorpuksia. Ne sisältävät saman tekstin monella eri kielellä, ja toisiaan vastaavat virkkeet on numeroitu, joten käyttäjä näkee helposti, miten sama asia on ilmaistu eri kielissä. Paralleeliteksteistä voi tietenkin tehdä myös merkkijonohakuja.

Kirjakielen historian korpukset

Kirjakielen historian korpukset sisältävät sanoma- ja aikakauslehtitekstejä, joita on kerätty eri vuosikymmeniltä koko kirjakielen historian ajalta. Eri-ikäisiä tekstejä vertailemalla saadaan kuva kirjakielen muutostendensseistä. Mordvan kirjakielten historian korpus on jo valmistunut, ja marin vastaavan aineiston kokoaminen on loppuvaiheessaan.

Sanaluettelot

Tutkimusyksikkö pyrkii saamaan jokaisesta Volgan-Kaman alueen kielestä tutkijoiden käyttöön laajan sähköisen sanaluettelon, jota voidaan käyttää erityisesti sananmuodostuksen tutkimiseen. Koska eri kielten sanalistat on laadittu saman mallin mukaan ja ovat käsiteltävissä yhtä aikaa saman käyttöliittymäohjelmiston avulla, ne mahdollistavat kielten sanaston rakenteen vertailun. Kymmenien tuhansien sanojen sanalistoja on jo laadittu marista, mordvasta, udmurtista ja tshuvassista. Sanalistoissa on kunkin sanan kohdalla ilmoitettu sen edustama kielimuoto (esim. ersä tai moksha), sanaluokka ja lähdeteos, josta se on poimittu. Sanalistoissa ei ole tietoja sanojen merkityksestä.

Hakuohjelmat

Kaikkia korpustyyppejä varten on laadittu erityiset hakuohjelmat, joiden avulla käyttäjä helposti löytää häntä kiinnostavat kielenainekset. Ohjelmat ovat käytettävissä tutkimusyksikön tiloissa Turussa. Eräitä koodaamattomia tekstiaineistoja voidaan kuitenkin käyttää Internetin kautta. Sanalistojen käsittelyohjelma sisältyy Suomalais-Ugrilaisen Seuran julkaisuun Electronic Word Lists: Mari, Mordvin and Udmurt (2007).

Käyttöoikeus

Tutkimusaineistot ovat maksutta suomalais-ugrilaisen kielentutkimuksen henkilökunnan ja opiskelijoiden sekä oppiaineen tai tutkimusyksikön kanssa yhteistyötä tekevien tutkijoiden käytettävissä. Aineistojen käyttöoikeus myönnetään selvästi määriteltyä tutkimushanketta varten. Tutkimusaineistojen käytöstä kiinnostuneita neuvotaan ottamaan yhteys tutkija Jorma Luutoseen (luutonen_at_utu.fi).

 

07.09.2012 10:34 Eeva Herrala