Tutkimusmateriaalit ja niiden käyttö

 

Volgan alueen kielten tutkimusyksikössä on sähköisten kielikorpusten kokoelma, jota jatkuvasti kehitetään. Tutkimusaineistot jakaantuvat seuraaviin luokkiin:

  • koodaamattomat tekstit
  • kieliopillisesti koodatut tekstit
  • paralleelitekstit
  • sanaluettelot

Koodaamattomat tekstit

Tutkimusyksikön tavoitteena on kerätä kaikista tutkimusyksikön kohdekielistä vähintään miljoonan sanan laajuinen tekstiaineisto. Tähän mennessä laajoja aineistoja on kerätty udmurtista, marista, mordvasta ja tshuvassista. Osa näistä teksteistä on käytettävissä myös Internetin kautta. Koska teksteihin ei ole liitetty morfosyntaktista koodausta, niistä voi tehdä vain merkkijonohakuja.

Kieliopillisesti koodatut tekstit

Toistaiseksi ainoa koodattu korpus sisältää ersää ja mokshaa. Korpuksen laajuus on n. 240 000 sanaa, ja se käsittää sekä kansanrunoutta että kirjakielisiä tekstejä. Jokaiseen sanaan on liitetty tiedot sanan sanaluokasta ja taivutuksesta. Käyttäjä voi siis esimerkiksi pyytää kaikki aineistossa esiintyvät monikon inesiivit.

Paralleelitekstit

Kielten morfosyntaktista ja semanttista vertailua helpottamaan on laadittu paralleelitekstikorpuksia. Ne sisältävät saman tekstin monella eri kielellä, ja toisiaan vastaavat virkkeet on numeroitu, joten käyttäjä näkee helposti, miten sama asia on ilmaistu eri kielissä. Paralleeliteksteistä voi tietenkin tehdä myös merkkijonohakuja.

Sanaluettelot

Tutkimusyksikkö pyrkii saamaan jokaisesta Volgan-Kaman alueen kielestä tutkijoiden käyttöön laajan sähköisen sanaluettelon, jota voidaan käyttää erityisesti sananmuodostuksen tutkimiseen. Koska eri kielten sanalistat on laadittu saman mallin mukaan ja ovat käsiteltävissä yhtä aikaa saman käyttöliittymäohjelmiston avulla, ne mahdollistavat kielten sanaston rakenteen vertailun. Kymmenien tuhansien sanojen sanalistoja on jo laadittu marista, mordvasta, udmurtista ja tshuvassista. Sanalistoissa on kunkin sanan kohdalla ilmoitettu sen edustama kielimuoto (esim. ersä tai moksha), sanaluokka ja lähdeteos, josta se on poimittu. Sanalistoissa ei ole tietoja sanojen merkityksestä.

Hakuohjelmat

Kaikkia korpustyyppejä varten on laadittu erityiset hakuohjelmat, joiden avulla käyttäjä helposti löytää häntä kiinnostavat kielenainekset. Ohjelmat ovat käytettävissä tutkimusyksikön tiloissa Turussa. Eräitä koodaamattomia tekstiaineistoja voidaan kuitenkin käyttää Internetin kautta, ja sanalistojen käsittelyohjelma tulee olemaan saatavissa myös Suomalais-Ugrilaisesta Seurasta.

Käyttöoikeus

Tutkimusaineistot ovat maksutta suomalais-ugrilaisen kielentutkimuksen henkilökunnan ja opiskelijoiden sekä oppiaineen tai tutkimusyksikön kanssa yhteistyötä tekevien tutkijoiden käytettävissä. Aineistojen käyttöoikeus myönnetään selvästi määriteltyä tutkimushanketta varten. Tutkimusaineistojen käytöstä kiinnostuneita neuvotaan ottamaan yhteys tutkija Jorma Luutoseen (luutonen_at_utu.fi).

 

23.03.2007 09:25 Jorma Luutonen