Vilnius FM Gyvai
Transliuojama

LABAS, VILNIAU! Rasa Stupakovaitė: Garsyno misija -išsaugoti lietuvių kalbą technologijų eroje

„Labas, Vilniau!“ laidos vedėja Kristina Kanišauskaitė – Šaltmerė kalbina Rasą Stupakovaitę – Garsyno projekto vadovę, kuri atskleidžia didžiausio Lietuvoje vykdomo kalbos duomenų projekto užkulisius. Liepa 3 – tai nacionalinė iniciatyva, kuria siekiama sukurti didįjį lietuvių kalbos garsyną, surenkant net 10 000 valandų mūsų šalies gyventojų balsų.

Šis garsynas taps technologiniu pagrindu, kuris leis dirbtinio intelekto įrankiams suprasti mūsų kalbos subtilybes: tarimą, intonaciją, tarmes, kirčius ir garsų junginius, kurie kitoms kalboms nebūdingi ir sunkiai atpažįstami.

KAS YRA DIDYSIS LIETUVIŲ KALBOS GARSYNAS?

Projektą vykdo Vilniaus universitetas, Vytauto Didžiojo universitetas, kalbos technologijų tyrėjai ir socialiniai partneriai. Tai vienas didžiausių ir kompleksiškiausių kalbinių projektų kada nors įgyvendintų Lietuvoje.

Rasa sako:

„Jeigu žodynas yra žodžių rinkinys, tai garsynas – balsų įrašų rinkinys. Mes siekiame sukurti platų, įvairų ir technologijoms tinkamą lietuviškos šnekos pagrindą.“

Skirtingai nei ankstesni Liepos projekto etapai, kuriuose buvo surinkta 100 ir 1000 valandų balsų, Liepa 3 žymi kokybinį šuolį. Tai pirmas kartas, kai Lietuva tiksliai siekia sukurti tokį balsų apimtį, kuri jau atitiktų tarptautinius dirbtinio intelekto mokymo standartus.

KODĖL LIETUVIŲ KALBAI TAI KRITINĖ SVARBA?

Lietuvių kalba yra seniausia iš gyvųjų indoeuropiečių kalbų, turtinga fonetikos niuansų, garsų junginių, kirčiavimo modelių ir regioninių skirtumų. Tačiau technologiniame pasaulyje ji dažnai lieka nuošalyje.

Rasa aiškina:

„Populiariausi balso asistentai, tokie kaip Alexa ar Siri, lietuvių kalbos nepalaiko. Tai reiškia, kad mes negalime jų naudoti kalbėdami savo gimtąja kalba, o tai didina mūsų technologinę atskirtį.“

Tarptautinės technologijos paprastai remiasi milžiniškais duomenų kiekiais – tokių lietuvių kalba iki šiol neturėjo. Kai kuriais atvejais algoritmai daro tiek juokingas, tiek pavojingai netikslias išvadas.

Kaip šmaikščiai pastebi Rasa:

„Norėjau paklausti dėl tulpės svogūnėlio dydžio, o programa atsakė apie tulpės vagonėlį. Tai rodo ribą, iki kurios technologijos dar nesupranta mūsų kalbos subtilybių.“

Garsyno tikslas – tą ribą panaikinti.

KOKIŲ BALSŲ LABIAUSIAI TRŪKSTA?

Kad garsynas būtų išsamus ir reprezentatyvus, surinkti balsai turi atspindėti visą Lietuvos gyventojų įvairovę. Reikalingi:

  • skirtingų lyčių balsai
  • visos amžiaus grupės
  • regioninės tarmės
  • skirtingi kalbėjimo įpročiai
  • įvairūs tembriniai ir artikuliaciniai niuansai

Šiuo metu didžiausias stygius:

  • 10-14 m. vaikinų
  • 35+ vyrų
  • 75+ moterų balsų

Rasa atvirai įvardija:

„Labai trūksta jaunų vyriškų balsų. Jeigu dabar klausot ir norit prisidėti – jūs esate labai laukiami.“

TARMĖS – NE TRŪKUMAS, O TURTAS

Vienas iš įdomiausių Liepa 3 aspektų – tarmių priėmimas ir būtinybė.

„Jeigu močiutė žemaičiuoja – puiku. Taip ir turi būti. Mums nereikia dirbtinai išvalytos kalbos, mums reikia tikros, natūralios lietuvių šnekos iš visų kampelių.“

Tai ženkliai išskiria projektą iš daugelio tarptautinių duomenų rinkinių, kuriuose siekiama standartizuoto tarimo. Liepa 3, priešingai, siekia įvairovės.

KAIP KIEKVIENAS GALI PRISIDĖTI?

Prie projekto gali prisijungti bet kas, nesvarbu, ar gyvena Vilniuje, ar atokiausiame Lietuvos kaime.

Reikia tik:

  • telefono, kompiuterio ar planšetės
  • interneto
  • kelių ramių minučių

Balsą galima įrašyti kurgarsina.lt platformoje. Procesas paprastas: užsiregistruoji, perskaitai sakinius, gauni patvirtinimą. Vienu prisėdimu galima prisidėti 5–30 minučių trukmės įrašais.

Rasa sako:

„Nereikia mikrofonų, studijos ar įgūdžių. Užtenka to, ką turite namuose. Tiesiog ramiai skaitot ekrane rodomus sakinius – viskas.“

Projektas turi ir žaidybinį elementą: dalyviai gali laimėti prizų, kuponų, o svarbiausia – palikti savo balsą Lietuvos istorijai.

PROJEKTO UŽKULISIAI: KAIP DIRBA KOMANDA?

Projektą įgyvendina kelių sluoksnių komanda.

Jų darbas – atrinkti tekstus, kuriuose pasitaiko sudėtingi lietuvių kalbos garsai, sutvarkyti įrašus, sujungti duomenis ir užtikrinti kokybę.

Tekstai specialiai parinkti taip, kad apimtų įvairius kalbos reiškinius – nuo priebalsių samplaikų iki kirčiavimo modelių.

IŠŠŪKIAI IR ATRADIMAI

Projekto eigoje kyla ir netikėtų situacijų:

  • kai kurių demografinių grupių beveik neįmanoma pasiekti
  • kai kurie senjorai nedrįsta naudotis technologijomis
  • jaunimas ne visada randa motyvacijos
  • tarmiškai kalbantys dalyviai kartais mano, kad „neatitinka reikalavimų“

Rasa ragina:

„Padėkite savo artimiesiems prisijungti. Kartais užtenka kelių minučių pagalbos prisiregistruoti, ir žmogus gali reikšmingai prisidėti.“

Tačiau yra ir džiaugsmingų momentų – kai dalyviai grįžta po kelių savaičių ir įrašo daugiau, kai žemaičiai didžiuojasi savo tarme, kai šeimos balsą įrašo visi kartu.

KODĖL TAI YRA ISTORIŠKAI SVARBU?

Liepa 3 taps pamatu:

  • ateities lietuviškai kalbančioms programėlėms
  • balso asistentams ir skaitymo įrankiams
  • medicininiams sprendimams kalbos sutrikimų diagnostikai
  • edukacijai
  • kultūros paveldo saugojimui

Tai projektas, kuris leidžia kiekvienam Lietuvos gyventojui tapti istorijos dalimi.

Rasa įkvepia:

„Tai ne tik pramoga. Tai realus ir rimtas indėlis į tai, kad mūsų kalba gyventų technologijose ir būtų suprantama ateities sistemoms.“

KVIEČIAME VISUS PRISIJUNGTI

Kiekvienas balsas – svarbus.
Kiekviena minutė – prasminga.
Kiekvienas žmogus – laukiamas.

„Labai kviečiame visus – Vilniaus FM klausytojus, jų artimuosius, draugus ir kaimynus – prisijungti prie kurgarsina.lt. Palikite savo balsą Lietuvos ateičiai.“

Skaityk daugiau