Hizkuntza-teknologiaren esparruan, Euskal Herriko Unibertsitatea (EHU) mugarri garrantzitsua izan da Latxaren garapenarekin, euskarari eskainitako hizkuntza-eredu aurreratua. Lorpen horrek hizkuntza zaintzeko eta sustatzeko konpromisoa erakusten du, eta euskararen erronka digital espezifikoak gainditzeko funtsezko irtenbide gisa ere aurkezten da.
Latxa LLaMA de Meta eredu berritzaileetan oinarritzen da, 7 eta 70 mila milioi parametro bitarteko gama hartuz. Parametro-anplitude horrek agerian uzten du ereduak giza hizkuntza modu eraginkorrean ulertzeko eta sortzeko duen konplexutasuna eta potentzialtasuna, eta, horrela, tresna digitalak euskaraz garatzeko aukera sorta bat irekitzen da, hala nola chatbot-ak, benetako elkarrizketak simulatzeko gai diren aplikazioak baitira.
Euskarak eremu digitalean aurre egin behar dion erronka handienetako bat baliabide zabalak dituzten eta gutxien zabaltzen diren hizkuntzen artean dagoen eten teknologikoa da. Desberdintasun horrek nabarmen mugatzen du hizkuntza naturala prozesatzeko teknologia aurreratuen garapena eta inplementazioa, euskara bezalako hizkuntzentzat. Latxa proiektua, hain zuzen ere, arazo horri aurre egiteko sortu zen, teknologia modernoan euskararen presentzia parekatu eta sustatu nahian.
Latxa entrenatzeko EusCrawl izeneko corpusak 1,72 milioi dokumentu eta euskarazko 33 webgunetatik ateratako 288 milioi hitz biltzen ditu, kalitate eta garrantzi kultural handiko datu-basea ziurtatuz. Datu-hautaketaren ikuspegi zehatz horrek bermatzen du Latxa euskarazko testua ulertzeko eta sortzeko gai izateaz gain, hizkuntzaren egungo eta benetako erabilera ere islatuko duela.
Latxaren eragina maximizatzeko estrategiak, dagoeneko huggingface.co-n dagoenak, eredu irekiak argitaratzea barne hartzen du, garatzaileek eta teknikari espezializatuek aplikazio espezifikoak sortu edo egokitu ahal izan ditzaten. Elkarlanerako eta berrikuntzarako irekitasun horrek euskararen aberaste teknologikorako prozesuan komunitate aktibo eta konprometitu baten garrantzia azpimarratzen du.
Eneko Agirre HiTZko zuzendariak argi hitz egin du horri buruz, eta aitortu du, nahiz eta bidea desafiozkoa izan, euskararen panorama teknologikoa eraldatzeko potentziala izugarria dela.
Latxaren ereduak oinarrizko bertsioak dira eta oraindik ez daude optimizatuta azken erabiltzaileei zuzendutako jarraibide edo lehentasun espezifikoetarako, baina giltzarri dira euskarazko tresna digital aurreratuak garatzeko. Eredu horiek baliabide ireki gisa argitaratzeko erabakiak lankidetzarekiko eta aurrerapen teknologikoarekiko konpromisoa azpimarratzen du, aditu teknikoei hizkuntzaren beharrizanei eta berezitasunei erantzungo dieten irtenbide espezifikoak pertsonalizatzea eta garatzea ahalbidetuz.
Latxarekin, EHUk euskarak testuinguru digitalean duen balioa nabarmendu du, eta aurrekari bat ezarri du baliabide gutxien dituzten hizkuntzek adimen artifizialaren aroan aurrera egiten jarrai dezaten. Teknologiak gure mundu interkonektatuan hizkuntza- eta kultura-aniztasuna sustatzeko duen ahalmenaren lekuko da.