Meklēšana

Par korpusu Meklēšana Kļūdu tipu statistika Kļūdu kombināciju statistika
Atrasts/-i 3548 vienumi
Dažādu projektu ietvaros takorpuss ir pieaudzis līdz pat 17 tūkstošiem teikumu 2022. gadā un tādeējādi kļuvis par būtisku latviešu valodas datorlingvistikas resursu. Raksturojot LVTB attīstību raksturojot,, nosacīti var runāt par nosacīti divām fāzēm – eksperimentālu sākotnējo marķēšanas fāzi (angl. pilot project) un masveida korpusa paplašināšanas fāzi no apmēram 2016. gada.
2.1. Vārdu pareizrakstība; 6.4. Vārdu secība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds;
Sākotnēji eksperimentālajā fāzē ar korpusu vienlaicīgi strādāmarķēja viens sintakses speciālists marķētājs un automatizētas priekšmarķēšanas iespējas bija minimālas. Šādi vairāku gadu laikā korpuss sasniedza apmēram 1500 teikumu apjomu, unbet pēc morfoloģiskā tagotāja (Paikens et al., 2013) izveides un integrācijas marķēšanas procesā korpuss sasniedza 5000 teikumu 2014. gadā (Rituma et. al, 2019). Ar 2016. gaduā sākaās LVTB masveida paplašināšana.
6.1. Saistāmība; 6.5. Izteicēja izveide; 7.1. Liekvārdība; 7.3. Neiederīgs vārds;
ERAF projekta “Daudzslāņu valodas resursu kopa teksta semantiskai analīzei un sintēzei latviešu valodā” (2016-2019) (sk. arī 3.32.1. nosadaļu) ietvaroslaikā korpuss sasniedza 10 tūkstošus teikumu.
1. Tehniskais noformējums; 3. Vārddarināšana; 6.5. Izteicēja izveide; 7.3. Neiederīgs vārds;
Aptuvenu ieskatu par iegūtā korpusa apjoma nozīmīgumu var gūt, aplūkojot gan vēsturiski nozīmsvarīgus korpusus, gan dažādu valodu sintaktiski marķēto korpusu lielumizmērus Universālo atkarību (Universal Dependencies, UD) iniciatīvas (sk. 3. nodaļu detalizētam UD aprakstam) 2022. gada pavasara laidienā. AttiecīgŠajā UD laidienā latviešu valodas sintaktiski marķētais korpussUDLV-LVTB ir sasniedzis 282 tūkstošus tekstvienību, un laidienā ir kopā 32 korpusi, kuru ar apjoms iru vismaz 250 tūkstoši sintaktisko vārdu katrā.
1. Tehniskais noformējums; 2.2. Saīsinājuma izveide; 6.6. Dalījums teikumos; 7.1. Liekvārdība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība; 10.3. Sekundāra: interpunkcija;
Ja valodām, kam UD ir vairāki korpusi, skaita kopējo korpusu apjomu, tad no laidienā iekļautajām 130 valodām 30 ir vismaz 250 tūkstoši sintaktisko vārdu lieli korpusi.
3. Vārddarināšana;
Ticamākie iemesli tam ir dziļo neironu tīklu (angl. deep neural networks) valodas modeļu straujā attīstība un arvien plašāks starpvalodu mašīnmācīšanās metožu (angl. transfer learning) lietojums, kas ļauj mērķvalodas modelēšanu pilnveidot, izmantojot citu valodu datus.
7.2. Mazvārdība;
No otras puses, ņemot vērā pasaules pieredzi šobrīd aktīvākajā starptautiskajā datorlingvistikas sintakses kopienā UD, latviešu valodai ir izveidots piemērota lieluma zinātniski vērtīgs piemērota lieluma resurss, par ko liecina arī rezultāti parsētāju būveēšanas sacensībās (sk. 3.3.2. no0. sadaļu).
3. Vārddarināšana; 6.4. Vārdu secība;
Kopš 2018. gada korpusa versijas tiek publicētas Kārļa uUniversitātes LINDAT/CLARIN repozitorijā reizi pusgadā atbilstoši Universālo atkarībuD korpusu versiju grafikam kopā ar 3. nodaļā aprakstīto atvasināto latviešu valodas Universālo atkarībuD korpusu.
2.2. Saīsinājuma izveide; 2.3. Sākumburti;
Pirmajā publicētajā korpusa versija satuā ir 7,7 tūkstošusi teikumu, jaunākajā (2022. gada novembrī) – gandrīz 17 tūkstošusi teikumu.
6.5. Izteicēja izveide; 10.1. Sekundāra: saistāmība;
Korpusā balstīti parsētāju pētījumi Ņemot vērā nozīmīgo Universālo atkarību (UD) korpusa straujo attīstību un plašo lietojumu (sk. 3. nodaļu), šajā sadaļā iekļauto pētījumu aprakstam ir vairāk retrospektīva nozīme, jo UD kā vienojošā reprezentācija ir pavērusi iespējas daudzām valodām izmantot vienotus rīkus un vienotas parsētāju būves metodes, neveicot specifisku pielāgošanos (angl. feature extraction) katrai valodai.
1. Tehniskais noformējums; 7.1. Liekvārdība; 7.2. Mazvārdība;
Datu transformācijas, kas šajos pētījumos tika atzītas par perspektīvām, daudzos aspektos ir līdzīgas UD marķējuma modelim, tādeējādi iezīmējot UD korpusa izveidi kā loģisku darba turpināšanas virzienu.
2.1. Vārdu pareizrakstība;
Tai patšā laikā jāpiezīmē, ka jaunākās pētniecības tendences darba pabeigšanas brīdī liecina par hibrīdo modeļu reaktualizāciju. Nivre et al. (2022) analizē, kā Tenjēra nucleus elementiem līdzīgu konstrukciju izmantošana parsētāju konstrukcijā sniedz nelielu, taču statistiski nozīmīgu uzlabojumu parsēšanas precizitātē, aplūkojot plašu tipoloģiski dažādu valodu kopu (tā ietver arī 3. nodaļā aprakstīto latviešu valodas UD korpusu) un, t.sk. atsaucoties uz publikāciju (Bārzdiņš et al. 2007), kas kalpojusi arī par pamatu 2.21. nosadaļā aprakstītajam modelim, un secina, ka L. Tenjēra nucleus elementiem līdzīgu konstrukciju izmantošana parsētāju uzbūvē sniedz nelielu, taču statistiski nozīmīgu uzlabojumu parsēšanas precizitātē.
1. Tehniskais noformējums; 6.4. Vārdu secība; 6.5. Izteicēja izveide; 6.6. Dalījums teikumos; 7.3. Neiederīgs vārds;
Tā kā LVTB modelim kā hibrīdamodelim atbilstoša parsētāju apmācības sistēma nav izstrādāta (jo šāda veida sintakses modeļi līdz šim ir maz lietoti), tika apskatītas iespējas atbilstoši hibrīdmodelim marķētos datus pārveidot tā, lai tie būtu izmantojami kādai jau izstrādātai parsētāju apmācības sistēmai.
7.2. Mazvārdība; 10. Sekundāra kļūda;
Lai gan parsētāju sistēmas, kas izmanto frāzes struktūras gramatiku, (Collins, 2002), irbija pazīstamas jau senāk, šīs pētījuma fāzes sākšanas laikā (2012. gads) labākos rezultātus sniedza atkarību gramatiku izmantojošā balstītais parsētājs (Bohnet, Nivre, 2012), kas vienlaicīgi veic sintaktisko un morfoloģisko analīzi.
5.2. Lieka pieturzīme; 6.5. Izteicēja izveide; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;
Sākot šo pētījuma fāzi, latviešu valodas manuāli sintaktiski marķētais korpuss vēl bija salīdzinoši mazs (53 225 tekstvienību) un atsevišķi bija pieejams lielāks manuāli morfoloģiski marķētais korpuss (109 311 tekstvienību, iekļaujskaitot sintaktiski marķēto korpusu).
7.3. Neiederīgs vārds;
Kā alternatīva apskatāma iespēja lietot atkarību parsētāju, kas apstrādā tikai projektīvus kokus, kopā ar datu pirmsapstrādi un pēcapstrādi ar projektivizācijas transformācijāmbet tad jāizmanto projektivizācijas transformācijas datu pirmsapstrādei un pēcapstrādei (Nivre, Nilsson, 2005).
6. Sintakse;
Atkarību formālismāmodelī balstītajās parsētāju sistēmās parsēšanai tobrīd tieka izmantotas divas pamatmetodes – pāreju parsētāji (angl. transition based parser) (Nivre, 2009). un grafu parsētāji (angl. graph based parser) (Koo, Collins, 2010), taču grafu parsētāju galvenais konceptuālais trūkums šo pētījumu kontekstā ir nespēja konstruēt neprojektīvus kokus.
5.2. Lieka pieturzīme; 6.5. Izteicēja izveide; 7.2. Mazvārdība; 7.3. Neiederīgs vārds;
Pāreju parsētājiem ir arī praktiskas dabas priekšrocības.
7.1. Liekvārdība;
Otrkārt, plaši lietotajai pāreju parsētāja sistēmai MaltParser (Nivre et al., 2007b) ir izstrādāts parametru optimizēšanas rīks MaltOptimizer (Ballesteros, Nivre, 2012), kas automatizē mašīnmācīšanās parametru pārlasi, tādējādi samazinot nepieciešamo darba apjomu, ko nepieciešams veiktas jāveic, lai veiksmīgai sistēmas apmācībaiapmācītu sistēmu.
6.4. Vārdu secība; 6.5. Izteicēja izveide; 10.1. Sekundāra: saistāmība;
Nemarķētas piesaistes kritērijs (angl. unlabeled attachment score, UAS) norāda, kādai daļai tekstvienību parsētāja norādītais vecāks kokā sakrīt ar doto standartu, piemēram, cilvēka marķēto.
7.2. Mazvārdība;