Norma

Meklēšana

Par korpusu Meklēšana Kļūdu tipu statistika Kļūdu kombināciju statistika

Ekskluzīvi

Atrasts/-i 9833 vienumi

ERAF projekta “Daudzslāņu valodas resursu kopa teksta semantiskai analīzei un sintēzei latviešu valodā” (2016-–2019) (sk. arī 3.32.1. nosadaļu) ~~ietvaros~~laikā korpuss sasniedza 10 tūkstošus teikumu.
1. Tehniskais noformējums; 3. Vārddarināšana; 6.5. Izteicēja izveide; 7.3. Neiederīgs vārds;

Aptuvenu ieskatu par iegūtā korpusa apjoma nozīmīgumu var gūt, aplūkojot gan vēsturiski ~~nozīm~~svarīgus korpusus, gan dažādu valodu sintaktiski marķēto korpusu ~~lielum~~izmērus Universālo atkarību (Universal Dependencies, UD) iniciatīvas (sk. 3. nodaļu detalizētam UD aprakstam) 2022. gada pavasara laidienā. ~~Attiecīg~~Šajā UD laidienā ~~latviešu valodas sintaktiski marķētais korpuss~~UDLV-LVTB ir sasniedzis 282 tūkstošus tekstvienību, un laidienā ir ~~kopā~~ 32 korpusi~~, kuru~~ ar apjom~~s ir~~u vismaz 250 tūkstoši sintaktisko vārdu katrā.
1. Tehniskais noformējums; 2.2. Saīsinājuma izveide; 6.6. Dalījums teikumos; 7.1. Liekvārdība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība; 10.3. Sekundāra: interpunkcija;

Ja valodām, kam UD ir vairāki korpusi, skaita kopējo korpusu apjomu, tad no laidienā iekļautajām 130 valodām 30 ir vismaz 250 tūkstoši sintaktisko vārdu lieli korpusi.
3. Vārddarināšana;

Ticamākie iemesli tam ir dziļo neironu tīklu (angl. deep neural networks) valodas modeļu straujā attīstība un arvien plašāks starpvalodu mašīnmācīšanās metožu (angl. transfer learning) lietojums, kas ļauj mērķvalodas modelēšanu pilnveidot, izmantojot citu valodu datus.
7.2. Mazvārdība;

No otras puses, ņemot vērā pasaules pieredzi šobrīd aktīvākajā starptautiskajā datorlingvistikas sintakses kopienā UD, latviešu valodai ir izveidots ~~piemērota lieluma~~ zinātniski vērtīgs piemērota lieluma resurss, par ko liecina arī rezultāti parsētāju būveēšanas sacensībās (sk. ~~3.3.2. no~~0. sadaļu).
3. Vārddarināšana; 6.4. Vārdu secība;

Kopš 2018. gada korpusa versijas tiek publicētas Kārļa uUniversitātes LINDAT/CLARIN repozitorijā reizi pusgadā atbilstoši U~~niversālo atkarību~~D korpusu versiju grafikam kopā ar 3. nodaļā aprakstīto atvasināto latviešu valodas U~~niversālo atkarību~~D korpusu.
2.2. Saīsinājuma izveide; 2.3. Sākumburti;

Pirmajā publicētajā korpusa versij~~a satu~~ā ir 7,7 tūkstošusi teikumu, jaunākajā (2022. gada novembrī) – gandrīz 17 tūkstošusi teikumu.
6.5. Izteicēja izveide; 10.1. Sekundāra: saistāmība;

Korpusā balstīti parsētāju pētījumi Ņemot vērā ~~nozīmīgo Universālo atkarību (~~UD) korpusa straujo attīstību un plašo lietojumu (sk. 3. nodaļu), šajā sadaļā iekļauto pētījumu aprakstam ir vairāk retrospektīva nozīme, jo UD kā vienojošā reprezentācija ir pavērusi iespējas daudzām valodām izmantot vienotus rīkus un vienotas parsētāju būves metodes, neveicot specifisku pielāgošanos (angl. feature extraction) katrai valodai.
1. Tehniskais noformējums; 7.1. Liekvārdība; 7.2. Mazvārdība;

Datu transformācijas, kas šajos pētījumos tika atzītas par perspektīvām, daudzos aspektos ir līdzīgas UD marķējuma modelim, tādeējādi iezīmējot UD korpusa izveidi kā loģisku darba turpināšanas virzienu.
2.1. Vārdu pareizrakstība;

Taijā patšā laikā jāpiezīmē, ka jaunākās pētniecības tendences darba pabeigšanas brīdī liecina par hibrīdo modeļu reaktualizāciju –. Nivre et al. (2022) ~~analizē, kā Tenjēra nucleus elementiem līdzīgu konstrukciju izmantošana parsētāju konstrukcijā sniedz nelielu, taču statistiski nozīmīgu uzlabojumu parsēšanas precizitātē,~~ aplūko~~jot~~ plašu tipoloģiski dažādu valodu kopu (tā ietver arī 3. nodaļā aprakstīto latviešu valodas UD korpusu) un, t.sk. atsaucoties uz publikāciju (Bārzdiņš et al. 2007), kas kalpojusi arī par pamatu 2.21. nosadaļā aprakstītajam modelim, un secina, ka L. Tenjēra nucleus elementiem līdzīgu konstrukciju izmantošana parsētāju uzbūvē sniedz nelielu, taču statistiski nozīmīgu uzlabojumu parsēšanas precizitātē.
1. Tehniskais noformējums; 6.4. Vārdu secība; 6.5. Izteicēja izveide; 6.6. Dalījums teikumos; 7.3. Neiederīgs vārds;

Tā kā LVTB modelim kā hibrīdamodelim atbilstoša parsētāju apmācības sistēma nav izstrādāta (jo šāda veida sintakses modeļi līdz šim ir maz lietoti), tika apskatītas iespējas atbilstoši hibrīdmodelim marķētos datus pārveidot tā, lai tie būtu izmantojami kādai jau izstrādātai parsētāju apmācības sistēmai.
7.2. Mazvārdība;

Lai gan parsētāju sistēmas, kas izmanto frāzes struktūras gramatiku, (Collins, 2002), irbija pazīstamas jau senāk, šīs pētījuma fāzes sākšanas laikā (2012. gads) labākos rezultātus sniedza atkarību gramatik~~u izmantojoš~~ā balstītais parsētājs (Bohnet, Nivre, 2012), kas vienlaicīgi veic sintaktisko un morfoloģisko analīzi.
5.2. Lieka pieturzīme; 6.5. Izteicēja izveide; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;

Sākot šo pētījuma fāzi, latviešu valodas manuāli sintaktiski marķētais korpuss vēl bija salīdzinoši mazs (53 225 tekstvienību) un atsevišķi bija pieejams lielāks manuāli morfoloģiski marķētais korpuss (109 311 tekstvienību, ie~~kļauj~~skaitot sintaktiski marķēto korpusu).
7.3. Neiederīgs vārds;

Kā alternatīva apskatāma iespēja lietot atkarību parsētāju, kas apstrādā tikai projektīvus kokus, ~~kopā ar datu pirmsapstrādi un pēcapstrādi ar projektivizācijas transformācijām~~bet tad jāizmanto projektivizācijas transformācijas datu pirmsapstrādei un pēcapstrādei (Nivre, Nilsson, 2005).
8. Tekstveide;

Atkarību ~~formālismā~~modelī balstītajās parsētāju sistēmās parsēšanai tobrīd tieka izmantotas divas pamatmetodes – pāreju parsētāji (angl. transition based parser) (Nivre, 2009). un grafu parsētāji (angl. graph based parser) (Koo, Collins, 2010), taču grafu parsētāju galvenais konceptuālais trūkums šo pētījumu kontekstā ir nespēja konstruēt neprojektīvus kokus.
5.2. Lieka pieturzīme; 6.5. Izteicēja izveide; 7.2. Mazvārdība; 7.3. Neiederīgs vārds;

Pāreju parsētājiem ir arī praktiskas ~~dabas~~ priekšrocības.
7.1. Liekvārdība;

Otrkārt, plaši lietotajai pāreju parsētāja sistēmai MaltParser (Nivre et al., 2007b) ir izstrādāts parametru optimizēšanas rīks MaltOptimizer (Ballesteros, Nivre, 2012), kas automatizē mašīnmācīšanās parametru pārlasi, tādējādi samazinot nepieciešamo darba apjomu, k~~o nepieciešams veikt~~as jāveic, lai veiksmīgai ~~sistēmas apmācībai~~apmācītu sistēmu.
6.4. Vārdu secība; 6.5. Izteicēja izveide; 10.1. Sekundāra: saistāmība;

Nemarķētas piesaistes kritērijs (angl. unlabeled attachment score, UAS) norāda, kādai daļai tekstvienību parsētāja norādītais vecāks kokā sakrīt ar doto standartu, piemēram, cilvēka marķēto.
7.2. Mazvārdība;

Lomu precizitāte (angl. label accuracy, LA) norāda, kādai daļai tekstvienību norādītā loma (kā atkarības atkarīgajam elementam) sakrīt ar doto standartu, piemēram, cilvēka marķēto.
7.2. Mazvārdība;

Ja nav norādīts citādi, ~~darba ietvaros~~ metriku vērtības šajā darbā tiek dotas procentos.
6.4. Vārdu secība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds;