Dažādu projektu ietvaros 2.1. Vārdu pareizrakstība; 6.4. Vārdu secība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; |
Sākotnēji eksperimentālajā fāzē 6.1. Saistāmība; 6.5. Izteicēja izveide; 7.1. Liekvārdība; 7.3. Neiederīgs vārds; |
ERAF projekta “Daudzslāņu valodas resursu kopa teksta semantiskai analīzei un sintēzei latviešu valodā” (2016 1. Tehniskais noformējums; 3. Vārddarināšana; 6.5. Izteicēja izveide; 7.3. Neiederīgs vārds; |
Aptuvenu ieskatu par iegūtā korpusa apjoma nozīmīgumu var gūt, aplūkojot gan vēsturiski 1. Tehniskais noformējums; 2.2. Saīsinājuma izveide; 6.6. Dalījums teikumos; 7.1. Liekvārdība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība; 10.3. Sekundāra: interpunkcija; |
Ja valodām, kam UD ir vairāki korpusi, skaita kopējo korpusu apjomu, tad no laidienā iekļautajām 130 valodām 30 ir vismaz 250 tūkstoši sintaktisko vārdu lieli korpusi.
3. Vārddarināšana; |
Ticamākie iemesli tam ir dziļo neironu tīklu (angl. deep neural networks) valodas modeļu straujā attīstība un arvien plašāks starpvalodu mašīnmācīšanās metožu (angl. transfer learning) lietojums, kas ļauj mērķvalodas modelēšanu pilnveidot, izmantojot citu valodu datus.
7.2. Mazvārdība; |
No otras puses, ņemot vērā pasaules pieredzi šobrīd aktīvākajā starptautiskajā datorlingvistikas sintakses kopienā UD, latviešu valodai ir izveidots 3. Vārddarināšana; 6.4. Vārdu secība; |
Kopš 2018. gada korpusa versijas tiek publicētas Kārļa 2.2. Saīsinājuma izveide; 2.3. Sākumburti; |
Pirmajā publicētajā korpusa versij 6.5. Izteicēja izveide; 10.1. Sekundāra: saistāmība; |
Korpusā balstīti parsētāju pētījumi Ņemot vērā 1. Tehniskais noformējums; 7.1. Liekvārdība; 7.2. Mazvārdība; |
Datu transformācijas, kas šajos pētījumos tika atzītas par perspektīvām, daudzos aspektos ir līdzīgas UD marķējuma modelim, tād 2.1. Vārdu pareizrakstība; |
Ta 1. Tehniskais noformējums; 6.4. Vārdu secība; 6.5. Izteicēja izveide; 6.6. Dalījums teikumos; 7.3. Neiederīgs vārds; |
Tā kā LVTB modelim kā hibrīd 7.2. Mazvārdība; 10. Sekundāra kļūda; |
Lai gan parsētāju sistēmas, kas izmanto frāzes struktūras gramatiku 5.2. Lieka pieturzīme; 6.5. Izteicēja izveide; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība; |
Sākot šo pētījuma fāzi, latviešu valodas manuāli sintaktiski marķētais korpuss vēl bija salīdzinoši mazs (53 225 tekstvienību) un atsevišķi bija pieejams lielāks manuāli morfoloģiski marķētais korpuss (109 311 tekstvienību, ie 7.3. Neiederīgs vārds; |
Kā alternatīva apskatāma iespēja lietot atkarību parsētāju, kas apstrādā tikai projektīvus kokus, 6. Sintakse; |
Atkarību 5.2. Lieka pieturzīme; 6.5. Izteicēja izveide; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; |
Pāreju parsētājiem ir arī praktiskas 7.1. Liekvārdība; |
Otrkārt, plaši lietotajai pāreju parsētāja sistēmai MaltParser (Nivre et al., 2007b) ir izstrādāts parametru optimizēšanas rīks MaltOptimizer (Ballesteros, Nivre, 2012), kas automatizē mašīnmācīšanās parametru pārlasi, tādējādi samazinot nepieciešamo darba apjomu, k 6.4. Vārdu secība; 6.5. Izteicēja izveide; 10.1. Sekundāra: saistāmība; |
Nemarķētas piesaistes kritērijs (angl. unlabeled attachment score, UAS) norāda, kādai daļai tekstvienību parsētāja norādītais vecāks kokā sakrīt ar doto standartu, piemēram, cilvēka marķēto.
7.2. Mazvārdība; |