Tiek identificētas 3trīs kļūdas oriģināldatu kļūdu dēļ, 8astoņas paplašināto atkarību saites ar nepareizām lomām (visām pievienots nepareizs locījums vai prievārds – paplašināto atkarību specifikācijas grupa 5(a)) un 15 trūkstošas vienlīdzīgo teikuma locekļu vai teikuma priekšmetu saites (attiecīgi paplašināto atkarību specifikācijas grupas 2 un 3).
1. Tehniskais noformējums;
|
Turklāt 3.2.21.1.3. nosadaļā aprakstītā transformatora pārveide pirms UD v2.4 ir tiešā veidāi orientēta uz būtiskāko trūkumu uzlabošanu – tā būtiski uzlabo ar vienlīdzīgiem teikuma locekļiem un teikuma priekšmetiem saistīto paplašināto atkarību saišu piešķiršanas mehānismu, tādeējādi samazinot iespējamo kļūdu apjomu.
1. Tehniskais noformējums;
2.1. Vārdu pareizrakstība;
4. Formveidošana;
7.1. Liekvārdība;
|
Projekta ietvaroslaikā tieka radīts 10 tūkstošus teikumu liels, balansēlīdzsvarots teksta korpuss, kas ir marķēts gan sintaktiski, gan vairākos līmeņos semantiski, izmantojot pasaulē plaši aprobētas sintaktiskās un semantiskās reprezentācijas, kas tika pielāgotas latviešu valodai.
3. Vārddarināšana;
6.5. Izteicēja izveide;
7.3. Neiederīgs vārds;
|
Teikuma semantiku (sk. 1. att.ēlu) šajā korpusā attēlo, izmantojot FrameNet un PropBank formālism(Ruppenhofer, 2010) un PropBank (Bonial et al., 2014) modeļus, unbet teksta semantikas attēlošanai izmanto AMR marķējumuabstraktās nozīmes reprezentācijas (angl. abstract meaning representation, AMR) (Banarescu et al., 2013) modeli.
7.2. Mazvārdība;
7.3. Neiederīgs vārds;
|
Tāpat korpusā marķē arī nosauktās entitātes (angl. named entities) un koreferences.
7.2. Mazvārdība;
|
Tādeējādi LVTB ir pamats, kurā balstās FullStack-LV projektsbalstīti visi nākamie marķējuma līmeņi FullStack-LV daudzslāņu valodas resursu kopā.
2.1. Vārdu pareizrakstība;
6.4. Vārdu secība;
8. Tekstveide;
|
TāProjekta ietvaros LVTB tika būtiski paplašināta un uzlabota LVTB UD transformācija, kā arī korpuss tiekpats LVTB tika paplašināts līdz 13,6 tūkstošiem teikumu (Gruzitis et al., 2018).
6.4. Vārdu secība;
6.5. Izteicēja izveide;
7.3. Neiederīgs vārds;
|
FullStack-LV daudzslāņu teksta korpuss: zemāk attēlotie reprezentācijas slāņi tiek izmantoti par pamatu augstāk attēloto slāņu veidošanai (sk. plašāku kontekstu 1. att.) LVTB un UDLV-LVTB reprezentāciju un korpusu pilnveide tiek turpināta 2020.–2024. gadā vValsts pētījumu programmās “Humanitāro zinātņu digitālie resursi” un “LATEetonika latviskas un eiropeiskas sabiedrības attīstībai” atbilstoši jaunākajām UD vadlīnijām un jaunākajiem uz LVTB balstītajiem latviešu valodas gramatikas pētījumiem.
2.2. Saīsinājuma izveide;
2.3. Sākumburti;
|
Korpusu LVTB un UDLV-LVTB apjomu paredzētss tiek palielināt vismazs līdz 2017 tūkstošiem teikumu (pašlaik: 17 tūkstoši), tādejādi, kas arī apliecinota resursa nozīmību. PLatviešu valodas parsētāju attīstība latviešu valodai Vēsturiski nozīmīgs punkts latviešu valodas parsētāju attīstībā ir 2016. gads, kad Google publisko SyntaxNet bibliotēku un parsētāja modeļus 40 valodām, kas apmācīti, izmantojot UD v1.3.
6.4. Vārdu secība;
6.5. Izteicēja izveide;
7.2. Mazvārdība;
8. Tekstveide;
10.1. Sekundāra: saistāmība;
|
Latviešu valodas parsēšanas modulis ir apmācīts, izmantojot 3985 tekstvienības lielu korpusu, un dod 58,92% UAS, 51,47% LAS.
5.3. Pieturzīmes trūkums;
|
Angļu valodai SyntaxNet dod jaunu rezultātu rekordu (Andor et al., 2016). 2017. gadā jau notiek parsētāju veidošanas sacensības CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies (Zeman et al., 2017), kurās kā datus izmanto UD v2.0 45 valodām, tai skaitā latviešu valodai.
7.2. Mazvārdība;
|
Labākos rezultātus latviešu valodai uzrāda sacensībaās uzvarējušais parsētājs Stanford – tas sasniedz 79,26% UAS un 74,01% LAS (Dozat et al., 2017).
6.1. Saistāmība;
|
Labus rezultātus uzrāda arī otrs labākais parsētājs C2L2 – 77,43% UAS un 71,35% UAS (Shi et al., 2017). Šajā pašā gadā latviešu valodas UD koprpuss tiek izmantots kā viens no datu elementkorpusiem pētījumā (Nivre, Fang, 2017), kas argumentē, ka LAS metrika ir orientētalielākoties dotd labākus rezultātus analītisko valodu, piemēram, angļu, parsētājiem, un piedāvā alternatīvu metriku, tādeējādi iezīmējot ceļu prom nomazinot vairākas desmitgades ilgušāso angļu valodas dominancesi iegultajos rīku un metriku pieņēmumos nozarē. 2018. gadā šīs sacensības notiek vēlreiz, izmantojot UD v2.2 datus no 82 korpusos noiem 57 valodām.
1. Tehniskais noformējums;
2.1. Vārdu pareizrakstība;
6.1. Saistāmība;
6.5. Izteicēja izveide;
7.3. Neiederīgs vārds;
10.1. Sekundāra: saistāmība;
|
Latviešu valodai tobrīd pieejamais sintaktiski marķētais korpuss ir jau 81 tūkstoti tekstvienību liels. (Zeman et al., 2018).
1. Tehniskais noformējums;
5.3. Pieturzīmes trūkums;
|
Labākos rezultātus latviešu valodai uzrāda parsētājs HIT-SCIR, sasniedzot 87,76% UAS un 83,97% LAS (Che et al., 2018).
1. Tehniskais noformējums;
|
Otro labāko rezultātu uzrādadod parsētājs Stanford – 85,97% UAS un 81,85% LAS (Qi et al., 2018). Šajās sacensībās rezultāti tiek salīdzināti, izmantojot arī jaunu metriku MLAS, kas ir līdzīga LAS, taču ņem vērā arī morfoloģiskā marķējuma pareizībumu.
7.3. Neiederīgs vārds;
|
Tādeējādi šie augstie rezultāti (salīdzinājumam vēl 2016. gadā Andor et al. par SyntaxNet ziņo, ka angļu valodas precizitāte ir virs 90% LAS pamata atkarībām, bet čehu valodas – mazliet zem šī rādītāja) pilnvērtīgi apstiprina darba 2. hipotēzi, ka vidēja izmēra korpuss (10-–20 tūkstoši teikumu) ir pietiekams augstas kvalitātes (state-of-the-art) parsētāju izveidei.
1. Tehniskais noformējums;
2.1. Vārdu pareizrakstība;
5.2. Lieka pieturzīme;
7.2. Mazvārdība;
|
Analizējot parsētāja rezultātus atkarībā no apmācības datu apjoma (sk. 1. tabulu), ir novērojams ievērojambūtisks precizitātes kāpums, ja salīdzinota parsētājus, kas izmanto vienu vai divas piektdaļas datu.
6.5. Izteicēja izveide;
7.3. Neiederīgs vārds;
|
Darba ietvaros secināts: tālāk minētais. Izvēle veidot un attīstīt darbā aprakstīto hibrīdo gramatikas modeli ir izrādījusies ļoti veiksmīga, jo šis modelis ļauj reprezentēt latviešu valodas sintaktiskās parādības, saglabājot būtiskas nianses, kuras ne vienmēr ir iespējams precīzi attēlot tīrā atkarību vai frāžu struktūras gramatikas modelī.
6.6. Dalījums teikumos;
|
Turklāt korpusa marķēšana bagātīgā hibrīdāa formātā ļauj veidot pielāgotas transformācijas uz plaši lietotiem, bet šaurietvertās informācijas ziņā nosacīti vienkāršākiem formālismtiem (piem., UD), kā arī veikt pētījumus par piemērotākajiem atkarību attēlojumiem dažādām gramatikas parādībām.
3. Vārddarināšana;
6.1. Saistāmība;
7.3. Neiederīgs vārds;
|