Meklēšana

Par korpusu Meklēšana Kļūdu tipu statistika Kļūdu kombināciju statistika
Atrasts/-i 3548 vienumi
Tai patšā laikā jāņem vērā, ka rezultāti tika gūti no neliela datu korpusa un apmācības gaitā bija vērojamas lielas rezultātu svārstības – lai gan tie attiecīgajā pētījuma posmā sniedza būtisku ieskatu tālākajai pētījuma attīstībai, nav droši no tiem izdarīt secinājumus par lieliem korpusiem un citām parsēšanas metodēm.
7.3. Neiederīgs vārds;
Par frāzes sastāvdaļu tiek uzskatīta: tekstvienība, kas hibrīdajā marķējumā ir marķētsa kā frāzes sastāvdaļa, tekstvienība, kas tad, ja frāzes sastāvdaļa pati ir frāze, pēc transformācijas uz atkarību reprezentāciju kļūst par apakšfrāzi reprezentējošā apakškoka sakni.
6.1. Saistāmība;
Apkopojot sastāvdaļu atpazīšanas precizitāti dažādajiem frāzes veida konstrukciju atkarību attēlojumiem, tika novērota tendence par labus xpredDEFAULT un pmcDEFAULT parsētājiemu pārākums, kas apstiprināja arī vispārējos rezultātos novēroto tendenci.
7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;
Analizējot sakārtojuma konstrukciju sastāvdaļu atpazīšanas rezultātus, bija novērojama viennozīmīga tendence par sliktu coordDEFAULT parsētājiems, ka coordDEFAULT parsētāju rezultāti viennozīmīgi ir sliktāki. Šī tendence atspoguļojās arī vispārējos rezultātos.
6.4. Vārdu secība;
Gan sastāvdaļu atpazīšanas, gan vispārējās precizitātes testos redzama tendence par labus Maskavas saimes atkarību struktūrāmu pārākums – labākos rezultātus sniedza coordROW un coordROW_NO_CONJ, taču rezultāti neapliecināja, ka kāds no šiem attēlojumiem būtu viennozīmīgi labāks nekā otrs. Analizējot frāžu atkarīgo atpazīšanu, grūtības sagādāja pieturzīmju konstrukciju un sakārtojuma konstrukciju atkarīgo elementu mazais skaits korpusā – attiecīgi 2,5 un 1% tekstvienību, tāpēc šo atkarīgo atpazīšanas precizitāte bija zema.
5.3. Pieturzīmes trūkums; 6.3. Noliegums; 7.1. Liekvārdība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds;
Par vienlīdzīgo teikuma locekļu konstrukcijām nācās secināt, ka korpusa apjoms tobrīd bija pārāk mazs, lai pilnvērtīgi iemācītos atšķirt sakārtojuma konstrukciju kopējos atkarīgos un viena koordinētā elementa atkarīgos, jo LA visiem sakārtojuma konstrukciju atkarīgo atpazīšanas veidiem bija ļoti zems (15-30%).
1. Tehniskais noformējums;
Par pieturzīmju konstrukciju atkarīgajiem tika secināts, ka, tā kā pmcDEFAULT gadījumā atkarības neatkarīgais elementsjāņem vērā, ka pmcDEFAULT gadījumā atbilstošā atkarību apakškoka sakne ir saiklis vai pieturzīme, bet pmcBASELEM apskatāmais koka struktūras fragments ir līdzīgs gadījumiem, kad pieturzīmju konstrukcijas pamatelements tiek lietots ar tādu pašu atkarīgo, bet ārpus pieturzīmju konstrukcijas, tad. Tāpēc tika secināts, ka pietiekami liela korpusa gadījumā lietot pmcDEFAULT tipa attēlojumu teorētiski būtu informatīvāk, bet mazam korpusam (kā eksperimenta laikā pieejamajam) ir labāk lietot pmcBASELEM, ko parsētājs vieglāk iemācās.
6.6. Dalījums teikumos; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 8. Tekstveide;
Tas kopā ar sastāvdaļu atpazīšanas un vispārīgajiem rezultātiem stingkaidri liecina par labu xpredDEFAULT tipa attēlojumu izmantošanai.
7.3. Neiederīgs vārds;
Parsētāju varianti, kuriem par labu liecina atsevišķo fenomenvalodas parādību analīze, ir starp labākajiem arī vispārīgajos testos.
7.3. Neiederīgs vārds;
UD iniciatīva par savu mērķi izvirza marķējumu ar augstu lingvistisko precizitāti, marķējuma saskaņotību dažādām valodām (angl. cross-lingual consistence), piemērotību ātrai manuālai un automātiskai marķēšanai, pieejamību (saprotamību) potenciālajiem datu izmantotājiem ārpus lingvistu loka, kā arī noderīgumu tālākai izmantošanai valodas sapratnes (angl. natural language understanding) rīkos (Nivre et. al., 2016). Šī mērķa sasniegšanai UD iniciatīva izstrādā vadlīnijas atkarību formālismās balstītam marķējuma modelim, definē izmantojamās lomas un morfoloģiskās kategorijas, kā arī iespējas veidot valodspecifiskus (angl. language-specific) modeļa paplašinājumus un vadlīnijas.
7.1. Liekvārdība; 7.2. Mazvārdība; 10.1. Sekundāra: saistāmība;
Reizi pusgadā tiek publicējota jaunua datu versiju,a, tāpēc iniciatīvas ietvarosā veidotaisie datu klāsts tieki strauji attīstītās: UD versijā 1.2 2015. gada novembrī ir iekļauti 37 korpusi, pārstāvot 33 valodasām, versijā 2.2 2018. gada jūlijā – 112 korpusi 71 valodai, versijā 2.101. 2022. gada maijānovembrī – 22843 korpusi 1308 valodām.
2. Pareizrakstība; 6.6. Dalījums teikumos; 7.1. Liekvārdība; 8. Tekstveide; 9. Citas kļūdas; 10.1. Sekundāra: saistāmība;
Sintaktiski marķēts korpuss, kas izmantojams parsētāju apmācībai, ir būtisks šī darba mērķis, tāpēc vērojamaun šis mērķuis saskaņošanās ar UD uzsvaru uz piemērotībulāgojas ar UD nolūku labi derēt ātrai automātiskai marķēšanai.
8. Tekstveide;
Tāpēc tieka nolemts izpētīt iespējas veidot pielāgotasu transformācijasu, kas ļautu Latviešu valodas sintaktiski marķēta korpusa” (Latvian Treebank, LVTB) datus publicēt UD iniciatīvas ietvaros.
1. Tehniskais noformējums; 4. Formveidošana; 6.5. Izteicēja izveide; 7.2. Mazvārdība;
Pārejot no versijas 1.4 uz 2.0, UD vadlīnijās tiek veiktas būtiskas izmaiņas un precizējumi, un transformācija tiek atbilstoši atjaunināta.
5.3. Pieturzīmes trūkums;
Par tādām kļūdām kā izlaisti komati, kam UD nespecificē norādīšanas veidu, tiek ievietoti kodificēti komentāri atbilstošās tekstvienības laukā MISC, kas paredzēts nespecificētas informācijas nodošanai, paredzot, ka. Taču nākotnē šis atainojums var mainīties, ja UD specificē vienotu veidu šādas informācijas norādīšanai.
6.6. Dalījums teikumos;
Tā rezultātā gan LVTB, gan UDLV-LVTB kā atstarpes saturošas tekstvienības ar atstarpēm lieto tikai atsevišķus saīsinājumus (P. S., N.
6.4. Vārdu secība; 7.3. Neiederīgs vārds;
Kolonnas FEATS aizpildījumu pamatā nosaka morfoloģiskajā tagā iekļautās pazīmes, taču atsevišķos gadījumos pazīmes piešķir, arī vadoties pēc lemmu uzskaitījuma, piemēram, vairumam īpašības vārdu pazīme Poss (possesive, piederība) netiek aizpildīta, taču to norāda vārdiem manējais, tavējais.
2.1. Vārdu pareizrakstība; 5.3. Pieturzīmes trūkums;
UD arī piedāvā vairākas pazīmes un pazīmju vērtības, kas latviešu valodai nav saistošas, jo neparādās kā morfoloģiskas kategorijas, piemēram, Animacy vai Case=Erg, taču dažu pazīmju labākai secināmībai. Lai labāk varētu izsecināt dažas pazīmes, tika papildināts arī LVTB izmantotais marķējums – divdabju marķējums tika papildināts ar pakāpes un nolieguma norādēm, tādeējādi dalība UD iniciatīvā ietekmē arī hibrīdmodeļa attīstību. Šis morfoloģiskās marķēšanas solis kopā ar iepriekšējā nosadaļā aprakstīto dalīšanu tekstvienībās ir veicams arī tad, ja tekstam pieejams tikai morfoloģiskais, bet ne sintaktiskais marķējums.
6.4. Vārdu secība; 6.6. Dalījums teikumos; 7.2. Mazvārdība; 7.3. Neiederīgs vārds;
Tādeējādi šie rīki ir lietojami, arī, lai padarītu morfoloģiskā tagotāja (Paikens et al., 2013) rezultāti būtus pieejamusi starptautiskiem projektiem.
2.1. Vārdu pareizrakstība; 5. Interpunkcija; 6.5. Izteicēja izveide; 10.1. Sekundāra: saistāmība;
Tāpēc transformāciju var veidot kā rekursīvu algoritmu, kas katru frāzes veida konstrukciju vai atkarību pārveido, izmantojot tās tuvākajā apkaimē pieejamo informāciju.
7.2. Mazvārdība;