Tiek identificētas 1. Tehniskais noformējums; |
Turklāt 3. 1. Tehniskais noformējums; 2.1. Vārdu pareizrakstība; 3. Vārddarināšana; 7.1. Liekvārdība; 10.1. Sekundāra: saistāmība; |
Projekta 3. Vārddarināšana; 6.5. Izteicēja izveide; 7.3. Neiederīgs vārds; |
Teikuma semantiku (sk. 1. att 7.2. Mazvārdība; 7.3. Neiederīgs vārds; |
Tāpat korpusā marķē arī nosauktās entitātes (angl. named entities) un koreferences.
7.2. Mazvārdība; |
Tād 2.1. Vārdu pareizrakstība; 6.4. Vārdu secība; 8. Tekstveide; |
6.4. Vārdu secība; 6.5. Izteicēja izveide; 7.3. Neiederīgs vārds; |
FullStack-LV daudzslāņu teksta korpuss: zemāk attēlotie reprezentācijas slāņi tiek izmantoti par pamatu augstāk attēloto slāņu veidošanai (sk. plašāku kontekstu 1. att.) LVTB un UDLV-LVTB reprezentāciju un korpusu pilnveide tiek turpināta 2020.–2024. gadā 2.2. Saīsinājuma izveide; 2.3. Sākumburti; |
Korpusu LVTB un UDLV-LVTB apjom 6.4. Vārdu secība; 6.5. Izteicēja izveide; 7.2. Mazvārdība; 8. Tekstveide; 10.1. Sekundāra: saistāmība; |
Latviešu valodas parsēšanas modulis ir apmācīts, izmantojot 3985 tekstvienības lielu korpusu, un dod 58,92% UAS, 51,47% LAS.
5.3. Pieturzīmes trūkums; |
Angļu valodai SyntaxNet dod jaunu rezultātu rekordu (Andor et al., 2016). 2017. gadā jau notiek parsētāju veidošanas sacensības CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies (Zeman et al., 2017), kurās kā datus izmanto UD v2.0 45 valodām, tai skaitā latviešu valodai.
7.2. Mazvārdība; |
Labākos rezultātus latviešu valodai uzrāda sacensīb 6.1. Saistāmība; |
Labus rezultātus uzrāda arī otrs labākais parsētājs C2L2 – 77,43% UAS un 71,35% UAS (Shi et al., 2017). Šajā pašā gadā latviešu valodas UD ko 1. Tehniskais noformējums; 2.1. Vārdu pareizrakstība; 6.1. Saistāmība; 6.5. Izteicēja izveide; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība; |
Latviešu valodai tobrīd pieejamais sintaktiski marķētais korpuss ir jau 81 tūkstoti tekstvienību liels 2.2. Saīsinājuma izveide; 5.2. Lieka pieturzīme; |
Labākos rezultātus latviešu valodai uzrāda parsētājs HIT-SCIR, sasniedzot 87,76% UAS un 83,97% LAS (Che et al., 2018).
2.2. Saīsinājuma izveide; |
Otro labāko rezultātu 7.3. Neiederīgs vārds; |
Tād 1. Tehniskais noformējums; 2.1. Vārdu pareizrakstība; 5.2. Lieka pieturzīme; 7.2. Mazvārdība; |
Analizējot parsētāja rezultātus atkarībā no apmācības datu apjoma (sk. 1. tabulu), ir novērojams 6.5. Izteicēja izveide; 7.3. Neiederīgs vārds; |
Darba ietvaros secināts 6.6. Dalījums teikumos; |
Turklāt korpusa marķēšana bagātīgā hibrīd 3. Vārddarināšana; 6.1. Saistāmība; 7.3. Neiederīgs vārds; |