Norma

Meklēšana

Par korpusu Meklēšana Kļūdu tipu statistika Kļūdu kombināciju statistika

Ekskluzīvi

Atrasts/-i 9833 vienumi

Teikuma semantiku (sk. 1. att.ēlu) šajā korpusā attēlo, izmantojot FrameNet ~~un PropBank formālism~~(Ruppenhofer, 2010) un PropBank (Bonial et al., 2014) modeļus, unbet teksta semantikas attēlošanai izmanto ~~AMR marķējumu~~abstraktās nozīmes reprezentācijas (angl. abstract meaning representation, AMR) (Banarescu et al., 2013) modeli.
7.2. Mazvārdība; 7.3. Neiederīgs vārds;

Tāpat korpusā marķē arī nosauktās entitātes (angl. named entities) un koreferences.
7.2. Mazvārdība;

Tādeējādi LVTB ir ~~pamats, kurā balstās FullStack-LV projekts~~balstīti visi nākamie marķējuma līmeņi FullStack-LV daudzslāņu valodas resursu kopā.
2.1. Vārdu pareizrakstība; 6.4. Vārdu secība; 8. Tekstveide;

TāProjekta ietvaros ~~LVTB~~ tika būtiski paplašināta un uzlabota LVTB UD transformācija, kā arī ~~korpuss tiek~~pats LVTB tika paplašināts līdz 13,6 tūkstošiem teikumu (Gruzitis et al., 2018).
6.4. Vārdu secība; 6.5. Izteicēja izveide; 7.3. Neiederīgs vārds;

FullStack-LV daudzslāņu teksta korpuss: zemāk attēlotie reprezentācijas slāņi tiek izmantoti par pamatu augstāk attēloto slāņu veidošanai (sk. plašāku kontekstu 1. att.) LVTB un UDLV-LVTB reprezentāciju un korpusu pilnveide tiek turpināta 2020.–2024. gadā vValsts pētījumu programmās “Humanitāro zinātņu digitālie resursi” un “L~~ATE~~etonika latviskas un eiropeiskas sabiedrības attīstībai” atbilstoši jaunākajām UD vadlīnijām un jaunākajiem uz LVTB balstītajiem latviešu valodas gramatikas pētījumiem.
2.2. Saīsinājuma izveide; 2.3. Sākumburti;

Korpusu LVTB un UDLV-LVTB apjom~~u paredzēts~~s tiek palielināt ~~vismaz~~s līdz 2017 tūkstošiem teikumu ~~(pašlaik: 17 tūkstoši), tādejādi~~, kas arī apliecinota resursa nozīmību. PLatviešu valodas parsētāju attīstība ~~latviešu valodai~~ Vēsturiski nozīmīgs punkts latviešu valodas parsētāju attīstībā ir 2016. gads, kad Google publisko SyntaxNet bibliotēku un parsētāja modeļus 40 valodām, kas apmācīti, izmantojot UD v1.3.
6.4. Vārdu secība; 6.5. Izteicēja izveide; 7.2. Mazvārdība; 8. Tekstveide; 10.1. Sekundāra: saistāmība;

Latviešu valodas parsēšanas modulis ir apmācīts, izmantojot 3985 tekstvienības lielu korpusu, un dod 58,92% UAS, 51,47% LAS.
5.3. Pieturzīmes trūkums;

Angļu valodai SyntaxNet dod jaunu rezultātu rekordu (Andor et al., 2016). 2017. gadā jau notiek parsētāju veidošanas sacensības CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies (Zeman et al., 2017), kurās kā datus izmanto UD v2.0 45 valodām, tai skaitā latviešu valodai.
7.2. Mazvārdība;

Labākos rezultātus latviešu valodai uzrāda sacensībaās uzvarējušais parsētājs Stanford – tas sasniedz 79,26% UAS un 74,01% LAS (Dozat et al., 2017).
6.1. Saistāmība;

Labus rezultātus uzrāda arī otrs labākais parsētājs C2L2 – 77,43% UAS un 71,35% UAS (Shi et al., 2017). Šajā pašā gadā latviešu valodas UD koprpuss tiek izmantots kā viens no ~~datu element~~korpusiem pētījumā (Nivre, Fang, 2017), kas argumentē, ka LAS metrika ~~ir orientēta~~lielākoties dotd labākus rezultātus analītisko valodu, piemēram, angļu, parsētājiem, un piedāvā alternatīvu metriku, tādeējādi ~~iezīmējot ceļu prom no~~mazinot vairākas desmitgades ilgušāso angļu valodas dominancesi iegultajos rīku un metriku pieņēmumos nozarē. 2018. gadā šīs sacensības notiek vēlreiz, izmantojot UD v2.2 datus no 82 korpus~~os no~~iem 57 valodām.
1. Tehniskais noformējums; 2.1. Vārdu pareizrakstība; 6.1. Saistāmība; 6.5. Izteicēja izveide; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;

Latviešu valodai tobrīd pieejamais sintaktiski marķētais korpuss ir jau 81 tūkstoti tekstvienību liels. (Zeman et al., 2018).
2.2. Saīsinājuma izveide; 5.2. Lieka pieturzīme;

Labākos rezultātus latviešu valodai uzrāda parsētājs HIT-SCIR, sasniedzot 87,76% UAS un 83,97% LAS (Che et al., 2018).
2.2. Saīsinājuma izveide;

Otro labāko rezultātu ~~uzrāda~~dod parsētājs Stanford – 85,97% UAS un 81,85% LAS (Qi et al., 2018). Šajās sacensībās rezultāti tiek salīdzināti, izmantojot arī jaunu metriku MLAS, kas ir līdzīga LAS, taču ņem vērā arī morfoloģiskā marķējuma pareizībumu.
7.3. Neiederīgs vārds;

Tādeējādi šie augstie rezultāti (salīdzinājumam vēl 2016. gadā Andor et al. par SyntaxNet ziņo, ka angļu valodas precizitāte ir virs 90% LAS pamata atkarībām, bet čehu valodas – mazliet zem šī rādītāja) pilnvērtīgi apstiprina darba 2. hipotēzi, ka vidēja izmēra korpuss (10-–20 tūkstoši teikumu) ir pietiekams augstas kvalitātes (state-of-the-art) parsētāju izveidei.
1. Tehniskais noformējums; 2.1. Vārdu pareizrakstība; 5.2. Lieka pieturzīme; 7.2. Mazvārdība;

Analizējot parsētāja rezultātus atkarībā no apmācības datu apjoma (sk. 1. tabulu), ir novērojams ~~ievērojam~~būtisks precizitātes kāpums, ja salīdzinota parsētājus, kas izmanto vienu vai divas piektdaļas datu.
6.5. Izteicēja izveide; 7.3. Neiederīgs vārds;

Darba ietvaros secināts: tālāk minētais. Izvēle veidot un attīstīt darbā aprakstīto hibrīdo gramatikas modeli ir izrādījusies ļoti veiksmīga, jo šis modelis ļauj reprezentēt latviešu valodas sintaktiskās parādības, saglabājot būtiskas nianses, kuras ne vienmēr ir iespējams precīzi attēlot tīrā atkarību vai frāžu struktūras gramatikas modelī.
6.6. Dalījums teikumos;

Turklāt korpusa marķēšana bagātīgā hibrīdāa formātā ļauj veidot pielāgotas transformācijas uz plaši lietotiem, bet ~~šaur~~ietvertās informācijas ziņā nosacīti vienkāršākiem formā~~lism~~tiem (piem., UD), kā arī veikt pētījumus par piemērotākajiem atkarību attēlojumiem dažādām gramatikas parādībām.
3. Vārddarināšana; 6.1. Saistāmība; 7.3. Neiederīgs vārds;

Novērotā ietekme nav viennozīmīga – dažādi rīki dod priekšroku dažādiem atkarību attēlojumiem. Lai arī ilgu laiku hibrīdu parsētāju algoritmu un mašīnmācīšanās modeļu attīstība nav bijusi aktuāla, salīdzinot ar vienkāršiem un skaitļošanas ziņā efektīviem atkarību modeļiem,Salīdzinot ar vienkāršajiem un skaitļošanas ziņā efektīvajiem atkarību modeļiem, hibrīdu parsētāju algoritmu un mašīnmācīšanās modeļu attīstība ilgu laiku nav bijusi globāla aktualitāte, par to vairāk interesējušies pētnieki, kas pēta morfoloģiski bagātas valodas. Taču tagad jautājums par hibrīdu parsētājiem ir atkal aktualizējies plašāk un jaunākie eksperimenti uzrāda daudzsološus rezultātus (Nivre et al., 2022).
6.4. Vārdu secība; 6.6. Dalījums teikumos;

Hibrīdajam modelim, kas izmantots l“Latviešu valodas sintaktiski marķētajā korpusā”, un UD ~~formālisma~~modelim ir pietiekami daudz kopīgo elementu, lai būtu iespējams izveidot augstas precizitātes transformāciju vismaz vienā virzienā.
7.3. Neiederīgs vārds;

Pateicoties korpusa apjomam, kvalitātei un savietojamībai, ~~UDLV-LVTB~~dažādas pētnieku grupas ir veiksmīgi ir izmantotjušas UDLV-LVTB datus četrās CoNLL un IWPT Shared Task sacensībās 2017., 2018., 2020. un 20221. gadā augstas precizitātes ~~trešo pušu~~ parsētāju izstrādei~~, kā arī jaunāko pašmāju~~ un novērtēšanai. Tāpat korpusa dati ir sekmīgi lietoti parsētāju pētījumos Latvijā.
6.4. Vārdu secība; 6.5. Izteicēja izveide; 6.6. Dalījums teikumos; 7.1. Liekvārdība; 7.2. Mazvārdība; 8. Tekstveide;