Meklēšana

Par korpusu Meklēšana Kļūdu tipu statistika Kļūdu kombināciju statistika
Atrasts/-i 3548 vienumi
Pētījuma metodes Promocijas darbā izmantotāas šādas pētījumu metodes: literatūras apskats – lai apzinātu perspektīvās metodes un citu valodu pieredzi, analizētas dažādas zinātniskas publikācijas, un atsevišķos gadījumos arī atvērtā pirmkoda rīku programmkods; iteratīva izstrāde un pielāgošana – darbā radītie rīki un algoritmi tika realizēti, novērtēti un iteratīvi precizēti, vadoties pēc to praktiskā izmantojuma; kvantitatīva novērtēšana – darbā izveidotie transformācijas algoritmi tika izvērtēti ar jomā pieņemtajām metrikām; kontrolēti eksperimenti – algoritmu varianti tika salīdzināti kontrolētas vides eksperimentos ar kvantitatīvās novērtēšanas palīdzību, salīdzinanalizējot to darbības atšķirības un precizitāti; kļūdu analīze – kur iespējams, algoritmu rezultātos vismaz izlases veidā tika veikta arī manuāla kļūdu analīze, lai gūtu labāku priekšstatu par iespējamajām problēmām un to veidiem.
5.2. Lieka pieturzīme; 7.1. Liekvārdība; 7.3. Neiederīgs vārds; 9.1. Neuzmanības kļūda;
Radīta rīku kopa un nepieciešamā infrastruktūra l“Latviešu valodas sintaktiski marķētā korpusa veidošanai” (Latvian Treebank, LVTB) veidošanai vajadzīgā infrastruktūra, t.sk. definēti plašam valodas pārklājumam nepieciešamie paplašinājumi LU MII eksperimentālajamā hibrīdajamā gramatikas modelimļa paplašinājumi.
1. Tehniskais noformējums; 6.1. Saistāmība; 6.4. Vārdu secība; 7.2. Mazvārdība; 10.2. Sekundāra: vārdu secība;
Būtiskākais netiešais rezultāts: rezultātālatviešu valodai radīts jauns starpdisciplināras pētniecības virziens un pamats fundamentālu valodas tehnoloģiju izstrādei: (1) korpuss – LVTB un UDLV-LVTB (latviešu valodas daļa UD laidienoversijās v1.3v2.101); (2) parsētāji latviešu valodai.
1. Tehniskais noformējums; 7.3. Neiederīgs vārds;
Praktiskā nozīme un rezultātu aprobācija Izmantojot darba ietvarospromocijas darba laikā izveidoto sintakses modeli un marķēšanas infrastruktūru, radīts 17 tūkstošus teikumu liels sintaktiski marķēts korpuss, kas publiski pieejams gan hibrīdajā, gan Universālo atkarībuD reprezentācijā.
2.2. Saīsinājuma izveide; 3. Vārddarināšana; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 4.4. Cita vārdšķira;
Sintaktiski marķētais korpuss ir kalpojis par pamatu LU MII un ziņu aģentūras LETA sadarbībai ERAF praktiskas ievirzes projektā “Daudzslāņu valodas resursu kopa teksta semantiskai analīzei un sintēzei latviešu valodā” (2017-2019; sk. 3.32.1. nosadaļu), kurā ir izveidots daudzlīmeņu sintaktiski un semantiski marķēts korpuss un uz tā bāzes - rīkkopa NLP-PIPE (Znotiņš, Cīrule, 2018) pilnai latviešu valodas tekstu analīzei (atbilstoši 1.b attēlam).
1. Tehniskais noformējums; 7.3. Neiederīgs vārds; 8. Tekstveide;
Savukārt rīkkopu NLP-PIPE savu produktu un pakalpojumu attīstīšanai izmanto LETA, Latvijas Nacionālā bibliotēka, u.c. Sintaktiski marķētais korpuss kalpo arī par pamatu tālākiem lingvistiskiem un valodas tehnoloģiju pētījumiem Valsts pētījumu programmās “Humanitāro zinātņu digitālie resursi” (2020-2022) un “Letonika latviskas un eiropeiskas sabiedrības attīstībai” (2022-2024).
1. Tehniskais noformējums; 5.2. Lieka pieturzīme;
Tāpat UD korpuss ir kalpojis arī par pamatutiek izmantots pētījumos, kauros izstrādā fleksīvām valodām piemērotākas metrikas un rīkus (pretstatā vēsturiski dominējošajai angļu valodai, kas ir analītiska valoda), piemēram, CLAS metriku (Nivre, Fang, 2017).
6.5. Izteicēja izveide; 7.3. Neiederīgs vārds;
Pētījuma rezultātu publikācijas Darbs veidots kā publikāciju kopa, apvienojot 11 autores publikācijas, kaurās risinaāti ar sintaktiski marķēta korpusa izveidi un parsētāju izstrādi saistītosie jautājumusi.
6.5. Izteicēja izveide; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;
Pētījums izstrādāts Latvijas Universitātes (LU) Matemātikas un informātikas institūta (MII) Mākslīgā intelekta laboratorijā laika posmā no 2010. līdz 20223. gadam vairāku projektu un pētījuma programmu ietvaros.
2.2. Saīsinājuma izveide; 8. Tekstveide;
Darbā aprakstītie rezultāti ir kolektīvas darba rezultāts. Visos šajā darbā aprakstītajos rezultātoss, kurā promocijas darba autore ir vadījusi pētījumu vai būtiski piedalījusies šo rezultātu sasniegšanā (sk. promocijas darba tabulā “Promocijas darba autora personiskais ieguldījums” 5. lpp.).
6.6. Dalījums teikumos; 7.3. Neiederīgs vārds; 8. Tekstveide; 10.1. Sekundāra: saistāmība; 10.3. Sekundāra: interpunkcija;
Proceedings of 13th International Conference on Language Resources and Evaluation (LREC 2022), Marseille, pp. 5123-5129, (Scopus).
1. Tehniskais noformējums; 5.2. Lieka pieturzīme;
Proceedings of the 5th International Conference on Human Language Technologiesthe Baltic Perspective (HLT 2012), Frontiers in Artificial Intelligence and Applications, Vol. 247, IOS Press, pp. 185–192 (Scopus un WOS).
1. Tehniskais noformējums;
Proceedings of the 8th International Conference on Human Language Technologiesthe Baltic Perspective (HLT 2018), Frontiers in Artificial Intelligence and Applications, Vol. 307, pp. 120–125 (Scopus).
1. Tehniskais noformējums;
Analizējot Čankera rezultātus, atklājaās vairākas problēmas, kas raksturīgas daudziem likumbāzētiem (os balstītiem (angl. rule-based) analizatoriem.
6.5. Izteicēja izveide; 7.2. Mazvārdība; 7.3. Neiederīgs vārds;
Dabiska vēlme būtu izvēlēties no visiem variantiem pareizo, vai, ja tāda nav, tad vismazāk kļūdaino, taču valodā netrūkst situāciju, kad teksta fragmentam iespējami vairāki gramatiski pareizi analīzes varianti un cilvēka sagaidītā interpretācija nav viennozīmīgi nosakāma tikai no gramatikas zināšanām – p. Piemēram, vārdu savienojumu “sieviešu ādas zābaki” un “liellopa ādas zābaki” gadījumā tās ir pasaules zināšanas, kuru dēļ mēs secinām, ka, visticamāk, pirmajā gadījumā zābaki ir paredzēti sievietēm , bet otrajā – gatavoti no liellopa ādas, nevis paredzēti liellopiem.
1. Tehniskais noformējums; 5.2. Lieka pieturzīme; 6.6. Dalījums teikumos; 10.3. Sekundāra: interpunkcija; 10.4. Sekundāra: sākumburti;
Tādeējādi nācās secināt, ka, pat: pat ja tiktu atrisinotātas citas mērogojamības problēmas, Čankera tālākai attīstīšanai par plaša pārklājuma praktiski izmantojamu sintakses parsētāju būtu absoljebkurā gadījumā būtiu nepieciešams sintaktiski marķēts korpuss, no kura šādu statistisko informāciju iegūt.
2.1. Vārdu pareizrakstība; 6.5. Izteicēja izveide; 6.6. Dalījums teikumos; 7.3. Neiederīgs vārds;
META-NET pārskata pētījumsā (Vasiļjevs, Skadiņa, 2012) 2012. gadā norādaīts, ka latviešu valodai nav publiski pieejams neviens sintaktiski marķētais korpuss.
4. Formveidošana; 6.5. Izteicēja izveide;
Sintaktiski marķētā korpusa gramatikas modelis Balstoties uz veiksmīgajām hibrīdā gramatikas modeļa iestrādēm Čankera izveidē SemTi-Kamols projektā un konsultējoties ar lingvistiem, tika nolemts šo modeli tālāk attīstīt sintaktiski marķētā korpusa vajadzībām ar ilgtermiņa mērķi modelēt visas veidojamajā korpusā sastopamās latviešu valodas konstrukcijas. Latviešu valodas sintaktiski marķētā korpusa” (Latvian Treebank, LVTB) gramatikas modelis ir veidots kā divu pasaulē plaši lietotu sintaktisko modeļu – atkarību gramatikas un frāzes struktūras gramatikas – hibrīds.
1. Tehniskais noformējums; 5.3. Pieturzīmes trūkums; 7.2. Mazvārdība;
Teikuma struktūras formālie attēlojumi no matemātiskā viedokļa ir grafi, tāpēc turpmāk darbā tiks lietota grafu teorijas terminoloģija.
6.5. Izteicēja izveide;
Parasti teikuma struktūra ir sakņots koks (angl. rooted tree) – grafs bez cikliem ar vienu īpaši atzīmētu virsotni, ko sauc par sakni (angl. root).
7.2. Mazvārdība;