Norma

Meklēšana

Par korpusu Meklēšana Kļūdu tipu statistika Kļūdu kombināciju statistika

Ekskluzīvi

Atrasts/-i 9833 vienumi

Valodas apstrādi gan valodniecībā, gan datorlingvistikā mēdz aplūkot kā vairāklīmeņu uzdevumu (sk. 1.a attēl~~a (a) daļ~~u), kur gramatisko un semantisko informāciju katrā no līmeņiem var analizēt, izmantojot formālus nozīmes reprezentācijas modeļus (sk. 1.b attēl~~a (b) daļ~~u, uzskatāmības labad šeit minēti ar promocijas darbu saistītajos projektos izmantotie reprezentācijas modeļi, lai gan tie nav vienīgie). (a) Teksta analīzes līmeņi(b) Izvēlētās reprezentācijas (pēc Grūzītis, 2011)(pēc Grūzītis et al., 2018) 1. attēls.
1. Tehniskais noformējums;

Valodas apstrāde un analīze Daudzas mūsdien~~ās aktuālās~~u datorlingvistikas problēmas un to risinājumi ar praktisku lietojumu ~~atbilst~~izriet no valodas analīzeis semantikas līmeņos.
6.5. Izteicēja izveide; 7.1. Liekvārdība; 10.1. Sekundāra: saistāmība;

Piemēram, mūsdienās populāro virtuālo asistentu (Siri, Alexa, utt.) darbības nodrošināšana tipiski ietver teksta klasificēšan~~as (~~u (angl. text classification) un faktu izgūšanasu no teksta (angl. information extraction) ~~uzdevumus~~. Šādu uzdevumu risināšanai var izšķirt atšķirīgas pieejas atkarībā no tā, kādi starpsoļi un resursi tiek izmantoti risinājuma iegūšanai.
5.2. Lieka pieturzīme; 7.1. Liekvārdība; 10.1. Sekundāra: saistāmība;

Viena no pieejām ir veikt analīzi soli pa solim: sākt ar zemākā līmeņa, t.i., morfoloģisko, analīzi, turpināt ar sintaktisko analīzi, kas balstās morfoloģiskajā analīzē, utt., līdz sasniegts vēlamais analīzes (jeb teksta nozīmes reprezentācijas) līmenis.
7.2. Mazvārdība; 7.3. Neiederīgs vārds;

Otra pieeja ir uzreiz risināt galaproblēmu, neveicot tiešu, pilnu zemāko līmeņu analīzi. ~~Šī o~~Otrā pieeja risina tikai konkrēto uzdevumu, un risinājums var būt grūti vispārināms citiem tā paša analīzes līmeņa uzdevumiem.
7.1. Liekvārdība;

Piemēram, atslēgvārdu saraksti vai to jēdzientelpas vektori (angl. word embeddings) var būt pietiekams risinājums teksta klasifi~~kācij~~cēšanas uzdevumam, taču ~~tas nav pietiekams resurss~~ar šo resursu nepietiek, lai izgūtu no teksta faktoloģisku informāciju.
3. Vārddarināšana; 6.5. Izteicēja izveide; 7.2. Mazvārdība;

~~Savukārt pirmās pieejas~~Pirmajā pieejā aprakstītā resursu izstrāde ir laika un cilvēkresursu ietilpīgāka, taču jau izstrādāto risinājumu ~~pielie~~izmantojums ir plašāks un tie atkārtoti noder jaunu lietojumu izstrādē.
7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;

Tādējādi plaša pārklājuma zemāka līmeņa risinājumu izstrāde ir fundamentāls ieguldījums tālākā augstāka līmeņu problēmu risināšanaiā.
6.1. Saistāmība;

Promocijas darbā veiktais pētījums un tā rezultāti orientēti uz teksta analīzi soli pa solim, t.i., pēc pirmās pieejas.
7.2. Mazvārdība;

Nākamajā, sintakses, līmenī tiek apskatīti vārdu – teikuma elementu – ~~vārdu –~~ savstarpējie formālie sakari, savukārt teikuma un teksta semantikas līmeņi attiecas uz ~~attiecīgi~~ teikumā vai tekstā iekļauto jēgu.
6.4. Vārdu secība; 7.1. Liekvārdība;

Eksistēja arī pētījumi, kas veltīti specifiskām problēmām, piemēram, pareizrakstības pārbaudei (Deksne, Skadiņš, 2011) vai ierobežotajām dabiskajām valodām (Paikens, Grūzītis, 2012).
4.3. Īpašības vārds;

Promocijas darbā sekmīgi attīstītās sintakses līmeņa tehnoloģijas, it īpaši uUniversālo atkarību ~~korpuss~~ (Universal Dependencies), UD) korpuss, veido nepieciešamo pamatu tālākajiem augstāka līmeņa pētījumiem (sk. 1.b attēl~~a (b) daļ~~u).
1. Tehniskais noformējums; 2.3. Sākumburti; 6.4. Vārdu secība; 7.1. Liekvārdība; 7.2. Mazvārdība;

Sintaktiski marķētais korpuss, kas publiski pieejams divos ~~formālismos, rada augsni~~datu formātos atbilstoši diviem sintaktiskā marķējuma modeļiem, valodas pētījumiem~~, jo~~ ļauj atlasīt latviešu valodas datus pēc sintaktiskiem kritērijiem, kas pirms tam nebija iespējams.
6.6. Dalījums teikumos; 7.3. Neiederīgs vārds;

Latviešu valodai tiek aprobēts plaši izmantots starptautisks standarts ~~Universālās atkarības, kas~~– UD. Latviešu valoda ir pirmā no baltu valodām, kam tiek veidots šāds plašs resurss. Dalība UD iniciatīvā veicina ~~gan~~ starptautisko sadarbību~~, gan arī papildina~~ un vēsturiski vairāk anglocentrisk~~o starptautisko~~ajā datorlingvistikas ~~pētniecības vidi ar~~vidē ļauj izplatīties atziņām par fleksīvasu valodau, kurās air bagātua morfoloģijua, īpatnībām un vajadzībām ~~– latviešu valoda ir pirmā no baltu valodām, kam šāds resurss tiek izveidots~~.
8. Tekstveide;

Pētījuma mērķi un uzdevumi Pētījuma vispārīgais mērķis ir uzsākt jaunu ~~pētniecības novirzienu latviešu valodai~~latviešu valodas izpētes virzienu – sintaktiski marķētos tekstos balstītus datorlingvistikas pētījumus.
3. Vārddarināšana; 6.1. Saistāmība; 6.4. Vārdu secība;

Latviešu valodas parsēšanas modulis ir apmācīts, izmantojot 3985 tekstvienības lielu korpusu, un dod 58,92% UAS, 51,47% LAS.
5.3. Pieturzīmes trūkums;

Darba mērķa sasniegšanai izvirzīti ~~šādi~~tālāk minētie uzdevumi:. Izveidot metodes un nepieciešamo tehnisko ietvaru sintaktiski marķēta latviešu valodas korpusa radīšanai, t.sk. salīdzināt dažādus sintaktiskās marķēšanas ~~formālism~~modeļus.
6.6. Dalījums teikumos; 7.3. Neiederīgs vārds; 10.3. Sekundāra: interpunkcija;

Hipotēzes Darbā izvirzītas šādas hipotēzes: Aatkarību un frāžu struktūru hibrīds gramatikas modelis ~~var~~ paplašināts latviešu valodas sintaktiski marķētā korpusa izmantojamību~~. K~~, salīdzinot ar atkarību gramatikas modeli; kvalitatīvs vidēja apjoma (ap 10-–20 tūkstoši teikumu) sintaktiski marķēts latviešu valodas korpuss ~~var~~ kalpots par pamatu vismodernāko (angl. state-of-the-art) parsētāju izveidei.
1. Tehniskais noformējums; 2.3. Sākumburti; 6.1. Saistāmība; 6.5. Izteicēja izveide; 6.6. Dalījums teikumos; 7.2. Mazvārdība;

Pētījuma metodes Promocijas darbā izmantotāas šādas pētījumu metodes: literatūras apskats – lai apzinātu perspektīvās metodes un citu valodu pieredzi, analizētas dažādas zinātniskas publikācijas, un atsevišķos gadījumos arī atvērtā pirmkoda rīku programmkods; iteratīva izstrāde un pielāgošana – darbā radītie rīki un algoritmi tika realizēti, novērtēti un iteratīvi precizēti, vadoties pēc to praktiskā izmantojuma; kvantitatīva novērtēšana – darbā izveidotie transformācijas algoritmi tika izvērtēti ar jomā pieņemtajām metrikām; kontrolēti eksperimenti – algoritmu varianti tika salīdzināti kontrolētas vides eksperimentos ar kvantitatīvās novērtēšanas palīdzību, ~~salīdzin~~analizējot to darbības atšķirības un precizitāti; kļūdu analīze – kur iespējams, algoritmu rezultātos ~~vismaz~~ izlases veidā tika veikta arī manuāla kļūdu analīze, lai gūtu labāku priekšstatu par iespējamajām problēmām un to veidiem.
5.2. Lieka pieturzīme; 7.1. Liekvārdība; 7.3. Neiederīgs vārds; 9.1. Neuzmanības kļūda;

Radīta rīku kopa un ~~nepieciešamā infrastruktūra l~~“Latviešu valodas sintaktiski marķētā korpusa ~~veidošanai~~” (Latvian Treebank, LVTB) veidošanai vajadzīgā infrastruktūra, t.sk. definēti plašam valodas pārklājumam nepieciešamie ~~paplašinājumi~~ LU MII eksperimentāl~~ajam~~ā hibrīd~~ajam~~ā gramatikas mode~~lim~~ļa paplašinājumi.
1. Tehniskais noformējums; 6.1. Saistāmība; 6.4. Vārdu secība; 7.2. Mazvārdība; 10.2. Sekundāra: vārdu secība;