Meklēšana

Par korpusu Meklēšana Kļūdu tipu statistika Kļūdu kombināciju statistika
Atrasts/-i 8257 vienumi
Valodas apstrādi gan valodniecībā, gan datorlingvistikā mēdz aplūkot kā vairāklīmeņu uzdevumu (sk. 1.a attēla (a) daļu), kur gramatisko un semantisko informāciju katrā no līmeņiem var analizēt, izmantojot formālus nozīmes reprezentācijas modeļus (sk. 1.b attēla (b) daļu, uzskatāmības labad šeit minēti ar promocijas darbu saistītajos projektos izmantotie reprezentācijas modeļi, lai gan tie nav vienīgie). (a) Teksta analīzes līmeņi(b) Izvēlētās reprezentācijas (pēc Grūzītis, 2011)(pēc Grūzītis et al., 2018) 1. attēls.
1. Tehniskais noformējums;
Valodas apstrāde un analīze Daudzas mūsdienās aktuālāsu datorlingvistikas problēmas un to risinājumi ar praktisku lietojumu atbilstizriet no valodas analīzeis semantikas līmeņos.
6.5. Izteicēja izveide; 7.1. Liekvārdība; 10.1. Sekundāra: saistāmība;
Piemēram, mūsdienās populāro virtuālo asistentu (Siri, Alexa, utt.) darbības nodrošināšana tipiski ietver teksta klasificēšanas (u (angl. text classification) un faktu izgūšanasu no teksta (angl. information extraction) uzdevumus. Šādu uzdevumu risināšanai var izšķirt atšķirīgas pieejas atkarībā no tā, kādi starpsoļi un resursi tiek izmantoti risinājuma iegūšanai.
5.2. Lieka pieturzīme; 7.1. Liekvārdība; 10.1. Sekundāra: saistāmība;
Viena no pieejām ir veikt analīzi soli pa solim: sākt ar zemākā līmeņa, t.i., morfoloģisko, analīzi, turpināt ar sintaktisko analīzi, kas balstās morfoloģiskajā analīzē, utt., līdz sasniegts vēlamais analīzes (jeb teksta nozīmes reprezentācijas) līmenis.
6.2. Savrupinājumi; 7.2. Mazvārdība; 7.3. Neiederīgs vārds;
Otra pieeja ir uzreiz risināt galaproblēmu, neveicot tiešu, pilnu zemāko līmeņu analīzi. Šī oOtrā pieeja risina tikai konkrēto uzdevumu, un risinājums var būt grūti vispārināms citiem tā paša analīzes līmeņa uzdevumiem.
7.1. Liekvārdība;
Piemēram, atslēgvārdu saraksti vai to jēdzientelpas vektori (angl. word embeddings) var būt pietiekams risinājums teksta klasifikācijcēšanas uzdevumam, taču tas nav pietiekams resurssar šo resursu nepietiek, lai izgūtu no teksta faktoloģisku informāciju.
3. Vārddarināšana; 6.5. Izteicēja izveide; 7.2. Mazvārdība;
Savukārt pirmās pieejasPirmajā pieejā aprakstītā resursu izstrāde ir laika un cilvēkresursu ietilpīgāka, taču jau izstrādāto risinājumu pielieizmantojums ir plašāks un tie atkārtoti noder jaunu lietojumu izstrādē.
3. Vārddarināšana; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;
Tādējādi plaša pārklājuma zemāka līmeņa risinājumu izstrāde ir fundamentāls ieguldījums tālākā augstāka līmeņu problēmu risināšanaiā.
6.1. Saistāmība;
Promocijas darbā veiktais pētījums un tā rezultāti orientēti uz teksta analīzi soli pa solim, t.i., pēc pirmās pieejas.
7.2. Mazvārdība;
Nākamajā, sintakses, līmenī tiek apskatīti vārdu – teikuma elementu – vārdu – savstarpējie formālie sakari, savukārt teikuma un teksta semantikas līmeņi attiecas uz attiecīgi teikumā vai tekstā iekļauto jēgu.
6.4. Vārdu secība; 7.1. Liekvārdība;
Eksistēja arī pētījumi, kas veltīti specifiskām problēmām, piemēram, pareizrakstības pārbaudei (Deksne, Skadiņš, 2011) vai ierobežotajām dabiskajām valodām (Paikens, Grūzītis, 2012).
4.3. Īpašības vārds;
Promocijas darbā sekmīgi attīstītās sintakses līmeņa tehnoloģijas, it īpaši uUniversālo atkarību korpuss (Universal Dependencies), UD) korpuss, veido nepieciešamo pamatu tālākajiem augstāka līmeņa pētījumiem (sk. 1.b attēla (b) daļu).
1. Tehniskais noformējums; 2.3. Sākumburti; 6.4. Vārdu secība; 7.1. Liekvārdība; 7.2. Mazvārdība;
Sintaktiski marķētais korpuss, kas publiski pieejams divos formālismos, rada augsnidatu formātos atbilstoši diviem sintaktiskā marķējuma modeļiem, valodas pētījumiem, jo ļauj atlasīt latviešu valodas datus pēc sintaktiskiem kritērijiem, kas pirms tam nebija iespējams.
6.6. Dalījums teikumos; 7.3. Neiederīgs vārds;
Latviešu valodai tiek aprobēts plaši izmantots starptautisks standarts Universālās atkarības, kas– UD. Latviešu valoda ir pirmā no baltu valodām, kam tiek veidots šāds plašs resurss. Dalība UD iniciatīvā veicina gan starptautisko sadarbību, gan arī papildina un vēsturiski vairāk anglocentrisko starptautiskoajā datorlingvistikas pētniecības vidi arvidē ļauj izplatīties atziņām par fleksīvasu valodau, kurās air bagātua morfoloģijua, īpatnībām un vajadzībām – latviešu valoda ir pirmā no baltu valodām, kam šāds resurss tiek izveidots.
8. Tekstveide;
Pētījuma mērķi un uzdevumi Pētījuma vispārīgais mērķis ir uzsākt jaunu pētniecības novirzienu latviešu valodailatviešu valodas izpētes virzienu – sintaktiski marķētos tekstos balstītus datorlingvistikas pētījumus.
3. Vārddarināšana; 6.1. Saistāmība; 6.4. Vārdu secība;
Latviešu valodas parsēšanas modulis ir apmācīts, izmantojot 3985 tekstvienības lielu korpusu, un dod 58,92% UAS, 51,47% LAS.
5.3. Pieturzīmes trūkums;
Darba mērķa sasniegšanai izvirzīti šāditālāk minētie uzdevumi:. Izveidot metodes un nepieciešamo tehnisko ietvaru sintaktiski marķēta latviešu valodas korpusa radīšanai, t.sk. salīdzināt dažādus sintaktiskās marķēšanas formālismmodeļus.
6.6. Dalījums teikumos; 7.3. Neiederīgs vārds; 10.3. Sekundāra: interpunkcija;
Hipotēzes Darbā izvirzītas šādas hipotēzes: Aatkarību un frāžu struktūru hibrīds gramatikas modelis var paplašināts latviešu valodas sintaktiski marķētā korpusa izmantojamību. K, salīdzinot ar atkarību gramatikas modeli; kvalitatīvs vidēja apjoma (ap 10-20 tūkstoši teikumu) sintaktiski marķēts latviešu valodas korpuss var kalpots par pamatu vismodernāko (angl. state-of-the-art) parsētāju izveidei.
1. Tehniskais noformējums; 2.3. Sākumburti; 6.1. Saistāmība; 6.5. Izteicēja izveide; 6.6. Dalījums teikumos; 7.2. Mazvārdība;
Pētījuma metodes Promocijas darbā izmantotāas šādas pētījumu metodes: literatūras apskats – lai apzinātu perspektīvās metodes un citu valodu pieredzi, analizētas dažādas zinātniskas publikācijas, un atsevišķos gadījumos arī atvērtā pirmkoda rīku programmkods; iteratīva izstrāde un pielāgošana – darbā radītie rīki un algoritmi tika realizēti, novērtēti un iteratīvi precizēti, vadoties pēc to praktiskā izmantojuma; kvantitatīva novērtēšana – darbā izveidotie transformācijas algoritmi tika izvērtēti ar jomā pieņemtajām metrikām; kontrolēti eksperimenti – algoritmu varianti tika salīdzināti kontrolētas vides eksperimentos ar kvantitatīvās novērtēšanas palīdzību, salīdzinanalizējot to darbības atšķirības un precizitāti; kļūdu analīze – kur iespējams, algoritmu rezultātos vismaz izlases veidā tika veikta arī manuāla kļūdu analīze, lai gūtu labāku priekšstatu par iespējamajām problēmām un to veidiem.
5.2. Lieka pieturzīme; 7.1. Liekvārdība; 7.3. Neiederīgs vārds; 9.1. Neuzmanības kļūda;
Radīta rīku kopa un nepieciešamā infrastruktūra l“Latviešu valodas sintaktiski marķētā korpusa veidošanai” (Latvian Treebank, LVTB) veidošanai vajadzīgā infrastruktūra, t.sk. definēti plašam valodas pārklājumam nepieciešamie paplašinājumi LU MII eksperimentālajamā hibrīdajamā gramatikas modelimļa paplašinājumi.
1. Tehniskais noformējums; 6.1. Saistāmība; 6.4. Vārdu secība; 7.2. Mazvārdība; 10.2. Sekundāra: vārdu secība;