Meklēšana

Par korpusu Meklēšana Kļūdu tipu statistika Kļūdu kombināciju statistika
Atrasts/-i 3548 vienumi
Darba rezultātā ir izstrādāts un aprobēts fundamentāls, latviešu valodai iepriekš neeksitējošs,bijis valodas resurss – mašīnlasāms sintaktiski marķēts korpuss 17 tūkstošu teikumu apmērā. Šis resurss ir publiski pieejams gan lejuplādei, gan tiešsaistes meklēšanai vairākos veidos – tasTeikumi ir marķētsi atbilstoši diviem dažādiem sintaktiskās marķēšanas modeļiem – darba ietvarosā radītajam frāžu struktūru un atkarību gramatikas hibrīdam un starptautiski aprobētajam Universālo atkarību (Universal Dependencies, UD) modelimD modelim. Izveidotais valodas resurss publiski pieejams gan lejuplādei, gan tiešsaistes meklēšanai abos iepriekš minētajos marķējuma veidos.
2.2. Saīsinājuma izveide; 3. Vārddarināšana; 5.2. Lieka pieturzīme; 6.4. Vārdu secība; 6.5. Izteicēja izveide; 7.1. Liekvārdība; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība; 4.4. Cita vārdšķira;
Tās pamatuzdevums ir automātiska strukturētas, mašīnlasāmas un mašīnai interpretējamas informācijas izgūšana no dabiskās valodas, kā arī mašīnlasāmas informācijas (datu) atainošana ar dabiskās valodas līdzekļiem, tādējādi centrālie datorlingvistikas aspekti ir valodas analīze (interpretācijasapratne) un sintēze (tekstrade).
7.3. Neiederīgs vārds;
Valodas apstrādi gan valodniecībā, gan datorlingvistikā mēdz aplūkot kā vairāklīmeņu uzdevumu (sk. 1.a attēla (a) daļu), kur gramatisko un semantisko informāciju katrā no līmeņiem var analizēt, izmantojot formālus nozīmes reprezentācijas modeļus (sk. 1.b attēla (b) daļu, uzskatāmības labad šeit minēti ar promocijas darbu saistītajos projektos izmantotie reprezentācijas modeļi, lai gan tie nav vienīgie). (a) Teksta analīzes līmeņi(b) Izvēlētās reprezentācijas (pēc Grūzītis, 2011)(pēc Grūzītis et al., 2018) 1. attēls.
1. Tehniskais noformējums;
Valodas apstrāde un analīze Daudzas mūsdienās aktuālāsu datorlingvistikas problēmas un to risinājumi ar praktisku lietojumu atbilstizriet no valodas analīzeis semantikas līmeņos.
6.5. Izteicēja izveide; 7.1. Liekvārdība; 10.1. Sekundāra: saistāmība;
Piemēram, mūsdienās populāro virtuālo asistentu (Siri, Alexa, utt.) darbības nodrošināšana tipiski ietver teksta klasificēšanas (u (angl. text classification) un faktu izgūšanasu no teksta (angl. information extraction) uzdevumus. Šādu uzdevumu risināšanai var izšķirt atšķirīgas pieejas atkarībā no tā, kādi starpsoļi un resursi tiek izmantoti risinājuma iegūšanai.
5.2. Lieka pieturzīme; 7.1. Liekvārdība; 10.1. Sekundāra: saistāmība;
Viena no pieejām ir veikt analīzi soli pa solim: sākt ar zemākā līmeņa, t.i., morfoloģisko, analīzi, turpināt ar sintaktisko analīzi, kas balstās morfoloģiskajā analīzē, utt., līdz sasniegts vēlamais analīzes (jeb teksta nozīmes reprezentācijas) līmenis.
6.2. Savrupinājumi; 7.2. Mazvārdība; 7.3. Neiederīgs vārds;
Otra pieeja ir uzreiz risināt galaproblēmu, neveicot tiešu, pilnu zemāko līmeņu analīzi. Šī oOtrā pieeja risina tikai konkrēto uzdevumu, un risinājums var būt grūti vispārināms citiem tā paša analīzes līmeņa uzdevumiem.
7.1. Liekvārdība;
Piemēram, atslēgvārdu saraksti vai to jēdzientelpas vektori (angl. word embeddings) var būt pietiekams risinājums teksta klasifikācijcēšanas uzdevumam, taču tas nav pietiekams resurssar šo resursu nepietiek, lai izgūtu no teksta faktoloģisku informāciju.
3. Vārddarināšana; 6.5. Izteicēja izveide; 7.2. Mazvārdība;
Savukārt pirmās pieejasPirmajā pieejā aprakstītā resursu izstrāde ir laika un cilvēkresursu ietilpīgāka, taču jau izstrādāto risinājumu pielieizmantojums ir plašāks un tie atkārtoti noder jaunu lietojumu izstrādē.
3. Vārddarināšana; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;
Tādējādi plaša pārklājuma zemāka līmeņa risinājumu izstrāde ir fundamentāls ieguldījums tālākā augstāka līmeņu problēmu risināšanaiā.
6.1. Saistāmība;
Promocijas darbā veiktais pētījums un tā rezultāti orientēti uz teksta analīzi soli pa solim, t.i., pēc pirmās pieejas.
7.2. Mazvārdība;
Nākamajā, sintakses, līmenī tiek apskatīti vārdu – teikuma elementu – vārdu – savstarpējie formālie sakari, savukārt teikuma un teksta semantikas līmeņi attiecas uz attiecīgi teikumā vai tekstā iekļauto jēgu.
6.4. Vārdu secība; 7.1. Liekvārdība;
Eksistēja arī pētījumi, kas veltīti specifiskām problēmām, piemēram, pareizrakstības pārbaudei (Deksne, Skadiņš, 2011) vai ierobežotajām dabiskajām valodām (Paikens, Grūzītis, 2012).
4.3. Īpašības vārds;
Promocijas darbā sekmīgi attīstītās sintakses līmeņa tehnoloģijas, it īpaši uUniversālo atkarību korpuss (Universal Dependencies), UD) korpuss, veido nepieciešamo pamatu tālākajiem augstāka līmeņa pētījumiem (sk. 1.b attēla (b) daļu).
1. Tehniskais noformējums; 2.3. Sākumburti; 6.4. Vārdu secība; 7.1. Liekvārdība; 7.2. Mazvārdība;
Sintaktiski marķētais korpuss, kas publiski pieejams divos formālismos, rada augsnidatu formātos atbilstoši diviem sintaktiskā marķējuma modeļiem, valodas pētījumiem, jo ļauj atlasīt latviešu valodas datus pēc sintaktiskiem kritērijiem, kas pirms tam nebija iespējams.
6.6. Dalījums teikumos; 7.3. Neiederīgs vārds;
Latviešu valodai tiek aprobēts plaši izmantots starptautisks standarts Universālās atkarības, kas– UD. Latviešu valoda ir pirmā no baltu valodām, kam tiek veidots šāds plašs resurss. Dalība UD iniciatīvā veicina gan starptautisko sadarbību, gan arī papildina un vēsturiski vairāk anglocentrisko starptautiskoajā datorlingvistikas pētniecības vidi arvidē ļauj izplatīties atziņām par fleksīvasu valodau, kurās air bagātua morfoloģijua, īpatnībām un vajadzībām – latviešu valoda ir pirmā no baltu valodām, kam šāds resurss tiek izveidots.
8. Tekstveide;
Pētījuma mērķi un uzdevumi Pētījuma vispārīgais mērķis ir uzsākt jaunu pētniecības novirzienu latviešu valodailatviešu valodas izpētes virzienu – sintaktiski marķētos tekstos balstītus datorlingvistikas pētījumus.
6.4. Vārdu secība;
Latviešu valodas parsēšanas modulis ir apmācīts, izmantojot 3985 tekstvienības lielu korpusu, un dod 58,92% UAS, 51,47% LAS.
5.3. Pieturzīmes trūkums;
Darba mērķa sasniegšanai izvirzīti šāditālāk minētie uzdevumi:. Izveidot metodes un nepieciešamo tehnisko ietvaru sintaktiski marķēta latviešu valodas korpusa radīšanai, t.sk. salīdzināt dažādus sintaktiskās marķēšanas formālismmodeļus.
6.6. Dalījums teikumos; 7.3. Neiederīgs vārds; 10.3. Sekundāra: interpunkcija;
Hipotēzes Darbā izvirzītas šādas hipotēzes: Aatkarību un frāžu struktūru hibrīds gramatikas modelis var paplašināts latviešu valodas sintaktiski marķētā korpusa izmantojamību. K, salīdzinot ar atkarību gramatikas modeli; kvalitatīvs vidēja apjoma (ap 10-20 tūkstoši teikumu) sintaktiski marķēts latviešu valodas korpuss var kalpots par pamatu vismodernāko (angl. state-of-the-art) parsētāju izveidei.
1. Tehniskais noformējums; 2.3. Sākumburti; 6.1. Saistāmība; 6.5. Izteicēja izveide; 6.6. Dalījums teikumos; 7.2. Mazvārdība;