Norma

Meklēšana

Par korpusu Meklēšana Kļūdu tipu statistika Kļūdu kombināciju statistika

Ekskluzīvi

Atrasts/-i 9833 vienumi

Katra frāze ~~var~~ sastāvēt no tekstvienībām (angl. tokens) – vārdiem vai pieturzīmēm~~, angl. tokens ,~~ – un/vai citām frāzēm, ~~tādējādi~~un teikumus tiek attēlojots ar koku, kura sakne ir frāze, kas atbilst visam teikumam, savukārt lapāas – tekstvienības. Šāda koka piemērs dots 2.a attēl~~a (a) daļ~~ā.
1. Tehniskais noformējums; 6.1. Saistāmība; 6.4. Vārdu secība; 6.5. Izteicēja izveide; 7.1. Liekvārdība; 7.3. Neiederīgs vārds;

Teikuma struktūra ir koks, ~~kam~~un katra no tā virsotnēm atbilst vienam vārdam.
6.6. Dalījums teikumos; 7.3. Neiederīgs vārds; 6.7. Sakārtojuma konstrukcijas; 6.8. Palīgteikuma tips;

Atsevišķa konstrukcija – junkcija (fr. jonction) – paredzēta vienlīdzīgu teikuma locekļu attēlošanai~~, savukārt p~~. Par koka virsotnēm š~~eit~~ajā modelī tiek uzskatīti nevis vārdi, bet nucleéus (fr.) – elementi, kas var būt vai nu viens vārds, vai ar aprakstītajām operācijām iegūts vairāku vārdu savienojums.
2.1. Vārdu pareizrakstība; 5.3. Pieturzīmes trūkums; 6.6. Dalījums teikumos; 7.1. Liekvārdība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds;

Pārtrauktām frāzēm frāzes struktūras gramatikā atbilst neprojektīvas šķautnes atkarību gramatikā. ~~Atbilstoši (~~Pēc Nivre, Nilsson, (2005),: ja virsotņu (tekstvienību) pāri v un w savieno šķautne, tā ir neprojektīva (angl. non-projective) tad un tikai tad, ja kāda no tekstvienībām, kas teikumā atrodas starp v un w, nav nedz v, nedz w pēctecis.
1. Tehniskais noformējums; 5.1. Nepiemērota pieturzīme; 7.2. Mazvārdība; 7.3. Neiederīgs vārds;

Par neprojektīvu koku (pretstatā projektīvam, angl. projective) sauc tādu koku, kurā ir vismaz viena neprojektīva šķautne.
7.2. Mazvārdība;

SemTi-Kamola hibrīdaisjā gramatikas modelisī tā sākotnējā izstrādes stadijā tika izmantojatas atkarības un x-vārdusi – L. Tenjēra nucleéus līdzīgas konstrukcijas atsevišķu vārdu savienojumu attēlošanai (Nešpore et al., 2010). Šajā darbā hibrīdais gramatikas modelis ir būtiski papildināts un pilnveidots, lai novērstu trūkumus, kas tika apzināti korpusa marķēšanas gaitā.
1. Tehniskais noformējums; 6.5. Izteicēja izveide; 7.2. Mazvārdība; 10.1. Sekundāra: saistāmība;

Piemēram, prievārda konstrukcijas veido viens prievārds un viens nomens, un prievārds nosaka to, vai prievārds ir pirms nomena vai pēc – tādi prievārdi kā ap, uz, pār tiek lietoti pirms nomena, bet dēļ, labad – pēc nomena (lai gan ir atsevišķi prievārdi, kam valodas materiālā sastopami lietojumi abās pozīcijās – dēļ, pēc). Šāda x-vārdu izpratne precizē sākotnējā SemTi-Kamola modelī paredzēto x-vārdu ideju: lai gan sākotnējā SemTi-Kamola modelī x-vārdos bija iekļautas arī dažas citas konstrukcijas, piemēram, vienlīdzīgi teikuma locekļi un divdabja teicienu pamatelementi, tomēr sākotnējā SemTi-Kamola modeļa autori uzskatīja, ka visu pieturzīmju iekļaušana x-vārdos neatbilst ~~plāno~~iecerētajai idejai. ~~Ņemot vērā, ka l~~Latviešu valodā pieturzīmes ļauj spriest par gramatisko struktūru, tāpēc tika nolemts, ka sintaktiski marķētajā korpusā ~~nepieciešams~~ jāmarķēt arī pieturzīmes, turklāt, ja tas ir iespējams, atainojot pieturzīmju likšanas motivāciju.
6.5. Izteicēja izveide; 6.6. Dalījums teikumos; 7.1. Liekvārdība; 7.3. Neiederīgs vārds;

Kā šīs problēmas atrisinājums tika radīts otrs frāzes veida konstrukciju tips – pieturzīmju konstrukcija. Šī konstrukcija satur pamatelementu – ~~vārdu vai frāzi~~ (visbiežāk vienu) vārdu vai frāzi – un pieturzīmes, kas teikumā lietotas šī pamatelementa dēļ.
6.4. Vārdu secība;

Pilnveidotajā LVTB modelī tiek lietots vēl viens frāzes veida konstrukciju tips: līdzīgi kā oriģinālajā L. Tenjēra atkarību gramatikā arī šeit tiek šķirta atsevišķa konstrukcija koordinētiem elementiem. Šī konstrukcija LVTB modelī tiek konsekventi lietota gan vienlīdzīgu teikuma locekļu attēlošanai, piemēram, zēns un meitene, gan v~~airāku neatkar~~ienlīdzīgu teikuma daļu attēlošanai, piemēram, zēns ir mājās, bet meitene iet uz skolu~~, gan vienlīdzīgu palīgteikumu attēlošanai, piemēram,~~ un zēns ir mājās, jo viņam šorīt bija iesnas un māte atļāva neiet uz skolu.
7.2. Mazvārdība; 7.3. Neiederīgs vārds;

Sakārtojuma konstrukcijas dažos aspektos strukturāli ir līdzīgas abiem augstāk aprakstītajiem frāžu tipiem, tomēr sakārtojuma konstrukciju struktūra nav tik st~~rikt~~ingri fiksēta kā x-vārdu struktūra, un tās var saturēt arī pieturzīmes, ja tādas atdala vienlīdzīgos teikuma locekļus vai teikuma daļas.
7.3. Neiederīgs vārds;

Sakārtojuma konstrukcijāmu paveidi parāda, vai šādi marķētā konstrukcija ir vienlīdzīgi teikuma locekļi vai teikuma daļas.
6.1. Saistāmība;

Kā pamata rīku komplekts korpusa manuālajai apstrādei tiek lietots ~~Prāgas~~ Kārļa uUniversitātē izstrādātais TrEd toolkit (Hajič et al., 2001) un kopā ar to arī datu metaformāts Prague Markup Laguage (PML) (Pajas, Štěpánek, 2006). PML ir šīs rīku kopas vietējais (angl. native) datu formāts. Šāda izvēle tika izdarīta TrEd toolkit un PML plašās funkcionalitātes dēļ: (ir izstrādāts vizuālas rediģēšanas rīks TrEd, meklēšanas valoda kokveida struktūrām PML-TQ ar realizāciju (Štěpánek, Pajas, 2010), masveida apstrādes rīks bTrEd u.c.~~, PML ir vietējais (native) datu formāts TrEd toolkit), kā arī tāpēc, ka tas~~ Tie ir aprobētsi, marķējot vairākus korpusus, arī lielus – Prāgas aAtkarību korpusu (Prague Dependency Treebank, PDT) (Hajič et al., 2000), Prāgas aArābu valodas atkarību korpusu (Prague Arabic Dependency Treebank) (Hajič et al., 2004), Slovēņu valodas atkarību korpusu (Slovene Dependency Treebank) (Džeroski et al., 2006) u.c.~~, un Prāgas~~ Turklāt Kārļa uUniversitāte LINDAT/CLARIN iniciatīvas ietvaros piedāvā ~~servisu~~ šādu datu publicēšanais pakalpojumu.
2.3. Sākumburti; 6.4. Vārdu secība; 6.6. Dalījums teikumos; 7.1. Liekvārdība; 7.2. Mazvārdība;

Tāpat vērtīg~~a ērtība~~i ir arī tas, ka PML standarts ļauj tekstam pievienoto marķējumu sadalīt vairākos līmeņos un katra līmeņa datus glabāt atsevišķā failā – tas ļauj vienā līmenī glabāt morfoloģisko marķējumu (vienas tekstvienības ietvaros) un citā – sintaktisko, tādējādi veidojot vienotu glabāšanas standartu gan morfoloģiski, gan sintaktiski marķētajiem korpusiem. Šādi veidotai struktūrai ir vieglāk pievienot jaunus marķējuma līmeņus, ja nākotnē rodas vēlme sintaktiski marķēto korpusu papildināt ar augstāka līmeņa marķējumu.
7.1. Liekvārdība;

Pēc analoģijas ar PDT arī topošā latviešu valodas sintaktiski marķētā korpusa marķējums tiek sadalīts trīs līmeņos – sadalījumams tekstvienībās, morfoloģiska~~jam~~is marķējumams un sintaktiska~~jam~~is marķējumams.
3. Vārddarināšana; 6.1. Saistāmība;

Tekstvienību un morfoloģiskā marķējuma līmeņi veidoti maksimāli tuvi PDT atbilstošajiem līmeņiem, pārņemot aprobētasu praksesi un nodrošinot vieglāku saprotamību pētniekiem, kas strādājuši ar PDT.
4.1. Lietvārds;

Pielāgojot to L~~atviešu valodas sintaktiski marķētā korpusa~~VTB vajadzībām, tas papildināts ar frāzes tipa konstrukcijām un tukšām virsotnēm (virsotnēm bez atbilstības ar kādu tekstvienību; PDT tādu nav) vārdu izlaidumu (redukciju, angl. ellipsis) attēlošanai.
7.3. Neiederīgs vārds;

Lai ~~adekv~~šo formātiu varētu ~~šo form~~adekvātui izmantot, tā īpatnības tika nodefinētas PML Schema standartam atbilstošās PML shēmās un tika radīts arī ~~paplašinājuma modulis~~ grafisk~~ajam~~ā redaktoram TrEd paplašinājuma modulis (Pretkalniņa et al., 2011b).
3. Vārddarināšana; 6.1. Saistāmība; 6.4. Vārdu secība;

Papildus tika izveidota XSL (Extensible Stylesheet Language) transformācija, kas ļauj korpusa datus pārveidot Tiger XML formātā (Mengel, Lezius, 2000), ko izmanto Štutgartes uUniversitātes izstrādātais TigerSearch un citi rīki.
2.3. Sākumburti;

Dažādu projektu ietvaros takorpuss ir pieaudzis līdz pat 17 tūkstošiem teikumu 2022. gadā un tādeējādi kļuvis par būtisku latviešu valodas datorlingvistikas resursu. Raksturojot LVTB attīstību ~~raksturojot,~~, nosacīti var runāt par ~~nosacīti~~ divām fāzēm – eksperimentālu sākotnējo marķēšanas fāzi (angl. pilot project) un masveida korpusa paplašināšanas fāzi no apmēram 2016. gada.
2.1. Vārdu pareizrakstība; 6.4. Vārdu secība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds;

Sākotnēji eksperimentālajā fāzē ar korpusu ~~vienlaicīgi strādā~~marķēja viens sintakses speciālists ~~marķētājs~~ un automatizētas priekšmarķēšanas iespējas bija minimālas. Šādi vairāku gadu laikā korpuss sasniedza apmēram 1500 teikumu apjomu, unbet pēc morfoloģiskā tagotāja (Paikens et al., 2013) izveides un integrācijas marķēšanas procesā korpuss sasniedza 5000 teikumu 2014. gadā (Rituma et. al, 2019). Ar 2016. gaduā sākaās LVTB masveida paplašināšana.
6.1. Saistāmība; 6.5. Izteicēja izveide; 7.1. Liekvārdība; 7.3. Neiederīgs vārds;