Meklēšana

Par korpusu Meklēšana Kļūdu tipu statistika Kļūdu kombināciju statistika
Atrasts/-i 3548 vienumi
Katrai virsotnei pievienotās virsotnes dalās 2divās grupās – vecāki un bērni.
1. Tehniskais noformējums;
Virsotnes, kas ir dotās virsotnes bērni, bērnu bērni utt. (būšanas bērnam transitīvais slēgums), sauc par dotās virsotnes pēctečiem (angl. descendants).
7.2. Mazvārdība;
Katra frāze var sastāvēt no tekstvienībām (angl. tokens) – vārdiem vai pieturzīmēm, angl. tokens , – un/vai citām frāzēm, tādējādiun teikumus tiek attēlojots ar koku, kura sakne ir frāze, kas atbilst visam teikumam, savukārt lapāas – tekstvienības. Šāda koka piemērs dots 2.a attēla (a) daļā.
1. Tehniskais noformējums; 6.1. Saistāmība; 6.4. Vārdu secība; 6.5. Izteicēja izveide; 7.1. Liekvārdība; 7.3. Neiederīgs vārds;
Teikuma struktūra ir koks, kamun katra no virsotnēm atbilst vienam vārdam.
6.6. Dalījums teikumos; 7.3. Neiederīgs vārds; 10. Sekundāra kļūda;
Atsevišķa konstrukcija – junkcija (fr. jonction) – paredzēta vienlīdzīgu teikuma locekļu attēlošanai, savukārt p. Par koka virsotnēm šeitajā modelī tiek uzskatīti nevis vārdi, bet nucleéus (fr.) – elementi, kas var būt vai nu viens vārds, vai ar aprakstītajām operācijām iegūts vairāku vārdu savienojums.
2.1. Vārdu pareizrakstība; 5.3. Pieturzīmes trūkums; 6.6. Dalījums teikumos; 7.1. Liekvārdība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds;
Pārtrauktām frāzēm frāzes struktūras gramatikā atbilst neprojektīvas šķautnes atkarību gramatikā. Atbilstoši (Pēc Nivre, Nilsson, (2005),: ja virsotņu (tekstvienību) pāri v un w savieno šķautne, tā ir neprojektīva (angl. non-projective) tad un tikai tad, ja kāda no tekstvienībām, kas teikumā atrodas starp v un w, nav nedz v, nedz w pēctecis.
1. Tehniskais noformējums; 5.1. Nepiemērota pieturzīme; 7.2. Mazvārdība; 7.3. Neiederīgs vārds;
Par neprojektīvu koku (pretstatā projektīvam, angl. projective) sauc tādu koku, kurā ir vismaz viena neprojektīva šķautne.
7.2. Mazvārdība;
SemTi-Kamola hibrīdais gramatikas modelisī tā sākotnējā izstrādes stadijā tika izmantojatas atkarības un x-vārdusi L. Tenjēra nucleéus līdzīgas konstrukcijas atsevišķu vārdu savienojumu attēlošanai (Nešpore et al., 2010). Šajā darbā hibrīdais gramatikas modelis ir būtiski papildināts un pilnveidots, lai novērstu trūkumus, kas tika apzināti korpusa marķēšanas gaitā.
1. Tehniskais noformējums; 6.5. Izteicēja izveide; 7.2. Mazvārdība; 10.1. Sekundāra: saistāmība;
Piemēram, prievārda konstrukcijas veido viens prievārds un viens nomens, un prievārds nosaka to, vai prievārds ir pirms nomena vai pēc – tādi prievārdi kā ap, uz, pār tiek lietoti pirms nomena, bet dēļ, labad – pēc nomena (lai gan ir atsevišķi prievārdi, kam valodas materiālā sastopami lietojumi abās pozīcijās – dēļ, pēc). Šāda x-vārdu izpratne precizē sākotnējā SemTi-Kamola modelī paredzēto x-vārdu ideju: lai gan sākotnējā SemTi-Kamola modelī x-vārdos bija iekļautas arī dažas citas konstrukcijas, piemēram, vienlīdzīgi teikuma locekļi un divdabja teicienu pamatelementi, tomēr sākotnējā SemTi-Kamola modeļa autori uzskatīja, ka visu pieturzīmju iekļaušana x-vārdos neatbilst plānoiecerētajai idejai. Ņemot vērā, ka lLatviešu valodā pieturzīmes ļauj spriest par gramatisko struktūru, tāpēc tika nolemts, ka sintaktiski marķētajā korpusā nepieciešams marķēt arī pieturzīmes, turklāt, ja tas ir iespējams, atainojot pieturzīmju likšanas motivāciju.
6.5. Izteicēja izveide; 6.6. Dalījums teikumos; 7.1. Liekvārdība; 7.3. Neiederīgs vārds;
Kā šīs problēmas atrisinājums tika radīts otrs frāzes veida konstrukciju tips – pieturzīmju konstrukcija. Šī konstrukcija satur pamatelementu – vārdu vai frāzi (visbiežāk vienu) vārdu vai frāzi – un pieturzīmes, kas teikumā lietotas šī pamatelementa dēļ.
6.4. Vārdu secība;
Pilnveidotajā LVTB modelī tiek lietots vēl viens frāzes veida konstrukciju tips: līdzīgi kā oriģinālajā L. Tenjēra atkarību gramatikā arī šeit tiek šķirta atsevišķa konstrukcija koordinētiem elementiem. Šī konstrukcija LVTB modelī tiek konsekventi lietota gan vienlīdzīgu teikuma locekļu attēlošanai, piemēram, zēns un meitene, gan vairāku neatkarienlīdzīgu teikuma daļu attēlošanai, piemēram, zēns ir mājās, bet meitene iet uz skolu, gan vienlīdzīgu palīgteikumu attēlošanai, piemēram, un zēns ir mājās, jo viņam šorīt bija iesnas un māte atļāva neiet uz skolu.
7.2. Mazvārdība; 7.3. Neiederīgs vārds;
Sakārtojuma konstrukcijas dažos aspektos strukturāli ir līdzīgas abiem augstāk aprakstītajiem frāžu tipiem, tomēr sakārtojuma konstrukciju struktūra nav tik striktingri fiksēta kā x-vārdu struktūra, un tās var saturēt arī pieturzīmes, ja tādas atdala vienlīdzīgos teikuma locekļus vai teikuma daļas.
7.3. Neiederīgs vārds;
Sakārtojuma konstrukcijāmu paveidi parāda, vai šādi marķētā konstrukcija ir vienlīdzīgi teikuma locekļi vai teikuma daļas.
6.1. Saistāmība;
Kā pamata rīku komplekts korpusa manuālajai apstrādei tiek lietots Prāgas Kārļa uUniversitātē izstrādātais TrEd toolkit (Hajič et al., 2001) un kopā ar to arī datu metaformāts Prague Markup Laguage (PML) (Pajas, Štěpánek, 2006). PML ir šīs rīku kopas vietējais (angl. native) datu formāts. Šāda izvēle tika izdarīta TrEd toolkit un PML plašās funkcionalitātes dēļ: (ir izstrādāts vizuālas rediģēšanas rīks TrEd, meklēšanas valoda kokveida struktūrām PML-TQ ar realizāciju (Štěpánek, Pajas, 2010), masveida apstrādes rīks bTrEd u.c., PML ir vietējais (native) datu formāts TrEd toolkit), kā arī tāpēc, ka tas Tie ir aprobētsi, marķējot vairākus korpusus, arī lielus – Prāgas aAtkarību korpusu (Prague Dependency Treebank, PDT) (Hajič et al., 2000), Prāgas aArābu valodas atkarību korpusu (Prague Arabic Dependency Treebank) (Hajič et al., 2004), Slovēņu valodas atkarību korpusu (Slovene Dependency Treebank) (Džeroski et al., 2006) u.c., un Prāgas Turklāt Kārļa uUniversitāte LINDAT/CLARIN iniciatīvas ietvaros piedāvā servisu šādu datu publicēšanais pakalpojumu.
2.3. Sākumburti; 6.4. Vārdu secība; 6.6. Dalījums teikumos; 7.1. Liekvārdība; 7.2. Mazvārdība;
Tāpat vērtīga ērtībai ir arī tas, ka PML standarts ļauj tekstam pievienoto marķējumu sadalīt vairākos līmeņos un katra līmeņa datus glabāt atsevišķā failā – tas ļauj vienā līmenī glabāt morfoloģisko marķējumu (vienas tekstvienības ietvaros) un citā – sintaktisko, tādējādi veidojot vienotu glabāšanas standartu gan morfoloģiski, gan sintaktiski marķētajiem korpusiem. Šādi veidotai struktūrai ir vieglāk pievienot jaunus marķējuma līmeņus, ja nākotnē rodas vēlme sintaktiski marķēto korpusu papildināt ar augstāka līmeņa marķējumu.
7.1. Liekvārdība; 10. Sekundāra kļūda;
Pēc analoģijas ar PDT arī topošā latviešu valodas sintaktiski marķētā korpusa marķējums tiek sadalīts trīs līmeņos – sadalījumams tekstvienībās, morfoloģiskajamis marķējumams un sintaktiskajamis marķējumams.
3. Vārddarināšana; 4. Formveidošana; 6.1. Saistāmība;
Tekstvienību un morfoloģiskā marķējuma līmeņi veidoti maksimāli tuvi PDT atbilstošajiem līmeņiem, pārņemot aprobētasu praksesi un nodrošinot vieglāku saprotamību pētniekiem, kas strādājuši ar PDT.
4.1. Lietvārds;
Pielāgojot to Latviešu valodas sintaktiski marķētā korpusaVTB vajadzībām, tas papildināts ar frāzes tipa konstrukcijām un tukšām virsotnēm (virsotnēm bez atbilstības ar kādu tekstvienību; PDT tādu nav) vārdu izlaidumu (redukciju, angl. ellipsis) attēlošanai.
7.3. Neiederīgs vārds;
Lai adekvšo formātiu varētu šo formadekvātui izmantot, tā īpatnības tika nodefinētas PML Schema standartam atbilstošās PML shēmās un tika radīts arī paplašinājuma modulis grafiskajamā redaktoram TrEd paplašinājuma modulis (Pretkalniņa et al., 2011b).
3. Vārddarināšana; 6.1. Saistāmība; 6.4. Vārdu secība;
Papildus tika izveidota XSL (Extensible Stylesheet Language) transformācija, kas ļauj korpusa datus pārveidot Tiger XML formātā (Mengel, Lezius, 2000), ko izmanto Štutgartes uUniversitātes izstrādātais TigerSearch un citi rīki.
2.3. Sākumburti;