Meklēšana

Par korpusu Meklēšana Kļūdu tipu statistika Kļūdu kombināciju statistika
Atrasts/-i 3548 vienumi
Lomu precizitāte (angl. label accuracy, LA) norāda, kādai daļai tekstvienību norādītā loma (kā atkarības atkarīgajam elementam) sakrīt ar doto standartu, piemēram, cilvēka marķēto.
7.2. Mazvārdība;
Ja nav norādīts citādi, darba ietvaros metriku vērtības šajā darbā tiek dotas procentos.
6.4. Vārdu secība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds;
Datu transformācijas Lai izmantotu Latviešu valodas sintaktiski marķētā korpusaVTB datus MaltParser apmācībai, tosmarķējumu bija nepieciešams transformēt gan uz atkarību formālismu, ganpārveidot: gan no hibrīdā sintakses modeļa uz atkarību modeli, gan no PML XML formāta uz CoNLL tabulāro datu formātu. Šai vajadzībai radītie rīki pieejami tiešsaistē. Šajā nosadaļā galvenā uzmanība tiks veltīta transformācijām no LVTB gramatikas modeļa marķējuma uz atkarību marķējumu (Pretkalniņa, Rituma, 2014), jo datu formāta transformācijas ir relatīvi vienkāršas – nepieciešams no PML XML failiem izgūst atbilstošosnepieciešamie laukusi un tie jāpierakstīta tabulārā formātā atbilstoši CoNLL formāta prasībām.
6.5. Izteicēja izveide; 7.1. Liekvārdība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;
Lai pārveidotu korpusa marķējumu no LVTB gramatikas modeļa uz atkarību gramatiku, pietiek definēt, kā pārveidojamas šīs LVTB modeļa pamata konstrukcijas: atkarību attieksmes starp tekstvienībām; atkarību attieksmes, kurās vecāks un/vai bērns ir frāzes tipa konstrukcija; frāzes tipa konstrukcijas.
7.1. Liekvārdība; 7.2. Mazvārdība;
Balansējot informācijas zaudējumus ar lomu komplekta sarežģītību, tiek izveidota šāda lomu kodēšanas sistēma: atkarību šķautņu marķējums tiek papildināts ar prefiksu, kas norāda, vai atkarības neatkarīgais elements oriģinālajā marķējumā ir atkarīgs no tekstvienības (prefikss dep) vai no frāzes tipa konstrukcijas (prefikss phdep); elementam, kas kļūst par frāzes tipa konstrukcijas attēlojošā apakškoka sakni, tiek veidota salikta loma, kas sastāv no: prefiksa, kas norāda, vai attiecīgā konstrukcija oriģinālajā marķējumā ir atkarīga no tekstvienības (prefikss dep) vai no frāzes tipa konstrukcijas (prefikss phdep), un atkarību lomas, kas frāzes tipa konstrukcijai piešķirta oriģinālajā marķējumā; frāzes tipa un elementa lomas frāzē (šī lomas daļa netiek iekļauta gadījumos, ja šim elementam loma, kas izveidojas 1. punktā, ir sintaktiski pieļaujama, arī elementam esot ārpus frāzes); pārējās frāzes sastāvdaļas tiek marķētas ar saliktu lomu, kas sastāv no frāzes tipa un elementa lomas frāzē; informācija par tukšajām virsotnēm, kas attēlo vārdu izlaidumus, tiek atmesta.
7.1. Liekvārdība; 10.1. Sekundāra: saistāmība;
Vienlīdzīgi teikuma locekļi un teikuma daļas (sintaktiski marķētajā korpusā visi sakārtojuma konstrukciju paveidi).
5.3. Pieturzīmes trūkums;
Frāzes veida konstrukcijas, kuru mērķis ir piesaistīt kokam interpunkcijas zīmes (sintaktiski marķētajā korpusā visi pieturzīmju konstrukciju paveidi), piemēram: palīgteikuma pieturzīmju konstrukcijas, iespraudumu un iestarpinājumu pieturzīmju konstrukcijas, uzrunas pieturzīmju konstrukcijas, un citas. Šīm konstrukcijām tika izveidotas transformāciju alternatīvas, lai tālāk pētītu izvēļu ietekmi uz parsētāju izveidi un lietojamību.
5.3. Pieturzīmes trūkums; 7.1. Liekvārdība;
Salikto izteicēju transformācijas Katrā saliktā izteicējaā ir viens pamatelements (korpusā loma basElem), kas apzīmē semantiski galveno elementu, un viens vai vairāki palīgdarbības vārdi (korpusā loma auxVerb) un/vai modificētāji (korpusā loma mod).
6.1. Saistāmība;
Sakārtojuma konstrukciju attēlojums plaši variē dažādos atkarību korpusos, atšķiroties gan pamata lēmumos, gan niansēs. (Popel et al., (2013) piedāvā sakārtojuma konstrukciju attēlojumu iedalīt trijās saimēs atkarībā no koordinēto elementu konfigurācijas: Prāgas saime – visi koordinētie elementi visi ir bērni kādam no atdalošajiem saikļiem vai pieturzīmēm, Maskavas saime – koordinētie elementi veido atkarību virkni, Stenfordas saime – pārējie koordinētie elementi ir pakārtoti pirmajam vai pēdējam koordinētajam elementam.
1. Tehniskais noformējums; 6.4. Vārdu secība;
Tādējādi ir iespējams iegūt 16 dažādas transformācijas, ko izmantot sintaktiski marķētā korpusa datu pārveidošanai, lai tos tālāk padarītu izmantojamus atkarību parsētāja apmācībai. ŠIzmantojot šīs transformācijas pielietojot, tiek iegūti 16 korpusa varianti, kuros tie paši teksti marķēti dažādos veidos.
6.4. Vārdu secība; 7.3. Neiederīgs vārds; 10.4. Sekundāra: sākumburti;
Taču, lai noskaidrotu iegūto korpusa variantu savstarpējās priekšrocības, bija nepieciešami praktiski eksperimenti, jo nebija pietiekamu teorētisko lingvistikassko apsvērumu, kas dotu skaidru atbildi.
3. Vārddarināšana; 6.1. Saistāmība;
Eksperimenti tika veikti, gan izmantojot gan korpusā esošo manuāli veidoto morfoloģisko marķējumu, gan izmantojot automātiski veidotu morfoloģisko marķējumu.
6.4. Vārdu secība; 7.1. Liekvārdība;
Salīdzinošajos eksperimentos uzsvars likts uz automātiski veidota morfoloģiskā marķējuma izmantošanaiu, jo tas labāk atbilst parsētāja iespējamajiem lietojumiem – manuāla morfoloģiskā marķēšana irprasa laikau un cilvēkresursus prasoša, tāpēc parsētājus visplašāk lieto tekstam ar automātiski iegūtu morfoloģisko marķējumu.
6.1. Saistāmība; 6.5. Izteicēja izveide; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;
Parsētāju iekšējā novērtēšana (angl. intrinsic evaluation) tika veikta, salīdzinot parsēšanas precizitāti fiksētām testa datu kopām un atsevišķām konstrukcijām tajās. Ārējais novērtējums Lai gan sintaktiskam parsētājam ir plaši lietojumi lingvistikas pētījumu sagatavošanā un datu indeksācijā, tomēr plašākais parsētāju lietojums ir saistāms ar integrēšanu dažādās rīku sistēmās, kurās sintaktiskās analīzes rezultāti tiek izmantoti kā ieejas dati citiem rīkiem.
7.2. Mazvārdība;
Tāpēc ir būtiski izvērtēt ne tikai to, kā sintaktiskā reprezentācija ietekmē parsēšanas precizitāti, bet arī to, kā tā ietekmē parsēšanas rezultātus izmantojošo rīku precizito rīku precizitāti, kas izmanto parsēšanas rezultātius. Šai vajadzībai tika veikti detalizēti eksperimenti ar 16 aprakstītajām transformācijām un ar trim latviešu valodai izveidotiem rīkiem, kas darbojas dažādos semantiskās analīzes aspektos: semantisko lomu marķētāju, koreferenču risinātāju un nosaukumto entitāšu atpazinēju.
6.4. Vārdu secība; 7.2. Mazvārdība;
Piemēram, ja teikumā Uzņēmums Laima” iegādājies ražošanas tehniku 30 tūkst. eiro apjomā nepieciešams veikt šādušādi jāmarķē semantiskoās lomu marķēšanuas, tad vispirms var atrast, ka vārds iegādājies izsauc pirkšanas/pārdošanas situāciju, un pēc tam – ka pirkšanas/pārdošanas situācijai ir pieļaujams elements pircējs (piemērā – uzņēmums Laima”), un elements pirkums (ražošanas tehnika).
1. Tehniskais noformējums; 6.5. Izteicēja izveide;
Koreferenču risināšanā kā pazīmes tiek izmantotas atkarību struktūras īpatnības. Nosaukumto entitāšu atpazīšana (angl. named entity recognition) (piem., Paikens et al., 2012; Znotins, Paikens, 2014) ir semantiskās analīzes uzdevums, kas risināms gan teikuma, gan teksta ietvaros. Šī uzdevuma mērķis ir identificēt vietvārdus, personu vārdus, uzņēmumu nosaukumus un cituas nosaukumus (tās entitātes (angl. named entity), kas iekļautias attiecīgās sistēmas tvērumā. Nosaukumto entitāšu atpazīšana latviešu valodai pamatā izmanto šablonus un nosaukumu sarakstus, taču eksperimentu vajadzībām tā tika papildināta ar sintaktisko pazīmju lietojumu – atkarību lomām un atsevišķām atkarību struktūras īpatnībām (piemēram, apskatāmajai virsotnei tuvākais senpriekštecis atkarību kokā, kurš ir lietvārds).
7.2. Mazvārdība; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;
Aplūkojot dažādovairāku semantikas rīku rezultātus, tika secināts, ka dažādiem semantikas uzdevumiem piemērotākieās atkarību formālismireprezentācijas var atšķirties:. Nosaukumto entitāšu atpazīšanai sintaktisko pazīmju izmantošana nedeva manāmu rezultātu precizitātes uzlabojumu, tāpēc ir iespējams to lietot rīku ķēdēsplūsmās (angl. pipeline) pat pirms parsētāja.
5.1. Nepiemērota pieturzīme; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;
Semantisko lomu atpazīšanas uzdevumam sintaktiskās informācijas izmantošana deva būtisku uzlabojumu otrajā solī, t.i., meklējot situācijas lomaelementus – šeit labākos rezultātus deva parsētājs ar coordROW_NO_CONJ vienlīdzīgo teikuma locekļu atveidojumu.
7.3. Neiederīgs vārds;
Tādeējādi, lai iegūtu tā brīža resursiem optimālus semantisko rīku darbības rezultātus, nepietika izvēlēties parsētāju ar augstākajiem precizitātes rādītājiem, pat tad, ja precizitātes rādītāji atšķirāas par vairāk nekā 5pieciem procentpunktiem (~10%).
1. Tehniskais noformējums; 2.1. Vārdu pareizrakstība; 4. Formveidošana; 5.2. Lieka pieturzīme;