Norma

Meklēšana

Par korpusu Meklēšana Kļūdu tipu statistika Kļūdu kombināciju statistika

Ekskluzīvi

Atrasts/-i 9833 vienumi

Datu transformācijas Lai izmantotu L~~atviešu valodas sintaktiski marķētā korpusa~~VTB datus MaltParser apmācībai, ~~tos~~marķējumu bija nepieciešams ~~transformēt gan uz atkarību formālismu, gan~~pārveidot: gan no hibrīdā sintakses modeļa uz atkarību modeli, gan no PML XML formāta uz CoNLL tabulāro datu formātu. Šai vajadzībai radītie rīki pieejami tiešsaistē. Šajā nosadaļā galvenā uzmanība tiks veltīta transformācijām no LVTB ~~gramatikas~~ modeļa marķējuma uz atkarību marķējumu (Pretkalniņa, Rituma, 2014), jo datu formāta transformācijas ir relatīvi vienkāršas – ~~nepieciešams~~ no PML XML failiem jāizgūst ~~atbilstošos~~nepieciešamie laukusi un tie jāpierakstīta tabulārā formātā atbilstoši CoNLL formāta prasībām.
6.5. Izteicēja izveide; 7.1. Liekvārdība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;

Lai pārveidotu korpusa marķējumu ~~no LVTB gramatikas modeļa uz atkarību gramatiku~~, pietiek definēt, kā pārveidojamas šīs LVTB modeļa pamata konstrukcijas: atkarību attieksmes starp tekstvienībām; atkarību attieksmes, kurās vecāks un/vai bērns ir frāzes tipa konstrukcija; frāzes tipa konstrukcijas.
7.1. Liekvārdība; 7.2. Mazvārdība;

Balansējot informācijas zaudējumus ar lomu komplekta sarežģītību, tiek izveidota šāda lomu kodēšanas sistēma: atkarību šķautņu marķējums tiek papildināts ar prefiksu, kas norāda, vai atkarības neatkarīgais elements oriģinālajā marķējumā ir ~~atkarīgs no~~ tekstvienības (prefikss dep) vai no frāzes tipa konstrukcijas (prefikss phdep); elementam, kas kļūst par frāzes tipa konstrukcijas attēlojošā apakškoka sakni, tiek veidota salikta loma, kas sastāv no: prefiksa, kas norāda, vai attiecīgā konstrukcija oriģinālajā marķējumā ir atkarīga no tekstvienības (prefikss dep) vai no frāzes tipa konstrukcijas (prefikss phdep), un atkarību lomas, kas frāzes tipa konstrukcijai piešķirta oriģinālajā marķējumā; frāzes tipa un elementa lomas frāzē (šī lomas daļa netiek iekļauta gadījumos, ja šim elementam loma, kas izveidojas 1. punktā, ir sintaktiski pieļaujama, arī elementam esot ārpus frāzes); pārējās frāzes sastāvdaļas tiek marķētas ar saliktu lomu, kas sastāv no frāzes tipa un elementa lomas frāzē; informācija par tukšajām virsotnēm, kas attēlo vārdu izlaidumus, tiek atmesta.
7.1. Liekvārdība; 10.1. Sekundāra: saistāmība;

Vienlīdzīgi teikuma locekļi un teikuma daļas (sintaktiski marķētajā korpusā – visi sakārtojuma konstrukciju paveidi).
5.3. Pieturzīmes trūkums;

Frāzes veida konstrukcijas, kuru mērķis ir piesaistīt kokam interpunkcijas zīmes (sintaktiski marķētajā korpusā – visi pieturzīmju konstrukciju paveidi), piemēram: palīgteikuma pieturzīmju konstrukcijas, iespraudumu un iestarpinājumu pieturzīmju konstrukcijas, uzrunas pieturzīmju konstrukcijas~~, un citas~~. Šīm konstrukcijām tika izveidotas transformāciju alternatīvas, lai tālāk pētītu izvēļu ietekmi uz parsētāju izveidi un lietojamību.
5.3. Pieturzīmes trūkums; 7.1. Liekvārdība;

Salikto izteicēju transformācijas Katrā saliktā izteicējaā ir viens pamatelements (korpusā loma basElem), kas apzīmē semantiski galveno elementu, un viens vai vairāki palīgdarbības vārdi (korpusā loma auxVerb) un/vai modificētāji (korpusā loma mod).
6.1. Saistāmība;

Sakārtojuma konstrukciju attēlojums plaši variē dažādos atkarību korpusos, atšķiroties gan pamata lēmumos, gan niansēs. (Popel et al., (2013) piedāvā sakārtojuma konstrukciju attēlojumu iedalīt trijās saimēs atkarībā no koordinēto elementu konfigurācijas: Prāgas saime – visi koordinētie elementi ~~visi~~ ir bērni kādam no atdalošajiem saikļiem vai pieturzīmēm, Maskavas saime – koordinētie elementi veido atkarību virkni, Stenfordas saime – pārējie koordinētie elementi ir pakārtoti pirmajam vai pēdējam koordinētajam elementam.
1. Tehniskais noformējums; 6.4. Vārdu secība;

Tādējādi ir iespējams iegūt 16 dažādas transformācijas, ko izmantot sintaktiski marķētā korpusa datu pārveidošanai, lai tos tālāk padarītu izmantojamus atkarību parsētāja apmācībai. ŠIzmantojot šīs transformācijas ~~pielietojot~~, tiek iegūti 16 korpusa varianti, kuros tie paši teksti marķēti dažādos veidos.
6.4. Vārdu secība; 7.3. Neiederīgs vārds; 10.4. Sekundāra: sākumburti;

Taču, lai noskaidrotu iegūto korpusa variantu savstarpējās priekšrocības, bija nepieciešami praktiski eksperimenti, jo nebija pietiekamu teorētisko lingvisti~~kas~~sko apsvērumu, kas dotu skaidru atbildi.
3. Vārddarināšana;

Eksperimenti tika veikti, ~~gan~~ izmantojot gan korpusā esošo manuāli veidoto morfoloģisko marķējumu, gan ~~izmantojot~~ automātiski veidotu morfoloģisko marķējumu.
6.4. Vārdu secība; 7.1. Liekvārdība;

Salīdzinošajos eksperimentos uzsvars likts uz automātiski veidota morfoloģiskā marķējuma izmantošanaiu, jo tas labāk atbilst parsētāja iespējamajiem lietojumiem – manuāla morfoloģiskā marķēšana irprasa laikau un cilvēkresursus ~~prasoša~~, tāpēc parsētājus visplašāk lieto tekstam ar automātiski iegūtu morfoloģisko marķējumu.
6.1. Saistāmība; 6.5. Izteicēja izveide; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;

Parsētāju iekšējā novērtēšana (angl. intrinsic evaluation) tika veikta, salīdzinot parsēšanas precizitāti fiksētām testa datu kopām un atsevišķām konstrukcijām tajās. Ārējais novērtējums Lai gan sintaktiskam parsētājam ir plaši lietojumi lingvistikas pētījumu sagatavošanā un datu indeksācijā, tomēr plašākais parsētāju lietojums ir saistāms ar integrēšanu dažādās rīku sistēmās, kurās sintaktiskās analīzes rezultāti tiek izmantoti kā ieejas dati citiem rīkiem.
7.2. Mazvārdība;

Tāpēc ir būtiski izvērtēt ne tikai to, kā sintaktiskā reprezentācija ietekmē parsēšanas precizitāti, bet arī to, kā tā ietekmē ~~parsēšanas rezultātus izmantojošo rīku precizi~~to rīku precizitāti, kas izmanto parsēšanas rezultātius. Šai vajadzībai tika veikti detalizēti eksperimenti ar 16 aprakstītajām transformācijām un ar trim latviešu valodai izveidotiem rīkiem, kas darbojas dažādos semantiskās analīzes aspektos: semantisko lomu marķētāju, koreferenču risinātāju un nosaukumto entitāšu atpazinēju.
6.4. Vārdu secība; 7.2. Mazvārdība;

Piemēram, ja teikumā Uzņēmums „“Laima” iegādājies ražošanas tehniku 30 tūkst. eiro apjomā ~~nepieciešams veikt šādu~~šādi jāmarķē semantiskoās lom~~u marķēšanu~~as, tad vispirms var atrast, ka vārds iegādājies izsauc pirkšanas/pārdošanas situāciju, un pēc tam – ka pirkšanas/pārdošanas situācijai ir pieļaujams elements pircējs (piemērā – uzņēmums „“Laima”), un elements pirkums (ražošanas tehnika).
1. Tehniskais noformējums; 6.5. Izteicēja izveide;

Koreferenču risināšanā kā pazīmes tiek izmantotas atkarību struktūras īpatnības. Nosaukumto entitāšu atpazīšana (angl. named entity recognition) (piem., Paikens et al., 2012; Znotins, Paikens, 2014) ir semantiskās analīzes uzdevums, kas risināms gan teikuma, gan teksta ietvaros. Šī uzdevuma mērķis ir identificēt vietvārdus, personu vārdus, uzņēmumu nosaukumus un cituas nosauk~~umus (~~tās entitātes (angl. named entity), kas iekļautias attiecīgās sistēmas tvērumā. Nosaukumto entitāšu atpazīšana latviešu valodai pamatā izmanto šablonus un nosaukumu sarakstus, taču eksperimentu vajadzībām tā tika papildināta ar sintaktisko pazīmju lietojumu – atkarību lomām un atsevišķām atkarību struktūras īpatnībām (piemēram, apskatāmajai virsotnei tuvākais ~~sen~~priekštecis atkarību kokā, kurš ir lietvārds).
7.2. Mazvārdība; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;

Aplūkojot ~~dažādo~~vairāku semantikas rīku rezultātus, tika secināts, ka dažādiem semantikas uzdevumiem piemērotākieās atkarību ~~formālismi~~reprezentācijas var atšķirties:. Nosaukumto entitāšu atpazīšanai sintaktisko pazīmju izmantošana nedeva manāmu rezultātu precizitātes uzlabojumu, tāpēc ir iespējams to lietot rīk~~u ķēdēs~~plūsmās (angl. pipeline) pat pirms parsētāja.
5.1. Nepiemērota pieturzīme; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;

Semantisko lomu atpazīšanas uzdevumam sintaktiskās informācijas izmantošana deva būtisku uzlabojumu otrajā solī, t.i., meklējot situācijas ~~loma~~elementus – šeit labākos rezultātus deva parsētājs ar coordROW_NO_CONJ vienlīdzīgo teikuma locekļu atveidojumu.
7.3. Neiederīgs vārds;

Tādeējādi, lai iegūtu tā brīža resursiem optimālus semantisko rīku darbības rezultātus, nepietika izvēlēties parsētāju ar augstākajiem precizitātes rādītājiem, pat tad, ja precizitātes rādītāji atšķirāas par vairāk nekā 5pieciem procentpunktiem (~10%).
1. Tehniskais noformējums; 2.1. Vārdu pareizrakstība; 4.2. Darbības vārds; 5.2. Lieka pieturzīme;

Taijā patšā laikā jāņem vērā, ka rezultāti tika gūti no neliela datu korpusa un apmācības gaitā bija vērojamas lielas rezultātu svārstības – lai gan tie attiecīgajā pētījuma posmā sniedza būtisku ieskatu tālākajai pētījuma attīstībai, nav droši no tiem izdarīt secinājumus par lieliem korpusiem un citām parsēšanas metodēm.
7.3. Neiederīgs vārds;

Par frāzes sastāvdaļu tiek uzskatīta: tekstvienība, kas hibrīdajā marķējumā ir marķētsa kā frāzes sastāvdaļa, tekstvienība, kas tad, ja frāzes sastāvdaļa pati ir frāze, pēc transformācijas uz atkarību reprezentāciju kļūst par apakšfrāzi reprezentējošā apakškoka sakni.
6.1. Saistāmība;