Meklēšana

Par korpusu Meklēšana Kļūdu tipu statistika Kļūdu kombināciju statistika
Atrasts/-i 8265 vienumi
Papildus igauņu un angļu valodai, Igaunijā ir iespējams saņemt pirmās pakāpes augstāko izglītību tikai vai daļēji krievu valodā, taču krievu valodas loma Igaunijas augstākajā izglītībā pēdējo 20 gadu laikā ir strauji samazinājusies.
5.2. Lieka pieturzīme;
Igauņu valodas attīstīšanbas plāns 2011–2017 [Eesti keele arengukava 2011–2017].
3. Vārddarināšana;
Baiba Saulīte Ir trīspadsmitais datums, un es atkal jūku prātā. Baiba Saulīte Ievads Lai arī raksta nosaukums varbūt šķiet intriģējošs, šī nebūs eseja par valodnieka domām trīspadsmitajā datumā, kas ir tieši dienu pirms raksta par kaut ko mistisku” iesniegšanas termiņa jau iecienītā rakstu krājuma Valodas prakse: vērojumi un ieteikumi” 13. numuram.
1. Tehniskais noformējums; 6.4. Vārdu secība; 7.2. Mazvārdība;
Te netiks arī uzskaitīts, kuru jomu pārstāvji no skaitļa trīspadsmit baidās visvairāk, bet tiks analizēts, ko par t. s. nelaimīgo skaitli trīspadsmit varam spriest, aplūkojot apmēram trīspadsmit LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijas (MIL) lolotās valodas krātuves.
1. Tehniskais noformējums;
Raksta nosaukumā patiesībā izmantots citāts no Hermaņa Paukša lugas Sieviete bārā”, un tieši šis teikums, kas, šķiet, iemieso ko patiešām noslēpumainu, atras un maģisku, iekļauts vairākos MIL veidotajos valodas resursos, tāpēc rakstā tiks atkārtots.
1. Tehniskais noformējums; 7.2. Mazvārdība; 7.3. Neiederīgs vārds;
Dažādos izdevuma „Valodas prakse: vērojumi un ieteikumi” krājumos gan jau ir bijušas publikācijas, kurās popularizēti vai pētījumiem izmantoti MIL veidotie resursi (piem.ēram, Andronova, Andronovs 2011; Auziņa, Darģis 2017,4; Auziņa, Darģis 20147). Šoreiz, izmantojot iespēju meklēt konkrētu leksēmu, īsi raksturotas visas MIL galvenās valodas krātuves – populārākās vārdnīcas, dažādi tekstu korpusi, runas korpusi, kā arī parādītas plašās iespējas, ko tie var sniegt dažādu nozaru speciālistiem.
2.2. Saīsinājuma izveide; 7.1. Liekvārdība; 7.2. Mazvārdība; 8. Tekstveide;
Lai ierobežotu aplūkojamo piemēruvalodas materiāla apjomu, aplūkoti tikai gadījumi, kur nelaimīgais skaitlis pierakstīapzīmēts ar vārdu, nevis ar skaitlicipariem. Šķiet, gandrīz visos MIL izstrādātajos resursos sastopams skaitlis trīspadsmit, bet diemžēlizvērsti netiks aplūkotas pilnīgi visas valodas krātuves.
7.3. Neiederīgs vārds;
Piemēram, Latviešu valodas seno tekstu korpusā” (http://www.korpuss.lv/senie/), meklējot vārdlietojumu 13, varam redzēt, ka tas sastopams galvenokārt rindu numerācijā un 16.–18. gadsimta tekstos neparādās īpaša valodas lietotāju attieksme pret šo skaitli.
1. Tehniskais noformējums;
Viens no galvenajiem Tēzaura” mērķiem ir apkopot visus vārdus, kas sastopami latviešu valodas tekstos, tādēļ vārdnīcas izveidē līdz šim izmantoti gandrīz 300 dažādui avotui (pilns avotu saraksts: http://tezaurs.lv/#/avoti), bet vārdnīcas primārais avots sākotnēji ir bijis Latviešu literārās valodas vārdnīca” (LLVV), kuras oriģināls pieejams arī elektroniski (http://www.tezaurs.lv/llvv/).
1. Tehniskais noformējums; 6.1. Saistāmība;
Jāpiebilst, ka Tēzaurā” nav ievietoti piemēri no oriģinālajiem avotiem, bet automātiski tiek piedāvāti piemēri no Līdzsvarotā mūsdienu latviešu valodas korpusa” (LVK2013), ja konkrētais vārds korpusā parādās.
1. Tehniskais noformējums;
Veidojot šo rakstu, Tēzaurāatika izmantota iespējdatos, kas aprakstīti JSON formātā, tika apskatīti gan šķirkļavārdusi, gan arī šķirkļusi, kuros kā vārds vai vārda daļa ietverts saliktenis trīspadsmit, piemēram, meklējot savienojumu trīspadsmit, tiek atrasti vārdi trīspadsmitais (sk. 1. att), divtrīspadsmit, trīspadsmits. 1. attēls.
1. Tehniskais noformējums; 7.3. Neiederīgs vārds; 8. Tekstveide; 10.1. Sekundāra: saistāmība;
Te nu arī gaidītā pārdabiskā parādība: nelokāms vārds, kam ir, protams, no formālās analīzes viedokļa, nevis valodas lietotāja ieskatā, atradies kas pārdabisks: nelokāms vārds locījumā, jo „atsevišķos gadījumos nelokāmie skaitļa vārdi var iegūt arī locījumas formas (LLVV ierobežojis, ka tikai datīvSmiltniece 2013, 424). LLVV norādīts, ka iespējams tikai datīvs, instrumentālis un lokatīvs, bet MLVV nav minētas konkrētāas iespējamās locījumu formas, tāpēc šajā rakstā tās. Tas automātiskās locīšanas sistēmai ļauj pieņemt, ka iespējamas visas locījumu formas daudzskaitlī (mākslīgi ģenerētaās unformas apzīmētas ar *): nom. trīspadsmit: ģen. trīspadsmitu*, dat. trīspadsmitiem, akuz. trīspadsmitus*, lok. trīspadsmitos. It kā nekas briesmīgs, “Lai nenobiedētu „Tēzaurāaatrastas arī citas parādības, kas neiekļaujas vai ir grūti iekļaujamas sistēmā. Tomēr šajā gadījumā arī MIL datorlingvistiem tekstu morfoloģiskās marķēšanas vajadzībām nav izdevies sakārtot ‘pulksteņa laika momenta’ no divpadsmitiem līdz divdesmitiem paradigmu, un nav skaidrs, kāda irlietotājus, ‘pulksteņa laika momenta no divpadsmitiem līdz divdesmitiem’ apzīmētājiem nav dota automātiskā locīšanas tabula. Tomēr problēma paliek – pagaidām MIL datorlingvistiem nav izdevies atrast labāko risinājumu, lai morfoloģiskās marķēšanas vajadzībām (sk. nodaļu „Tekstu korpusi”) aprakstītu, piemēram, vārdformas trīspadsmitos pamatformau un morfoloģiskās pazīmes.
8. Tekstveide;
Ja pārlūko pašu šķirkļu saturu, var apskatītrast gan mūzikas (tercdecima ‘intervāls, kas aptver 13 pakāpes (oktāva + seksta)’), gan literatūrzinātnes (rondele ‘dzejas forma, kurā ir trīspadsmit vai četrpadsmit rindas trijos pantos un divas atskaņas’), gan reliģijas (barmicva, barmicvahs ‘ceremonija, kurā ebreju zēni trīspadsmit gadu vecumā pieņem jūdaisma baušļus un pēc kuras tiek atzīti par pilntiesīgiem kopienas locekļiem’) terminus, kuru skaidrojumā minēts skaitļa vārds trīspadsmit.
7.2. Mazvārdība; 7.3. Neiederīgs vārds;
TāpaSavukārt frazeoloģismu vidū stabili turas velna ducis (ducis fraz. velna ducis ‘trīspadsmit (māņticīgo uztverē – nelaimīgs skaitlis)’ avots – LLVV).
7.1. Liekvārdība; 7.3. Neiederīgs vārds;
BetTomēr visiespaidīgāk liekaizklausās, ja ‘slimīgas bailes no skaitļa trīspadsmit’ nosauc vienā vārdā – triskaidekafobija. T, un arī šo vārdu var atrast „Tēzaurā”. Trīspadsmit tekstu korpusios Valodas izpēte un dažādu valodas tehnoloģiju rīku izpētveide nav iedomājama bez dažādiem valodas korpusiem.
7.1. Liekvārdība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;
MIL ciešā sadarbībā ar citām iestādēm ir izstrādāti vairāki specializēti un vispārīgi korpusi, šeit aprakstīts Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss” (LVK2013), Saeimas debašu korpuss” (Saeimas korpuss), Mūsdienu latgaliešu tekstu korpuss” (MuLa) un Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpuss” (LiLa).
1. Tehniskais noformējums;
Tas ir apmēram 4,5 miljonus vārdlietojumu liels vispārīgs automātiski morfoloģiski marķēts korpuss, tātad katrai tekstvienībai ir pievienota morfoloģiskā informācija, piemēram, vārdformas trīspadsmitais pazīmju kopā mosmsn katrs burts norāda uz kādu pazīmi: m – skaitļa vārds, o – kārtas, s – vienkāršs, m – vīriešu dzimte, s – vienskaitlis, n – nominatīvs.
1. Tehniskais noformējums;
LVK2013 versijā skaitliļa vārds trīspadsmit galvenokārt lietots vecuma vai skaita nosaukšanai bez nelaimīgas” papildinformācijas.
1. Tehniskais noformējums; 5.1. Nepiemērota pieturzīme; 7.3. Neiederīgs vārds;
Tomēr gan publicistikā, gan daiļliteratūrā sastopami arī izteikumi, kas rosina uz domām, ka trīspadsmit nevar būt nekas pozitīvs, piemēram: Darba meklētāju īpatsvars ir ap 7,5 līdz 8 % no darbspējīgiem iedzīvotājiem, tātad apmēram katrs trīspadsmitais (velna ducis!) ir bez darba. (LVK2013) Kas šodien par traku dienu?
1. Tehniskais noformējums;
Trīspadsmitais vēl tikai pēc nedēļas [..]. (LVK2013) Šobrīd pProjektā Daudzslāņu valodas resursu kopa teksta semantiskai analīzei un sintēzei latviešu valodā” (Nr. 1.1.1.1/16/A/219) tiek veidota jauna Līdzsvarotā mūsdienu latviešu valodas tekstu korpusa” versija (LVK2018), kurā būs 10 miljoni vārdlietojumu ar precīzāku automātisko morfoloģisko marķējumu un uz kuru balstīti visi pārējie projektā izstrādājamie valodas resursi, piemēram, Sintaktiski marķēts latviešu valodas tekstu korpuss” (Pretkalniņa et al., 2011; Pretkalnina et al. 2016). Šajā korpusā plānots ievietot 10 000 sintaktiski marķētu teikumu, kuru struktūra attēlota kā atkarību koks, kuršas papildināts ar dažādām frāžu veida konstrukcijām. Šī rRaksta tapšanas brīdī nomarķētajā apjomā var atrast tikai divus piemērus, kur lietots vārds trīspadsmit, un tajā šī raksta virsraksta piemērs izskatās tā: 2. attēls. Teikuma Ir trīspadsmitais datums, un es atkal jūku prātā sintaktiskais marķējums Saeimas korpuss (http://saeima.korpuss.lv/ vai http://nosketch.korpuss.lv/) izstrādāts sadarbībā ar Rīgas Stradiņa universitāti, un tajā ievietotas Saeimas stenogrammas, sākot no 5.
1. Tehniskais noformējums; 2.3. Sākumburti; 5.3. Pieturzīmes trūkums; 7.1. Liekvārdība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 10.4. Sekundāra: sākumburti;