Meklēšana

Par korpusu Meklēšana Kļūdu tipu statistika Kļūdu kombināciju statistika
Atrasts/-i 5214 vienumi
Baiba Saulīte Ir trīspadsmitais datums, un es atkal jūku prātā. Baiba Saulīte Ievads Lai arī raksta nosaukums varbūt šķiet intriģējošs, šī nebūs eseja par valodnieka domām trīspadsmitajā datumā, kas ir tieši dienu pirms raksta par kaut ko mistisku” iesniegšanas termiņa jau iecienītā rakstu krājuma Valodas prakse: vērojumi un ieteikumi” 13. numuram.
1. Tehniskais noformējums; 6.4. Vārdu secība; 7.2. Mazvārdība;
Te netiks arī uzskaitīts, kuru jomu pārstāvji no skaitļa trīspadsmit baidās visvairāk, bet tiks analizēts, ko par t. s. nelaimīgo skaitli trīspadsmit varam spriest, aplūkojot apmēram trīspadsmit LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijas (MIL) lolotās valodas krātuves.
1. Tehniskais noformējums;
Dažādos izdevuma „Valodas prakse: vērojumi un ieteikumi” krājumos gan jau ir bijušas publikācijas, kurās popularizēti vai pētījumiem izmantoti MIL veidotie resursi (piem.ēram, Andronova, Andronovs 2011; Auziņa, Darģis 2017,4; Auziņa, Darģis 20147). Šoreiz, izmantojot iespēju meklēt konkrētu leksēmu, īsi raksturotas visas MIL galvenās valodas krātuves – populārākās vārdnīcas, dažādi tekstu korpusi, runas korpusi, kā arī parādītas plašās iespējas, ko tie var sniegt dažādu nozaru speciālistiem.
2.2. Saīsinājuma izveide; 7.1. Liekvārdība; 7.2. Mazvārdība; 8. Tekstveide;
Lai ierobežotu aplūkojamo piemēruvalodas materiāla apjomu, aplūkoti tikai gadījumi, kur nelaimīgais skaitlis pierakstīapzīmēts ar vārdu, nevis ar skaitlicipariem. Šķiet, gandrīz visos MIL izstrādātajos resursos sastopams skaitlis trīspadsmit, bet diemžēlizvērsti netiks aplūkotas pilnīgi visas valodas krātuves.
7.3. Neiederīgs vārds;
Piemēram, Latviešu valodas seno tekstu korpusā” (http://www.korpuss.lv/senie/), meklējot vārdlietojumu 13, varam redzēt, ka tas sastopams galvenokārt rindu numerācijā un 16.–18. gadsimta tekstos neparādās īpaša valodas lietotāju attieksme pret šo skaitli.
1. Tehniskais noformējums;
Viens no galvenajiem Tēzaura” mērķiem ir apkopot visus vārdus, kas sastopami latviešu valodas tekstos, tādēļ vārdnīcas izveidē līdz šim izmantoti gandrīz 300 dažādui avotui (pilns avotu saraksts: http://tezaurs.lv/#/avoti), bet vārdnīcas primārais avots sākotnēji ir bijis Latviešu literārās valodas vārdnīca” (LLVV), kuras oriģināls pieejams arī elektroniski (http://www.tezaurs.lv/llvv/).
1. Tehniskais noformējums; 6.1. Saistāmība;
Veidojot šo rakstu, Tēzaurāatika izmantota iespējdatos, kas aprakstīti JSON formātā, tika apskatīti gan šķirkļavārdusi, gan arī šķirkļusi, kuros kā vārds vai vārda daļa ietverts saliktenis trīspadsmit, piemēram, meklējot savienojumu trīspadsmit, tiek atrasti vārdi trīspadsmitais (sk. 1. att), divtrīspadsmit, trīspadsmits. 1. attēls.
1. Tehniskais noformējums; 7.3. Neiederīgs vārds; 8. Tekstveide; 10.1. Sekundāra: saistāmība;
Ja pārlūko pašu šķirkļu saturu, var apskatītrast gan mūzikas (tercdecima ‘intervāls, kas aptver 13 pakāpes (oktāva + seksta)’), gan literatūrzinātnes (rondele ‘dzejas forma, kurā ir trīspadsmit vai četrpadsmit rindas trijos pantos un divas atskaņas’), gan reliģijas (barmicva, barmicvahs ‘ceremonija, kurā ebreju zēni trīspadsmit gadu vecumā pieņem jūdaisma baušļus un pēc kuras tiek atzīti par pilntiesīgiem kopienas locekļiem’) terminus, kuru skaidrojumā minēts skaitļa vārds trīspadsmit.
7.2. Mazvārdība; 7.3. Neiederīgs vārds;
TāpaSavukārt frazeoloģismu vidū stabili turas velna ducis (ducis fraz. velna ducis ‘trīspadsmit (māņticīgo uztverē – nelaimīgs skaitlis)’ avots – LLVV).
7.1. Liekvārdība; 7.3. Neiederīgs vārds;
BetTomēr visiespaidīgāk liekaizklausās, ja ‘slimīgas bailes no skaitļa trīspadsmit’ nosauc vienā vārdā – triskaidekafobija. T, un arī šo vārdu var atrast „Tēzaurā”. Trīspadsmit tekstu korpusios Valodas izpēte un dažādu valodas tehnoloģiju rīku izpētveide nav iedomājama bez dažādiem valodas korpusiem.
7.1. Liekvārdība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;
Tas ir apmēram 4,5 miljonus vārdlietojumu liels vispārīgs automātiski morfoloģiski marķēts korpuss, tātad katrai tekstvienībai ir pievienota morfoloģiskā informācija, piemēram, vārdformas trīspadsmitais pazīmju kopā mosmsn katrs burts norāda uz kādu pazīmi: m – skaitļa vārds, o – kārtas, s – vienkāršs, m – vīriešu dzimte, s – vienskaitlis, n – nominatīvs.
1. Tehniskais noformējums;
LVK2013 versijā skaitliļa vārds trīspadsmit galvenokārt lietots vecuma vai skaita nosaukšanai bez nelaimīgas” papildinformācijas.
1. Tehniskais noformējums; 5.1. Nepiemērota pieturzīme; 7.3. Neiederīgs vārds;
Tomēr gan publicistikā, gan daiļliteratūrā sastopami arī izteikumi, kas rosina uz domām, ka trīspadsmit nevar būt nekas pozitīvs, piemēram: Darba meklētāju īpatsvars ir ap 7,5 līdz 8 % no darbspējīgiem iedzīvotājiem, tātad apmēram katrs trīspadsmitais (velna ducis!) ir bez darba. (LVK2013) Kas šodien par traku dienu?
1. Tehniskais noformējums;
Trīspadsmitais vēl tikai pēc nedēļas [..]. (LVK2013) Šobrīd pProjektā Daudzslāņu valodas resursu kopa teksta semantiskai analīzei un sintēzei latviešu valodā” (Nr. 1.1.1.1/16/A/219) tiek veidota jauna Līdzsvarotā mūsdienu latviešu valodas tekstu korpusa” versija (LVK2018), kurā būs 10 miljoni vārdlietojumu ar precīzāku automātisko morfoloģisko marķējumu un uz kuru balstīti visi pārējie projektā izstrādājamie valodas resursi, piemēram, Sintaktiski marķēts latviešu valodas tekstu korpuss” (Pretkalniņa et al., 2011; Pretkalnina et al. 2016). Šajā korpusā plānots ievietot 10 000 sintaktiski marķētu teikumu, kuru struktūra attēlota kā atkarību koks, kuršas papildināts ar dažādām frāžu veida konstrukcijām. Šī rRaksta tapšanas brīdī nomarķētajā apjomā var atrast tikai divus piemērus, kur lietots vārds trīspadsmit, un tajā šī raksta virsraksta piemērs izskatās tā: 2. attēls. Teikuma Ir trīspadsmitais datums, un es atkal jūku prātā sintaktiskais marķējums Saeimas korpuss (http://saeima.korpuss.lv/ vai http://nosketch.korpuss.lv/) izstrādāts sadarbībā ar Rīgas Stradiņa universitāti, un tajā ievietotas Saeimas stenogrammas, sākot no 5.
1. Tehniskais noformējums; 2.3. Sākumburti; 5.3. Pieturzīmes trūkums; 7.1. Liekvārdība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 10.4. Sekundāra: sākumburti;
Saeimas laikā ir priecājusies par savu kārtas numuru: Man šķiet, es esmu trīspadsmitā, man tāds jauks cipars ir iekritis. (Saeimas korpuss) S. Tomēr vairumā gadījumu šis skaitlis lietots konkrēta daudzuma vai secības nosaukšanai, tāpēc sīkāk Saeimas korpusā šoreiz aplūkoti laikā no 1993. gada līdz 2016. gada beigām biežāk lietotie vārdu savienojumi, kuru atkarīgais komponents ir trīspadsmit vai trīspadsmitais.
1. Tehniskais noformējums; 5.2. Lieka pieturzīme; 5.3. Pieturzīmes trūkums; 8. Tekstveide;
Tālāk minētais skaitļa vārds tiks aplūkotis divios sadarbībā ar Rēzeknes Augstskolu un Vītauta Dižā Universitāti (http://hipilatlit.ru.lv/lv/) izstrādātieajos korpusios.
1. Tehniskais noformējums; 7.2. Mazvārdība; 10.1. Sekundāra: saistāmība;
Piemēram, kārtas skaitļa vārda forma MuLa atrasta piecas reizes triju autoru tekstos.
7.2. Mazvārdība;
Acīmredzot pareizrakstības nostiprināšanai vajadzētu ilgāku laika posmu, vairāk vienotības un, protams, arī un plašāku tekstu korpusu.
7.1. Liekvārdība;
Savukārt, lai pētītu bērnu valodas attīstību, izstrādāts Morfoloģiski marķēts longitudināls bērnu runas korpuss” (Bērnu runas korpuss; http://lamba.korpuss.lv).
1. Tehniskais noformējums;
Visos runas korpusos audiomateriāli transkribēti t. s. ortogrāfiskajā transkripcijā, kas ir burtiska sacītā atveide rakstos mašīnlasāmā formā, ievērojot latviešu valodas vārdu pareizrakstības principus. Tas nozīmē, ka tiek pierakstīts viss teiktais, arī pārteikšanās, vārdu atkārtojumi, neskaidri izrunāts teksts. Interpunkcija ortogrāfiskajā transkripcijā netiek izmantota, runātais tiek pierakstīts vārdiem, tostarp rakstot gan ciparus, gan arī saīsinājumus.
7.1. Liekvārdība;