Meklēšana

Par korpusu Meklēšana Kļūdu tipu statistika Kļūdu kombināciju statistika
Atrasts/-i 6301 vienumi
Droši vien ne visi uzreiz iedomāsies, ka populārākbiežāk lietoto vārdu saraksta augšgalā ir palīgvārdi, kam seko visbiežāk lietotie vietniekvārdi. Šajā raksta lasītājiem tiek piedāvāā sniegts ieskats jaunizveidotajā Līdzsvarotajā mūsdienu latviešu valodas tekstu korpusā (LVK2018 (beta)) – simt biežāk lietoto vārdu saraksts un daži novērojumi par to.
7.3. Neiederīgs vārds; 9.1. Neuzmanības kļūda;
LVK2018 (beta) ir apmēram 10 miljonu vārdlietojumu liels vispārīgs, reprezentatīvs tekstu korpuss, kas izstrādāts LUatvijas Universitātes Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijā (MIL) un publicēts 2018. gadā.
2.2. Saīsinājuma izveide;
Pēc uzbūves principiem LVK2018 (beta) līdzinās tekstu korpusa 2013. gada versijai LVK 2013 (Levāne-Petrova 2012), bet šis ir vairāk nekā divas reizes lielāks, arī morfoloģiskais marķētājs ir uzlabpilnveidots (Paikens 2016).
7.3. Neiederīgs vārds;
Līdzsvarotajam tekstu korpusam ir vairākas daļas, kurās iekļauti dažādu valodas funkcionālo paveidu teksti – periodika (60 %);, daiļliteratūra (20 %), zinātniskie teksti (10 %), normatīvie akti (8 %) un Saeimas stenogrammas (2 %) (Levāne-Petrova 2018), tāpēc ir interesantivar izveidot biežuma sarakstu gan visaiem korpusa tekstiem kopā, gan arī dažādu valodasfunkcionālo paveidu tekstiem atsevišķi. 1. tabulā redzami LVK2018 (beta) kopā, kā arīsimt biežāk lietotie vārdi, atsevišķi apskatāmi arī noteiktās korpusa daļās – periodikā un daiļliteratūrā (1. tabula), kā arī simt biežāk lietotie vārdi, savukārt 2. tabulā atrodami zinātniskajos tekstos, normatīvajos aktos un Saeimas stenogrammās biežāk lietotie vārdi(2. tabula).
1. Tehniskais noformējums; 5.3. Pieturzīmes trūkums; 6.5. Izteicēja izveide; 7.1. Liekvārdība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 8. Tekstveide;
Tabulās katram vārdam norādīts absolūtais biežums korpusā, t. i., cik reizes attiecīgais vārds ir minēts korpusa vai tā daļas tekstā.
1. Tehniskais noformējums;
Lai būtu vieglāk salīdzināt vārdu biežumu dažādos valodas paveidu veidu tekstos, norādīts arī vārdu īpatsvars, t. i., cik procentu noiem korpusa vai tā daļas vārdlietojumiem aizņemu atbilst attiecīgais vārds.
1. Tehniskais noformējums; 7.1. Liekvārdība; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;
Kā redzams, korpusā kopā simt biežākie vārdi aizņemtbilst vairāk nekā 26 % no visiem vārdiem tekstos, tas nozīmē, ka vairāk nekā ceturtdaļa korpusa vārdlietojumu ietilpst pirmajā simtniekā.
1. Tehniskais noformējums; 6.5. Izteicēja izveide; 7.3. Neiederīgs vārds;
Atsevišķoās valodas paveidokorpusa daļās šis īpatsvars ir vēl lielāks, un Saeimas stenogrammās sasniedz pat vairāk nekā 36 %, kas liecina par to, ka šie teksti ir leksiski vienveidīgāki.
1. Tehniskais noformējums; 5.2. Lieka pieturzīme; 7.1. Liekvārdība; 7.3. Neiederīgs vārds; 10.1. Sekundāra: saistāmība;
Noliegtie darbības vārdi tiek uzskatīti par atsevišķu leksēmu, tāpēc, piemēram, vārdiem būt un nebūt vai darīt un nedarīt ir atšķirīgas pamatformas un biežuma sarakstā tie ir iekļauti kā atsevišķas vienības. ATāpat arī sieviešu un vīriešu dzimtes vietniekvārdi un īpašības vārdi tiek uzskatīti par atsevišķām vienībām, jo tām ir atšķirīgas locīšanas paradigmas un datorizētā valodas apstrādē tas ir būtiski, tā, piemēram, vārdiem viņš un viņa vaisavukārt sieviešu un vīriešu dzimtes īpašības vārdi un skaitļa vārdi tiek uzskatīti par vienu leksēmu, piemēram, vārdiem viņš un viņa ir atšķirīgas pamatformas, un biežuma sarakstā tie ir atsevišķas vienības, bet formām jauns un jauna ir atšķirīgasviena pamatformas un (jauns), tāpēc biežuma sarakstā tie ir atsevišķasviena vienības.
7.2. Mazvārdība; 7.3. Neiederīgs vārds; 8. Tekstveide;
Kuri vārdi tad ir iekļuvuši starp pirmajiem simt un v? Vai dažādosu valodas paveidfunkcionālo paveidu tekstos tie atšķiras?
6.6. Dalījums teikumos; 7.1. Liekvārdība; 7.3. Neiederīgs vārds; 10.3. Sekundāra: interpunkcija; 10.4. Sekundāra: sākumburti;
Apskatot dažādu valodas paveidfunkcionālo paveidu tekstus atsevišķi, redzams, ka visos, izņemot periodiku, biežāk lietotais lietvārds ir kāds cits (lai gan arī gads vairumā gadījumu atrodams saraksta pirmajā pusē), ko nosaka attiecīgā valodas funkcionālā paveida specifika.
7.2. Mazvārdība; 7.3. Neiederīgs vārds;
Daiļliteratūra ir īpaša arī ar to, ka starp pirmajiem simt vārdiem nav neviena īpašvārda, pārējos tekstu paveidstilos vismaz vārds Latvija ir iekļuvis simtniekā. Interesanti ir sSalīdzināot, kā dažādoās valodas paveidokorpusa daļās atšķiras simt biežāk lietoto vārdu sadalījums pa vārdšķirām. P, tika konstatēta pārsteidzoši lieta ir atšķirībla sarakstā iekļauto lietvārdu skaitādaudzuma atšķirība – daiļliteratūrā starp simt biežākajiem vārdiem ir tikai 132 lietvārdiu, kamērbet normatīvajos aktos tie ir 562 lietvārdi, bet zinātniskajos tekstos – 47. Šie skaitļi labi raksturo attiecīgo valodas funkcionālo paveidu leksikas daudzveidību – daiļliteratūrā izmantotais vārdu krājums ir nesalīdzināmi plašāks, tāpēc katrs no vārdiem tiek lietots retāk, savukārt normatīvajiem aktiem ir raksturīga standartizēta, leksikas ziņā vienveidīga valoda, tāpēc katrs no vārdiem tiek lietots biežai raksturīgs plašs vārdu krājums un tiek lietoti dažādi vārdi, tāpēc tiem ir grūtāk nonākt starp biežākajiem vārdiem, jo katrs no tiem tekstos būs minēts mazāku skaitu reižu, savukārt normatīvajiem aktiem ir raksturīga standartizēta, leksikas ziņā vienveidīga izteiksme, arī tematiskā daudzveidība tajos ir mazāka, tāpēc katra atsevišķa vārda (šajā gadījumā – lietvārda) biežums ir lielāks.
8. Tekstveide;
Daiļliteratūra starp valodas patekstu veidiem izceļas arī ar mazāku ciešamās kārtas lietojumu.
7.3. Neiederīgs vārds;
Daiļliteratūrā tas ir tikai 782. vietā, kamērbet LVK2018 (beta) – 20. vietā.
7.3. Neiederīgs vārds; 8. Tekstveide; 6.7. Sakārtojuma konstrukcijas;
Savukārt zinātniskajos tekstos, kuros pieņemts izteikties ciešamajā kārtā vai 3. personā, tikt (11.) ir lietots visbiežāk. Biežuma sarakstā nav redzams, cik bieži tikt lietots patstāvīgā nozīmē un cik bieži – kā palīgdarbības vārds, tomēr patstāvīgā nozīmē tas tiek lietots nesalīdzināmi retāk, tāpēc tā lielo īpatsvaru tekstos un attiecīgi augsto vietu biežuma sarakstā nosaka lietojums palīgdarbības vārda funkcijā – ciešamās kārtas formu sastāvā.
8. Tekstveide;
Valodas paTeksta veidu raksturs atklājas arī personas vietniekvārdu lietošanas biežumā.
3. Vārddarināšana; 7.3. Neiederīgs vārds;
Kā jau minēts, daiļliteratūrā to netrūkstir diezgan daudz, savukārt normatīvajos aktos pirmajā simtniekā nav iekļuvis neviens personas vietniekvārds. Jāpiebilst, ka vVisā korpusa normatīvo tekstu daļā 1. un 2. personas vietniekvārdi ir lietoti tikai dažas reizes, turklāt specifiskā kontekstā, 3. personas vietniekvārdi ir lietoti biežāk, tomēr ne tuvu tik biežiik daudz, lai iekļūtu biežāk lietoto vārdu sarakstā.
6.5. Izteicēja izveide; 7.1. Liekvārdība; 7.2. Mazvārdība; 7.3. Neiederīgs vārds; 10.4. Sekundāra: sākumburti;
Zinātniskā tekstā nav pieņemts izteikties 1. personā, 2. persona arī tajā nav s forma arī neiederīgas, tāpēc likumsakarīgi, ka 1. un 2. personas vietniekvārdi nav iekļuvuši biežuma sarakstā. Interesantāks ir fakts, ka viens personas vietniekvārds šajā sarakstā tomēr ir iekļuvis – tas ir viņš (30.)tie nav iekļuvuši biežuma sarakstā. Viens 3. personas vietniekvārds – viņš (31.) – šajā sarakstā tomēr ir atrodams, jo zinātniskajos tekstos minētās personas (piemēram, zinātniskajos darbos aprakstītās personas vai sabiedrības grupu locekļi, autori, uz kuriem teksta autors atsaucas) tiek nosauktas 3. personā, turklāt, runājot par dažādu dzimumu personām daudzskaitlī, biežāk tiek lietots vīriešu dzimtes vietniekvārds, tāpēc tas iekļuvis starp simt biežāk lietotajiem vārdiem.
6.3. Noliegums; 6.5. Izteicēja izveide; 7.3. Neiederīgs vārds; 8. Tekstveide;
Lasot dažādu valodas paveidkorpusa daļu biežuma sarakstus, dažādvar ieraudzīt daudzas īpatnības un likumsakarības var ieraudzīt vēl un vēl. Šajā rakstā ir minētas tikai dažas no tām.
7.1. Liekvārdība;
Interesanta informācija parādāsieraugāma arī īpaši reti (piemēram, tikai vienu vai divas reizes) lietoto vārdu sarakstā.
6.5. Izteicēja izveide; 7.3. Neiederīgs vārds;