Latviešu valodas rediģējumu korpusā "Norma" tiek marķētas kļūdas, kas konstatētas, sastatot autora oriģināltekstu ar tā rediģējumu.
Korpusa izveidei tiek apkopoti no projekta sadarbības partneriem iegūti teksti, kam ir pieejams oriģinālteksts un rediģētais variants. Tekstiem netiek pievienoti nekādi metadati, tie ir anonīmi, un korpusā tiek iekļauti tikai nelieli fragmenti (ne vairāk par vienu izolētu teikumu vai dažiem saistītiem teikumiem).
Iegūtie teksti tiek sastatīti, lai identificētu labojumus. Katrs labojums tiek marķēts, ievērojot marķēšanas vadlīnijas un norādot kļūdas tipu. Korpusa marķēšanai ir izstrādāta kļūdu klasifikācija – 10 kļūdu tipi ar apakštipiem. Šī klasifikācija veidota, balstoties uz sākotnējiem tekstiem, kas izvēlēti kļūdu analīzei. Ja ir nepieciešamība pēc kāda jauna apakštipa, saraksts tiek papildināts.
Marķētos datus var pārlūkot, balstoties gan uz kļūdu tipiem, gan uz vārdformām. Datu pārskatā tiek parādīts fragmenta ID numurs, ar krāsām aptuveni izceltas labotās vietas (ar sarkanu – dzēstās, ar zaļu – pievienotās), kā arī uzskaitīti visi kļūdu tipi, kas pievienoti konkrētajam fragmentam. Arī korpusā marķēto kļūdu statistiku var aplūkot divējādi – pirmkārt, kāda ir atsevišķo kļūdu tipu statistika, t. i., cik reižu korpusā parādās konkrētais kļūdas tips, un, otrkārt, kādas ir biežākās kļūdu tipu kombinācijas.
Kļūdu klasifikācija