Najpogostejše črke v ruskem jeziku. Pogostost uporabe črk v ruščini

Na splošno obstaja taka tema - frekvenčna analiza besedila. Trdi se, da je za določen jezik pogostost pojavljanja posameznih črk v smiselnem besedilu stabilna vrednost. Stabilne so tudi kombinacije dveh, treh (digrami, trigrami) in štirih črk.
To dejstvo je bilo zlasti uporabljeno v kriptografiji za razbijanje šifer.

Nisem ravno dober v kriptografiji in edina stvar, ki mi pride na misel, je razbijanje šifre neposredne zamenjave. Povedati je treba, da je najbolj primitivna šifra, ko se znaki izvirne abecede, uporabljene v sporočilu, pretvorijo v druge znake po določenem pravilu. Mimogrede, takšne šifre je mogoče odpreti brez uporabe statistična analiza(kjer je za zmanjšanje napake očitno potrebna prisotnost precej velikih kosov besedila), ampak preprosto z ugibanjem o nekaterih besedah ​​- glejte zgodbo »Plesoči možje«.

In končni dotik (neobvezno). Včasih (skoraj vedno) je treba kalkulator opremiti z opisom - kakšni so parametri, katere formule uporablja in na splošno, zakaj je vse to namenjeno - tako kot to počnem zdaj. Za to je napisan članek in kalkulator je vstavljen neposredno v članek. Če želite napisati članek, na glavni strani razdelka »Moji kalkulatorji« izberite točko menija »Ustvari ...« -> »Članek« in začnite pisati. Če želite vstaviti kalkulator, pritisnite gumb z veliko podčrtano črko A in v pogovornem oknu, ki se odpre, izberite novo ustvarjeni kalkulator.

Najpogostejša črka v ruski abecedi se lahko varno imenuje "o". Ne "a", čeprav se vsi otroci naučijo prve besede s to črko: "mama", "oče" ali "daj". Ne »in«, čeprav se morda zdi, da ga pogosto uporabljamo kot veznik.

Kot kažejo podatki, ima črka »o« več kot 0,1 % frekvenco v primerjavi z drugimi samoglasniki abecede, katerih frekvenca je na primer 0,07-0,08 %, kar je precej.

Med soglasniki je na prvem mestu črka "n".

Takšni podatki so pridobljeni z analizo frekvence v NCRY - nacionalnem korpusu ruskega jezika s posebno formulo. NKRY je elektronski arhiv pisnih in govorjenih besedil, ki obsega približno 230 milijonov besednih rab.

Glede na najbolj priljubljeno črko naše abecede velja omeniti zanimiv pojav, imenovan "tavtogram". To je neke vrste literarno ogrevanje, kjer morate sestaviti zgodbo ali pesem, ki se začne z isto črko. Mimogrede, črka, s katero se začne večina besed v ruskem jeziku (ne mešajte je s pogostostjo uporabe), je "p", vendar med samoglasniki nedvomno vodstvo pripada našemu trenutnemu favoritu.

"Sam. Zelo. Drobci šarma so odpadli v jesensko monotonost. Olimp je ostal oddaljen izhod. Zelo oddaljeno. Ostajale so zamere, nepremišljene definicije otoplitve, ki jo je povzročil ogenj dotika. Ostali so se izkazali za negativne, zavrnjene, zavedene od družbe. Jesenski potomec se je spotaknil in letal naokoli z ostanki jezerskih oči. Nekatera okna so ostala odprta. Jezne odtise posameznih homonimov prekrivajo odvržene obleke personifikacije. Oranžne odtenke rakitovca oriše ogromen odsev osamljenosti. Ostalo je okostenelost, otopelost pogube. Otoki so preraščeni z zaobljubami iz esejev o gotovosti. Hlajenje jelševih potaknjencev je zaradi hripavih jokov oblikovalo istoimenske kroge. Uradno se je spremenilo v odsev splošnega in odpravilo negativne gotovosti. Ustaljene podobe so užaljeno razlagale jesenske neumnosti, nasprotno pa označile za prevaro. Mladi so obupano orisali začarano jesen, zanikali objektivno držo ... Jesen je letela naokrog kot oranžni drobci rakitovca in prepuščala utrujene spore samotnim odgovorom ...«

Smešno je, kajne? Saj to ni takšna neumnost :)

Mimogrede, v angleščini je najpogostejša črka "e" in soglasnik je "t".

No, in tavtogram v angleščini:

Minervino veličastna Marija se premika.

Pravo, latinščina, svoboda, učena Lucy ljubi.

Elizino eleganco opazi vsako oko.

Mirno tihi Susanin nasmeh preseneča.

Od norcev, bedakov, laskanja, najbolj poštene Fanny leti.

Znano je, da postavitev črk na tipkovnici tiskarskega stroja ali osebnega računalnika ni sestavljena naključno, temveč upošteva določena pravila. Tako se najpogosteje uporabljene črke nahajajo na osrednjem delu tipkovnice, manj pogoste pa na robovih. Znano je tudi, da se samoglasniki uporabljajo pogosteje kot soglasniki. Ti podatki so bili pridobljeni s posebno formulo v nacionalnem korpusu ruskega jezika.

Najpogostejši samoglasniki

Nenavadno je, da je črka "o" vodilna po številu uporab v pisnem govoru, tako med samoglasniki kot med soglasniki. Sledita mu "a" in "in", za tem pa se začnejo soglasniki. Po mnenju strokovnjakov je pogostost uporabe črke "o" ena desetinka odstotka, pogostost drugih samoglasnikov pa se giblje od sedem do osem stotink odstotka.

Najbolj priljubljeni soglasniki

Najpogosteje uporabljen soglasnik je "n". Poleg tega se največje število besed v ruskem jeziku začne s črko "p". Med samoglasniki je na tej podlagi vodilni "o".

Najredkejši soglasnik v ruskem govoru je črka "f", ki se uporablja v besedah, ki izvirajo iz tuji jeziki, kot tudi onomatopeje, kot je "smrčanje".

Takšna statistika je lahko uporabna pri sestavljanju tavtogramov. Bistvo te besedne igre je ustvariti skladno zgodbo, v kateri se mora vsaka beseda začeti z isto črko.

V tem članku bomo začeli razpravo izjemno zanimiva tema- uporaba statistike za analizo besedilnih informacij. Upoštevajte, da je uporaba statistike za analizo besedila tradicionalna naloga.

Najprej bomo dali nekaj zanimiva dejstva glede pogostosti pojavljanja črk in njihovih kombinacij v različnih jezikih (za več podrobnosti glejte knjigo). V naslednjih člankih bomo pokazali, kako uporabiti kompleksnejše metode analize in grafične predstavitve.

Frekvenčne značilnosti besedilnih sporočil

Besedilo je torej sestavljeno iz besed, besed iz črk. Število različnih črk v vsakem jeziku je omejeno in črke je mogoče preprosto našteti. Pomembne značilnosti besedila so ponavljanje črk, pari črk (digrami) in nasploh m-V redu ( m-gram), združljivost črk med seboj, menjava samoglasnikov in soglasnikov in nekatere druge. Zanimivo je, da so te lastnosti precej stabilne. Vprašanje "zakaj" puščamo za prizori.

Uporaba sistema STATISTICA Te vzorce lahko preverite na primer v internetnih besedilih.

Ideja je prešteti število pojavitev vsakega n m mogoče m-gram v dovolj dolgih odprtih besedilih T=t 1 t 2 … t l, sestavljen iz črk abecede ( a 1, a 2, ..., a n). Hkrati zaporedno m-grami besedila:

t 1 t 2 ...t m , t 2 t 3 ... t m+1 , ..., t i-m+1 t l-m+2 ...t l.

Če – število nastopov m-grami a i1 a i2 ...a im v besedilu T, A L– skupno število preštetih m-gram, potem izkušnje kažejo, da za dovolj velike L frekvence

za to m-grami se med seboj malo razlikujejo.

Zaradi tega se relativna frekvenca (1) šteje za približek verjetnosti p (a i1 a i2 ...a im) videz tega m-gramov na naključno izbranem mestu v besedilu (ta pristop je sprejet pri statističnem določanju verjetnosti).

Spodaj so tabele pogostnosti črk (v odstotkih) za številne evropske jezike. Podatki vzeti iz knjige.

Črka abecede francosko nemški angleški jezik španščina italijanščina
A 7.68 5.52 7.96 12.90 11.12
B 0.80 1.56 1.60 1.03 1.07
C 3.32 2.94 2.84 4.42 4.11
D 3.60 4.91 4.01 4.67 3.54
E 17.76 19.18 12.86 14.15 11.63
F 1.06 1.96 2.62 0.70 1.15
G 1.10 3.60 1.99 1.00 1.73
H 0.64 5.02 5.39 0.91 0.83
jaz 7.23 8.21 7.77 7.01 12.04
J 0.19 0.16 0.16 0.24 -
K - 1.33 0.41 - -
L 5.89 3.48 3.51 5.52 5.95
M 2.72 1.69 2.43 2.55 2.65
n 7.61 10.20 7.51 6.20 7.68
O 5.34 2.14 6.62 8.84 8.92
p 3.24 0.54 1.81 3.26 2.66
Q 1.34 0.01 0.17 1.55 0.48
R 6.81 7.01 6.83 6.95 6.56
S 8.23 7.07 6.62 7.64 4.81
T 7.30 5.86 9.72 4.36 7.07
U 6.05 4.22 2.48 4.00 3.09
V 1.27 0.84 1.15 0.67 1.67
W - 1.38 1.80 - -
X 0.54 - 0.17 0.07 -
Y 0.21 - 1.52 1.05 -
Z 0.07 1.17 0.05 0.31 1.24

Nekatere razlike v frekvenčnih vrednostih v tabelah, navedenih v različnih virih, je razloženo z dejstvom, da so frekvence bistveno odvisne ne le od dolžine besedila, temveč tudi od njegove narave. Na primer, v tehničnih besedilih redka črka F lahko postane precej pogosta zaradi pogoste uporabe besed, kot so funkcija, diferencial, difuzija, koeficient itd.

Pri nekaterih opažamo še večja odstopanja od norme v pogostosti uporabe posameznih črk umetniška dela, predvsem v poeziji. Zato je za zanesljivo določitev povprečne pogostosti črk zaželeno imeti nabor različnih besedil, izposojenih iz različnih virov. Vendar pa so takšna odstopanja praviloma nepomembna in jih je v prvem približku mogoče zanemariti.

Vizualni prikaz pogostnosti črk je podan z diagramom pojavljanja. Torej, za angleški jezik je v skladu s tabelo tak diagram prikazan na sliki 1. Za izdelavo smo uporabili sistem STATISTICA.

Za ruski jezik frekvence (v padajočem vrstnem redu) znakov abecede, v kateri so identificirani E c Yo, b z Kommersant, med besedami pa je tudi presledek (-), so podani v naslednji tabeli (glej).

-
0.175
O
0.090
NJENA
0.072
A
0.062
IN
0.062
T
0.053
n
0.053
Z
0.045
R
0.040
IN
0.038
L
0.035
TO
0.028
M
0.026
D
0.025
p
0.023
U
0.021
jaz
0.018
Y
0.016
Z
0.016
b, b
0.014
B
0.014
G
0.013
H
0.012
Y
0.010
X
0.009
IN
0.007
Yu
0.006
Š
0.006
C
0.004
SCH
0.003
E
0.003
F
0.002

Na podlagi tabele dobimo naslednji frekvenčni diagram (slika 2).

Obstaja mnemonično pravilo za zapomnitev desetih najpogostejših črk ruske abecede. Te črke sestavljajo smešno besedo SENOVALITER. Predlagate lahko tudi podoben način pomnjenja pogostih črk v angleškem jeziku, na primer z uporabo besede TETRIS-HONDA (glej tabelo).

Tudi frekvenčne značilnosti bigramov, trigramov in štirigramov smiselnih besedil so stabilne.

Tukaj so tabele frekvenc bigramov za ruski in angleški jeziki(preglednice izposojene iz knjige). Zaradi udobja so razdeljeni na štiri dele po naslednji shemi:

1. del del2
3. del 4. del

1. del

A B IN G D E IN Z IN Y TO L M n O p
A 2 12 35 8 14 7 6 15 7 7 19 27 19 45 5 11
B 5 9 1 6 6 2 21
IN 35 1 5 3 3 32 2 17 7 10 3 9 58 6
G 7 3 3 5 1 5 1 50
D 25 3 1 1 29 1 1 13 1 5 1 13 22 3
E 2 9 18 11 27 7 5 10 6 15 13 35 24 63 7 16
IN 5 1 6 12 5 6
Z 35 1 7 1 5 3 4 2 1 2 9 9 1
IN 4 6 22 5 10 21 2 23 19 11 19 21 20 32 8 13
Y 1 1 4 1 3 1 2 4 5 1 2 7 9 7
TO 24 1 4 1 4 1 1 26 1 4 1 2 66 2
L 25 1 1 1 1 33 2 1 36 1 2 1 8 30 2
M 18 2 4 1 1 21 1 2 23 3 1 3 7 19 5
n 54 1 2 3 3 34 58 3 1 24 67 2
O 1 28 84 32 47 15 7 18 12 29 19 41 38 30 9 18
p 7 15 4 9 1 46

2. del

R Z T U F X C H Š SCH Y b E Yu jaz
A 26 31 27 3 1 10 6 7 10 1 2 6 9
B 8 1 6 1 11 2
IN 6 19 6 7 1 1 2 4 1 18 1 2 3
G 7 2
D 6 8 1 10 1 1 1 5 1 1
E 39 37 33 3 1 8 3 7 3 3 1 1 2
IN 1
Z 3 1 2 4 4
IN 11 29 29 3 1 17 3 11 1 1 1 3 17
Y 3 10 2 1 3 2
TO 10 3 7 10 1
L 3 1 6 4 1 3 20 4 9
M 2 5 3 9 1 2 5 1 1 3
n 1 9 9 7 1 5 2 36 3 5
O 43 50 39 3 2 5 2 12 4 3 2 3 2
p 41 1 6 2 2

3. del

A B IN G D E IN Z IN Y TO L M n O p
R 55 1 4 4 3 37 3 1 24 3 1 3 7 56 2
Z 8 1 7 1 2 25 6 40 13 3 9 27 11
T 35 1 27 1 3 31 1 28 5 1 1 11 56 4
U 1 4 4 4 11 2 6 3 2 8 5 5 5 1 5
F 2 2 2 1
X 4 1 4 1 3 1 2 3 4 3 3 4 18 5
C 3 7 10 2 1
H 12 23 13 2 6
Š 5 11 14 1 2 2 2
SCH 3 8 6 1
Y 1 9 1 3 12 2 4 7 3 6 6 3 2 10
b 2 4 1 1 2 2 2 6 3 13 2 4
E 1 1
Yu 2 1 2 1 3 1 1 1 1 1 3
jaz 1 3 9 1 3 3 1 5 3 2 3 3 4 6 3 6

4. del

R Z T U F X C H Š SCH Y b E Yu jaz
R 1 5 9 16 1 1 1 2 8 3 5
Z 4 11 82 6 1 1 2 2 1 8 17
T 26 18 2 10 1 11 21 4
U 7 14 7 1 8 3 2 9 1
F 1 1
X 3 4 2 2 1 1
C 1 1
H 7 1 1 1
Š 1 1
SCH 1
Y 3 9 4 1 16 1 2
b 1 11 3 1 4 1 3 1
E 1 9
Yu 1 1 7 1 1 4
jaz 3 6 10 2 1 4 1 1 1 1 1

Lepe mize k-gram je enostavno pridobiti z uporabo besedil elektronskih različic številnih knjig na CD-jih.

Če želite pridobiti natančnejše informacije o odprtih besedilih, lahko sestavite in analizirate tabele k-gram pri k>2, vendar je za izobraževalne namene dovolj, da se omejimo na bigrame. Neenakomernost k-gram (in celo besede) je tesno povezan z značilna lastnost odprto besedilo - prisotnost v njem velikega števila ponovitev posameznih fragmentov besedila: korenin, končnic, pripon, besed in besednih zvez. Torej, za ruski jezik so takšni znani fragmenti najpogostejši bigrami in trigrami:

ST, VENDAR, EN, TO, NA, OV, NI, RA, VO, KO
STO, ENO, NOV, TOV, OVO, OVA

Koristne so informacije o združljivosti črk, torej o prednostnih povezavah črk med seboj, ki jih zlahka pridobimo iz bigramskih frekvenčnih tabel.

To se nanaša na tabelo, v kateri so najbolj priljubljeni "sosedi" levo in desno od vsake črke (v padajočem vrstnem redu glede na pogostost ustreznih bigramov). Takšne tabele običajno navajajo tudi delež samoglasnikov in soglasnikov (v odstotkih) pred (ali za) določeno črko.

Kombinacija ruskih črk:

G Z levo prav G Z
3 97 l, d, k, t, v, r, n A l, n, s, t, r, v, k, m 12 88
80 20 i, e, y, i, a, o B o, s, e, a, r, y 81 19
68 32 i, t, a, e, i, o IN o, a, i, s, s, n, l, r 60 40
78 22 r, y, a, i, e, o G o, a, p, l, i, v 69 31
72 28 r, i, y, a, i, e, o D e, a, i, o, n, y, p, v 68 32
19 81 m, i, l, d, t, r, n E n, t, r, s, l, v, m, i 12 88
83 17 r, e, i, a, y, o IN e, i, d, a, n 71 29
89 11 o, e, a in Z a, n, c, o, m, d 51 49
27 73 r, t, m, i, o, l, n IN s, n, c, i, e, m, k, h 25 75
55 45 b, v, e, o, a, i, s TO o, a, i, p, y, t, l, e 73 27
77 23 g, v, s, i, e, o, a L i, e, o, a, b, i, ju, j 75 25
80 20 i, s, a, i, e, o M i, e, o, y, a, n, p, s 73 27
55 45 d, b, n, o n o, a, i, e, s, n, y 80 20
11 89 r, p, k, v, t, n O c, s, t, r, i, d, n, m 15 85
65 35 v, z, y, a, i, e, o p o, p, e, a, y, i, l 68 32
55 45 i, k, t, a, p, o, e R a, e, o, i, y, i, s, n 80 20
69 31 s, t, v, a, e, i, o Z t, k, o, i, e, b, s, n 32 68
57 43 h, y, i, a, e, o, s T o, a, e, i, b, v, r, s 63 37
15 85 p, t, k, d, n, m, r U t, p, s, d, n, y, w 16 84
70 30 n, a, e, o in F in, e, o, a, e, o, a 81 19
90 10 y, e, o, a, s in X o, i, s, n, v, p, r 43 57
69 31 e, yu, n, a in C i, e, a, s 93 7
82 18 e, a, y, i, o H e, i, t, n 66 34
67 33 b, y, s, e, o, a, i, v Š e, i, n, a, o, l 68 32
84 16 e, b, a, i, y SCH e, jaz, a 97 3
0 100 m, r, t, s, b, c, n Y l, x, e, m, i, v, s, n 56 44
0 100 n, s, t, l b n, k, v, p, s, e, o in 24 76
14 86 s, s, m, l, d, t, r, n E n, t, r, s, k 0 100
58 42 b, o, a, i, l, y Yu d, t, sch, c, n, str 11 89
43 57 o, n, r, l, a, i, s jaz v, s, t, p, d, k, m, l 16 84

Pri analizi združljivosti črk med seboj je treba upoštevati odvisnost videza črk v navadnem besedilu od velikega števila predhodnih črk. Za analizo teh vzorcev se uporablja koncept pogojne verjetnosti.

Opazovanja odprtih besedil kažejo, da za pogojne verjetnosti veljajo naslednje neenakosti: p(a i1)≠p(a i1 /a i2), p(a i1 /a i2)≠p(a i1 /a i2 a i3),....

Vprašanje odvisnosti črk abecede v navadnem besedilu od prejšnjih črk je sistematično preučeval znani ruski matematik A. A. Markov (1856 – 1922). Dokazal je, da pojavov črk v odprtem besedilu ni mogoče šteti za neodvisne drug od drugega. V zvezi s tem je A. A. Markov opazil še en stabilen vzorec odprtih besedil, povezanih z menjavo samoglasnikov in soglasnikov. Izračunal je pogostost pojavljanja bigramov samoglasnik-samoglasnik ( G, G), samoglasniški soglasnik ( G, z), soglasnik-samoglasnik ( z, G), soglasnik-soglasnik ( z, z) v ruskem besedilu z dolžino 10 5 znakov. Rezultati izračuna so prikazani v naslednji tabeli:

G Z Skupaj
G 6588 38310 44898
Z 38296 16806 55102

Iz te tabele je razvidno, da je za ruski jezik značilno menjavanje samoglasnikov in soglasnikov, relativne frekvence pa lahko služijo kot približki ustreznih pogojnih in brezpogojnih verjetnosti:

str(G/z)≈0.663, str(z/G)≈0.872,
str(G)≈0.432, str(z)≈0.568.

Po A. A. Markovu je odvisnost pojava črk v besedilu, po več prejšnjih, preučeval z metodami teorije informacij K. Shannon. Pravzaprav so pokazali predvsem, da je takšna odvisnost opazna do globine približno 30 znakov, potem pa je praktično ni več.

Razmerje samoglasnikov v literarnem besedilu:

Zgornji vzorci veljajo za običajna "berljiva" odprta besedila, ki se uporabljajo v človeški komunikaciji. Kot smo že omenili, imajo ti vzorci veliko vlogo pri kriptoanalizi. Zlasti se uporabljajo pri konstrukciji formaliziranih kriterijev za odprto besedilo, ki omogočajo uporabo metod matematične statistike pri problemu prepoznavanja odprtega besedila v toku sporočil. Pri uporabi posebnih abeced so potrebne podobne študije frekvenčnih značilnosti "odprtih besedil", ki nastanejo na primer pri izmenjavi informacij med stroji ali v sistemih za prenos podatkov. V teh primerih je izdelava formaliziranih meril za "čisto besedilo" veliko težja naloga.

Kot primer navedimo frekvenčne značilnosti črk angleška abeceda, vključeno v kodo ASCII.

Poleg kriptografije se frekvenčne značilnosti odprtih sporočil pomembno uporabljajo tudi na drugih področjih. Na primer, računalniška tipkovnica, pisalni stroj ali Linotype je čudovita utelešenje ideje o pospeševanju tipkanja, povezanega z optimizacijo razporeditve črk abecede glede na drugo, odvisno od pogostosti njihove uporabe.

Literatura:

Alferov A.P. et al., "Kriptografija"

Yaglom A.M., Yaglom I.M., Verjetnost in informacije, M.: Nauka, 1973.

Baudouin C., Elements de cryptographie / Ed. Pedone A. – Pariz, 1939.

Friedman W. F., Callimahos D., Vojaška kriptoanaliza, del I, zvezek 2, Aegean Park Press, Laguna Hills CA, 1920.

Katera črka se najpogosteje uporablja v ruščini? In kako najlažje ugotovite in dobite najboljši odgovor

Odgovor Viktorja Edinoviča [guruja]

Edini pravilen odgovor! Včasih je vsak tipograf iz izkušenj vedel, katera pisava (črka) se pri tipkanju največ uporablja.
Viktor Edinovič
Razsvetljen
(38377)
št. Sem samo bivši enciklopedist...

Odgovori od Elizaveta Vencevič[guru]
Mislim, da "A".


Odgovori od Aleksandra Lapikova[guru]
glede na stopnjo obrabljenosti tipkovnice pisca


Odgovori od YolaFka[guru]
bukaFka AAAAAAAAAAAA))))


Odgovori od BOBA BOBAHOB[guru]
Mislim, da je črka "X" dokaz? samo sprehodi se po ulici


Odgovori od * [strokovnjak]
najpogosteje uporabljene 3 črke so U Y X


Odgovori od Vklopljeno[guru]
verjetno Kommersant


Odgovori od Dyusmikeev Valery[guru]
Črka A



Odgovori od [guru]
Kako se vsi šalijo. Seveda črka O!!!


Odgovori od Pavel Makagonov[guru]
O, nato E, nato I, nato A. Nato soglasniki N, T, S, R itd.
Računati sem moral na podlagi velikega števila besedil. Ne verjemite huliganom.


Odgovori od Elena Strathberry[aktivno]
Seveda črka R. Ker je na sredini tipkovnice!! ! 🙂


Odgovori od Inga Zajontz[guru]
vzamemo kateri koli slovar, predvsem besede, ki se začnejo na "p", za "r", za "o", za "T", na koncu je za ruščino najbolj značilna beseda prostornost in preprostost
po Dahlu


Odgovori od Aleksander Reiser[guru]
Poskusite uganiti, katera črka ruskega jezika je najpogostejša?
Črka O. Pogostost pojavljanja – 0,090. To pomeni, da se bo v zaporedju 1000 črk črka O pojavila v povprečju 90-krat.
Katere črke zasedajo vodilne položaje in jih najpogosteje najdemo?
Samoglasniki. To so tisti, ki jih najpogosteje najdemo v ruskem jeziku, zaradi česar je naš govor "melodičen". Za O sta črki E in E (skupaj nista ločeni, ker pri pisanju pogosto izgubita E). Pogostost pojavljanja – 0,072. Za njimi sta črki A in I. Pogostost pojavljanja vsake od njih je 0,062.
Je to dovolj za dekodiranje besedila? Načeloma da, če smo prepričani, da zaporedje kod vsebuje besedilo v ruščini v enem od nam znanih ali neznanih kodiranj. Vendar vedno obstaja nekaj verjetnosti, da predstavljeno zaporedje kod nima nobene zveze z ruskim jezikom. Če želite to preveriti, morate uporabiti frekvenčni slovar besed v ruskem jeziku.
Katera beseda se po vašem mnenju najpogosteje pojavlja v ruskem jeziku?
Vezniku I sledijo enako kratki besedni členki - IN, NE, OH, NA. Najpogosteje pa bo seveda prišlo do vrzeli.
Dekodirano besedilo je treba preveriti glede ujemanja s frekvenčnim slovarjem. In le z bolj ali manj popolnim naključjem lahko rečemo, da imamo opravka z besedilom, napisanim v ruščini.
To daje 100 % rezultate, če je besedilo dovolj veliko. Če govorimo o več besedah, je pogostost črk (in še bolj besed) lahko motena. Kaj storiti v tem primeru? Bralcu moramo ponuditi več možnosti, med katerimi lahko izbira. Dekodirajte besedilo z uporabo ene najpogostejših samoglasnikov. Samoglasniki! Vedno se bodo pojavile pogosteje kot druge črke. Če je besedilo kodirano v ruskem jeziku, je uspeh zagotovljen.