Najčešća slova u ruskom jeziku. Učestalost upotrebe slova u ruskom jeziku

Općenito, postoji takva tema - frekvencijska analiza teksta. Tvrdi se da je za dati jezik učestalost pojavljivanja pojedinih slova u smislenom tekstu stabilna vrijednost. Kombinacije dva, tri (digrami, trigrami) i četiri slova su također stabilne.
Ova činjenica je posebno korištena u kriptografiji za razbijanje šifri.

Nisam baš dobar u kriptografiji i jedino što mi pada na pamet je razbijanje šifre direktne zamjene. Mora se reći da je najprimitivnija šifra kada se znakovi originalne abecede korištene u poruci pretvore u druge znakove prema određenom pravilu. Takve šifre bi se, inače, mogle otvoriti bez upotrebe statistička analiza(gdje je, da bi se umanjila greška, očigledno potrebno prisustvo prilično velikih dijelova teksta), ali jednostavno nagađanjem nekih riječi – pogledajte priču “The Dancing Men”.

I završni dodir (opciono). Ponekad (skoro uvijek) kalkulatoru treba dati opis - koji su parametri, koje formule koristi, i općenito, zašto je sve to - baš kao što radim sada. Da biste to učinili, napiše se članak, a kalkulator se umetne direktno u članak. Da biste napisali članak, odaberite stavku menija “Kreiraj...” -> “Članak” na glavnoj stranici odjeljka “Moji kalkulatori” i počnite pisati. Da biste umetnuli kalkulator, pritisnite dugme sa velikim podvučenim slovom A i izaberite novokreirani kalkulator u dijalogu koji se otvori.

Najčešće slovo ruske abecede može se sa sigurnošću nazvati "o". Ne "a", iako sva djeca uče svoje prve riječi sa ovim slovom: "mama", "tata" ili "daj". Ne „i“, iako se može činiti da ga često koristimo kao veznik za povezivanje.

Kao što podaci pokazuju, upravo slovo "o" ima učestalost veću od 0,1%, u poređenju sa drugim samoglasničkim slovima abecede, čija je učestalost, na primjer, 0,07-0,08%, što je dosta

Među suglasnicima prvo je slovo “n”.

Takvi podaci se dobijaju analizom učestalosti u NKRJ – Nacionalnom korpusu ruskog jezika, koristeći posebnu formulu. NKRY je elektronska arhiva pisanih i govornih tekstova, koja se sastoji od približno 230 miliona upotrebe riječi.

S obzirom na najpopularnije slovo naše abecede, vrijedi spomenuti zanimljiv fenomen koji se zove "tautogram". Ovo je svojevrsno književno zagrijavanje u kojem trebate sastaviti priču ili pjesmu koja počinje istim slovom. Inače, slovo kojim počinje većina riječi u ruskom jeziku (nemojte ga brkati s učestalošću upotrebe) je „p“, ali među samoglasnicima nesumnjivo vodstvo pripada našem trenutnom favoritu.

„Sam. Veoma. U jesenjoj monotoniji otpali su djelići čari. Olimp je ostao daleki izlaz. Vrlo udaljeno. Ostale su ljutnje, ishitrene definicije odmrznutog odmrzavanja, izazvane vatrom dodira. Ostalo se pokazalo negativnim, odbačenim, prevarenim od strane društva. Potomci jeseni posrnu i lete okolo sa ostacima jezerskih očiju. Neki prozori su ostali otvoreni. Gnevni otisci pojedinačnih homonima zasjenjeni su odbačenim odeždama personifikacije. Narandžaste nijanse morskog trna ocrtane su ogromnim odrazom usamljenosti. Ostalo je okoštavanje, obamrlost propasti. Ostrva su obrasla zavjetima iz eseja o sigurnosti. Hladeći reznice johe formirale su istoimene krugove, zbog promuklih krikova. Zvaničnik se pretvorio u odraz opšteg, ukidajući negativne izvesnosti. Staložene slike ogorčeno su objašnjavale jesenje gluposti, nazivajući suprotno prevarom. Mladi su očajnički ocrtavali začaranu jesen, negirajući objektivan stav... Jesen je letjela kao narandžasti komadići krkavine, ostavljajući umorne rasprave usamljenim odgovorima..."

Smiješno je, zar ne? Ipak to i nije takva glupost :)

Inače, u engleskom je najčešće slovo “e”, a suglasnik je “t”.

Pa, i tautogram na engleskom:

Veličanstvena Marija se kreće poput Minerve.

Pravo, latinski, sloboda, učena Lucy voli.

Svako oko vidi Elizinu eleganciju.

Spokojno tihi Suzanini osmjesi iznenađuju.

Od glupana, budala, laskanja, najljepsa Fanny leti.

Poznato je da raspored slova na tastaturi štamparske mašine ili računara nije sastavljen nasumično, već se pridržava određenih pravila. Tako se najčešće korišćena slova nalaze u središnjem dijelu tastature, a ona rjeđa na rubovima. Takođe je poznato da se samoglasnici koriste češće od suglasnika. Ova informacija dobijena je pomoću posebne formule u Nacionalnom korpusu ruskog jezika.

Najčešći samoglasnici

Čudno je da je slovo "o" lider u broju upotreba u pisanom govoru, kako među samoglasnicima tako i među suglasnicima. Iza njega slijede “a” i “i”, a nakon toga počinju suglasnici. Prema stručnjacima, učestalost upotrebe slova "o" je jedna desetina procenta, dok se učestalost ostalih samoglasnika kreće od sedam do osam stotinki procenta.

Najpopularniji suglasnici

Najčešće korišteni suglasnik je "n". Štaviše, najveći broj riječi u ruskom jeziku počinje slovom "p". Među samoglasnicima, "o" je vodeći u tom pogledu.

Najrjeđi suglasnik u ruskom govoru je slovo "f", koje se koristi u riječima koje potiču stranim jezicima, kao i onomatopeje, kao što je "šmrkanje".

Takva statistika može biti korisna pri sastavljanju tautograma. Smisao ove igre riječi je stvoriti koherentnu priču, u kojoj svaka riječ mora početi istim slovom.

U ovom članku ćemo započeti raspravu izuzetno zanimljiva tema- primjena statistike za analizu tekstualnih informacija. Imajte na umu da je upotreba statistike za analizu teksta tradicionalni zadatak.

Prvo ćemo dati neke zanimljive činjenice o učestalosti pojavljivanja slova i njihovih kombinacija u različitim jezicima (za više detalja pogledajte knjigu). U narednim člancima pokazat ćemo kako primijeniti složenije metode analize i grafičkog prikaza.

Karakteristike frekvencije tekstualnih poruka

Dakle, tekst se sastoji od riječi, riječi od slova. Broj različitih slova u svakom jeziku je ograničen i slova se mogu jednostavno navesti. Važne karakteristike teksta su ponavljanje slova, parovi slova (digrami) i općenito m-OK ( m-gram), kompatibilnost slova međusobno, izmjenu samoglasnika i suglasnika i neke druge. Zanimljivo je da su ove karakteristike prilično stabilne. Pitanje „zašto“ ostavljamo iza kulisa.

Korištenje sistema STATISTICA Ove obrasce možete provjeriti, na primjer, u internetskim tekstovima.

Ideja je da se izbroji broj pojavljivanja svakog od njih n m moguće m-gram u dovoljno dugim otvorenim tekstovima T=t 1 t 2 …t l, sastavljen od slova abecede ( a 1 , a 2 , ..., a n). Istovremeno, uzastopno m-grami teksta:

t 1 t 2 ...t m , t 2 t 3 ... t m+1 , ..., t i-m+1 t l-m+2 ...t l.

Ako – broj pojavljivanja m-grama a i1 a i2 ...a im u tekstu T, A L– ukupan broj prebrojanih m-gram, onda iskustvo pokazuje da za dovoljno velike L frekvencije

za ovo m-grami se malo razlikuju jedan od drugog.

Zbog toga se relativna frekvencija (1) smatra aproksimacijom vjerovatnoće P (a i1 a i2 ...a im) izgled ovog m-grami na slučajno odabranom mjestu u tekstu (ovaj pristup je usvojen u statističkom određivanju vjerovatnoće).

Ispod su tabele učestalosti slova (u procentima) za brojne evropske jezike. Podaci preuzeti iz knjige.

Pismo abecede francuski njemački engleski jezik španjolski talijanski
A 7.68 5.52 7.96 12.90 11.12
B 0.80 1.56 1.60 1.03 1.07
C 3.32 2.94 2.84 4.42 4.11
D 3.60 4.91 4.01 4.67 3.54
E 17.76 19.18 12.86 14.15 11.63
F 1.06 1.96 2.62 0.70 1.15
G 1.10 3.60 1.99 1.00 1.73
H 0.64 5.02 5.39 0.91 0.83
I 7.23 8.21 7.77 7.01 12.04
J 0.19 0.16 0.16 0.24 -
K - 1.33 0.41 - -
L 5.89 3.48 3.51 5.52 5.95
M 2.72 1.69 2.43 2.55 2.65
N 7.61 10.20 7.51 6.20 7.68
O 5.34 2.14 6.62 8.84 8.92
P 3.24 0.54 1.81 3.26 2.66
Q 1.34 0.01 0.17 1.55 0.48
R 6.81 7.01 6.83 6.95 6.56
S 8.23 7.07 6.62 7.64 4.81
T 7.30 5.86 9.72 4.36 7.07
U 6.05 4.22 2.48 4.00 3.09
V 1.27 0.84 1.15 0.67 1.67
W - 1.38 1.80 - -
X 0.54 - 0.17 0.07 -
Y 0.21 - 1.52 1.05 -
Z 0.07 1.17 0.05 0.31 1.24

Neka razlika u vrijednostima frekvencije u tabelama datim u različitim izvorima objašnjava se činjenicom da frekvencije značajno ovise ne samo o dužini teksta, već i o njegovoj prirodi. Na primjer, u tehničkim tekstovima rijetko slovo F može postati prilično uobičajena zbog česte upotrebe riječi kao što su funkcija, diferencijal, difuzija, koeficijent itd.

Kod nekih se uočavaju još veća odstupanja od norme u učestalosti upotrebe pojedinih slova umjetnička djela, posebno u poeziji. Stoga, da bi se pouzdano odredila prosječna učestalost pisama, poželjno je imati skup različitih tekstova posuđenih iz različitih izvora. Međutim, u pravilu su takva odstupanja beznačajna, te se u prvoj aproksimaciji mogu zanemariti.

Vizuelni prikaz frekvencija slova je dat dijagramom pojavljivanja. Dakle, za engleski jezik, u skladu sa tabelom, takav dijagram je prikazan na slici 1. Da bismo ga izgradili, koristili smo sistem STATISTICA.

Za ruski jezik, frekvencije (u opadajućem redoslijedu) znakova abecede u kojoj su identificirani E c Yo, b With Kommersant, a između riječi postoji i razmak (-), date su u sljedećoj tabeli (vidi).

-
0.175
O
0.090
HER
0.072
A
0.062
I
0.062
T
0.053
N
0.053
WITH
0.045
R
0.040
IN
0.038
L
0.035
TO
0.028
M
0.026
D
0.025
P
0.023
U
0.021
I
0.018
Y
0.016
Z
0.016
b, b
0.014
B
0.014
G
0.013
H
0.012
Y
0.010
X
0.009
I
0.007
Yu
0.006
Sh
0.006
C
0.004
SCH
0.003
E
0.003
F
0.002

Na osnovu tabele dobijamo sledeći dijagram frekvencija (slika 2).

Postoji mnemoničko pravilo za pamćenje deset najčešćih slova ruske abecede. Ova slova čine smiješnu riječ HAY. Također možete predložiti sličan način pamćenja uobičajenih slova u engleskom jeziku, na primjer, korištenjem riječi TETRIS-HONDA (vidi tabelu).

Stabilne su i frekvencijske karakteristike bigrama, trigrama i četiri grama smislenih tekstova.

Evo tabela bigramskih frekvencija za ruski i engleski jezici(tabele posuđene iz knjige). Radi praktičnosti, podijeljeni su na četiri dijela prema sljedećoj shemi:

Dio 1 Part2
dio 3 Part4

Dio 1

A B IN G D E I Z I Y TO L M N O P
A 2 12 35 8 14 7 6 15 7 7 19 27 19 45 5 11
B 5 9 1 6 6 2 21
IN 35 1 5 3 3 32 2 17 7 10 3 9 58 6
G 7 3 3 5 1 5 1 50
D 25 3 1 1 29 1 1 13 1 5 1 13 22 3
E 2 9 18 11 27 7 5 10 6 15 13 35 24 63 7 16
I 5 1 6 12 5 6
Z 35 1 7 1 5 3 4 2 1 2 9 9 1
I 4 6 22 5 10 21 2 23 19 11 19 21 20 32 8 13
Y 1 1 4 1 3 1 2 4 5 1 2 7 9 7
TO 24 1 4 1 4 1 1 26 1 4 1 2 66 2
L 25 1 1 1 1 33 2 1 36 1 2 1 8 30 2
M 18 2 4 1 1 21 1 2 23 3 1 3 7 19 5
N 54 1 2 3 3 34 58 3 1 24 67 2
O 1 28 84 32 47 15 7 18 12 29 19 41 38 30 9 18
P 7 15 4 9 1 46

dio 2

R WITH T U F X C H Sh SCH Y b E Yu I
A 26 31 27 3 1 10 6 7 10 1 2 6 9
B 8 1 6 1 11 2
IN 6 19 6 7 1 1 2 4 1 18 1 2 3
G 7 2
D 6 8 1 10 1 1 1 5 1 1
E 39 37 33 3 1 8 3 7 3 3 1 1 2
I 1
Z 3 1 2 4 4
I 11 29 29 3 1 17 3 11 1 1 1 3 17
Y 3 10 2 1 3 2
TO 10 3 7 10 1
L 3 1 6 4 1 3 20 4 9
M 2 5 3 9 1 2 5 1 1 3
N 1 9 9 7 1 5 2 36 3 5
O 43 50 39 3 2 5 2 12 4 3 2 3 2
P 41 1 6 2 2

dio 3

A B IN G D E I Z I Y TO L M N O P
R 55 1 4 4 3 37 3 1 24 3 1 3 7 56 2
WITH 8 1 7 1 2 25 6 40 13 3 9 27 11
T 35 1 27 1 3 31 1 28 5 1 1 11 56 4
U 1 4 4 4 11 2 6 3 2 8 5 5 5 1 5
F 2 2 2 1
X 4 1 4 1 3 1 2 3 4 3 3 4 18 5
C 3 7 10 2 1
H 12 23 13 2 6
Sh 5 11 14 1 2 2 2
SCH 3 8 6 1
Y 1 9 1 3 12 2 4 7 3 6 6 3 2 10
b 2 4 1 1 2 2 2 6 3 13 2 4
E 1 1
Yu 2 1 2 1 3 1 1 1 1 1 3
I 1 3 9 1 3 3 1 5 3 2 3 3 4 6 3 6

dio 4

R WITH T U F X C H Sh SCH Y b E Yu I
R 1 5 9 16 1 1 1 2 8 3 5
WITH 4 11 82 6 1 1 2 2 1 8 17
T 26 18 2 10 1 11 21 4
U 7 14 7 1 8 3 2 9 1
F 1 1
X 3 4 2 2 1 1
C 1 1
H 7 1 1 1
Sh 1 1
SCH 1
Y 3 9 4 1 16 1 2
b 1 11 3 1 4 1 3 1
E 1 9
Yu 1 1 7 1 1 4
I 3 6 10 2 1 4 1 1 1 1 1

Lepi stolovi k-gram je lako dobiti koristeći tekstove elektronskih verzija mnogih knjiga koje se nalaze na CD-ovima.

Da biste dobili preciznije informacije o otvorenim tekstovima, možete napraviti i analizirati tabele k-gram at k>2, ali u obrazovne svrhe dovoljno je da se ograničimo na bigrame. Neravnina k-gram (pa čak i riječi) je usko povezan sa karakteristična karakteristika otvoreni tekst - prisutnost u njemu velikog broja ponavljanja pojedinačnih fragmenata teksta: korijena, završetaka, sufiksa, riječi i fraza. Dakle, za ruski jezik, takvi poznati fragmenti su najčešći bigrami i trigrami:

ST, ALI, EN, TO, NA, OV, NI, RA, VO, KO
STO, ENO, NOV, TOV, OVO, OVA

Korisne su informacije o kompatibilnosti slova, odnosno o preferiranim vezama slova međusobno, koje se lako mogu dobiti iz bigramskih frekvencijskih tablica.

Ovo se odnosi na tabelu u kojoj se najpoželjniji „komšije“ nalaze levo i desno od svakog slova (u opadajućem redosledu učestalosti odgovarajućih bigrama). Takve tabele obično takođe ukazuju na omjer samoglasnika i suglasnika (u procentima) koji prethode (ili slijede) dato slovo.

Kombinacija ruskih slova:

G WITH lijevo U redu G WITH
3 97 l, d, k, t, v, r, n A l, n, s, t, r, v, k, m 12 88
80 20 i, e, y, i, a, o B o, s, e, a, r, y 81 19
68 32 i, t, a, e, i, o IN o, a, i, s, s, n, l, r 60 40
78 22 r, y, a, i, e, o G o, a, p, l, i, v 69 31
72 28 r, i, y, a, i, e, o D e, a, i, o, n, y, p, v 68 32
19 81 m, i, l, d, t, r, n E n, t, r, s, l, v, m, i 12 88
83 17 r, e, i, a, y, o I e, i, d, a, n 71 29
89 11 o, e, a i Z a, n, c, o, m, d 51 49
27 73 r, t, m, i, o, l, n I s, n, c, i, e, m, k, h 25 75
55 45 b, v, e, o, a, i, s TO o, a, i, p, y, t, l, e 73 27
77 23 g, v, s, i, e, o, a L i, e, o, a, b, i, yu, y 75 25
80 20 i, s, a, i, e, o M i, e, o, y, a, n, p, s 73 27
55 45 d, b, n, o N o, a, i, e, s, n, y 80 20
11 89 r, p, k, v, t, n O c, s, t, r, i, d, n, m 15 85
65 35 u, sa, y, a, i, e, o P o, p, e, a, y, i, l 68 32
55 45 i, k, t, a, p, o, e R a, e, o, i, y, i, s, n 80 20
69 31 s, t, v, a, e, i, o WITH t, k, o, i, e, b, s, n 32 68
57 43 h, y, i, a, e, o, s T o, a, e, i, b, v, r, s 63 37
15 85 p, t, k, d, n, m, r U t, p, s, d, n, y, w 16 84
70 30 n, a, e, o, i F i, e, o, a, e, o, a 81 19
90 10 y, e, o, a, s i X o, i, s, n, v, p, r 43 57
69 31 e, yu, n, a i C i, e, a, s 93 7
82 18 e, a, y, i, o H e, i, t, n 66 34
67 33 b, y, s, e, o, a, i, v Sh e, i, n, a, o, l 68 32
84 16 e, b, a, i, y SCH e, i, a 97 3
0 100 m, r, t, s, b, c, n Y l, x, e, m, i, v, s, n 56 44
0 100 n, s, t, l b n, k, v, p, s, e, o, i 24 76
14 86 s, s, m, l, d, t, r, n E n, t, r, s, k 0 100
58 42 b, o, a, i, l, y Yu d, t, sch, c, n, str 11 89
43 57 o, n, r, l, a, i, s I c, s, t, p, d, k, m, l 16 84

Prilikom analize međusobne kompatibilnosti slova treba imati na umu ovisnost izgleda slova u običnom tekstu od značajnog broja prethodnih slova. Za analizu ovih obrazaca koristi se koncept uslovne vjerovatnoće.

Zapažanja u otvorenim tekstovima pokazuju da za uslovne vjerovatnoće vrijede sljedeće nejednakosti: p(a i1)≠p(a i1 /a i2), p(a i1 /a i2)≠p(a i1 /a i2 a i3),....

Pitanje zavisnosti slova abecede u običnom tekstu od prethodnih slova sistematski je proučavao poznati ruski matematičar A. A. Markov (1856 – 1922). On je dokazao da se pojavljivanje slova u otvorenom tekstu ne može smatrati nezavisnim jedno od drugog. S tim u vezi, A. A. Markov je primijetio još jedan stabilan obrazac otvorenih tekstova povezanih s izmjenom samoglasnika i suglasnika. Izračunao je učestalost pojavljivanja bigrama samoglasnika ( G, G), samoglasnik-suglasnik ( G, With), suglasnik-samoglasnik ( With, G), suglasnik-suglasnik ( With, With) na ruskom tekstu dužine 10 5 karaktera. Rezultati proračuna su prikazani u sljedećoj tabeli:

G WITH Ukupno
G 6588 38310 44898
WITH 38296 16806 55102

Iz ove tabele se može videti da ruski jezik karakteriše izmena samoglasnika i suglasnika, a relativne frekvencije mogu poslužiti kao aproksimacije odgovarajućih uslovnih i bezuslovnih verovatnoća:

str(G/With)≈0.663, str(With/G)≈0.872,
str(G)≈0.432, str(With)≈0.568.

Nakon A. A. Markova, ovisnost izgleda slova u tekstu, nakon nekoliko prethodnih, metodom teorije informacija proučavao je K. Shannon. U stvari, oni su posebno pokazali da je takva ovisnost uočljiva do dubine od približno 30 znakova, nakon čega je praktički izostaje.

Udio samoglasnika u književnom tekstu:

Gore navedeni obrasci primjenjuju se na obične "čitljive" otvorene tekstove koji se koriste u ljudskoj komunikaciji. Kao što je ranije navedeno, ovi obrasci igraju veliku ulogu u kriptoanalizi. Konkretno, koriste se u konstrukciji formalizovanih kriterijuma za otvoreni tekst, koji omogućavaju primenu metoda matematičke statistike u problemu prepoznavanja otvorenog teksta u toku poruka. Kada se koriste posebne abecede, potrebne su slične studije frekvencijskih karakteristika „otvorenih tekstova“ koje nastaju, na primjer, tokom razmjene informacija između mašine ili u sistemima za prenos podataka. U ovim slučajevima, konstruisanje formalizovanih kriterijuma za „jasan tekst” je mnogo teži zadatak.

Kao primjer dajemo frekvencijske karakteristike slova engleska abeceda, uključen u ASCII kod.

Pored kriptografije, frekvencijske karakteristike jasnih poruka značajno se koriste i u drugim oblastima. Na primjer, kompjuterska tastatura, pisaća mašina ili linotip je divno utjelovljenje ideje o ubrzavanju kucanja, povezano s optimizacijom rasporeda slova abecede jedan u odnosu na drugo, ovisno o učestalosti njihove upotrebe.

književnost:

Alferov A.P. et al., "Kriptografija"

Yaglom A.M., Yaglom I.M., Vjerovatnoća i informacije, M.: Nauka, 1973.

Baudouin C., Elements de cryptographie / Ed. Pedone A. – Pariz, 1939.

Friedman W. F., Callimahos D., Vojna kriptoanaliza, Dio I, Vol 2, Aegean Park Press, Laguna Hills CA, 1920.

Koje se slovo najčešće koristi u ruskom? A koji je najlakši način da saznate i dobijete najbolji odgovor

Odgovor od Viktora Edinovicha[gurua]

Jedini tačan odgovor! Nekada je svaki tipograf iz iskustva znao koji se font (slovo) najviše koristi prilikom kucanja.
Viktor Edinovich
Prosvetljeni
(38377)
br. Ja sam samo bivsi enciklopedista...

Odgovor od Elizaveta Ventsevich[guru]
Mislim "A".


Odgovor od Aleksandra Lapikova[guru]
prema stepenu istrošenosti tastature pisca


Odgovor od YolaFka[guru]
bukaFka AAAAAAAAAAAA))))


Odgovor od BOBA BOBAHOB[guru]
Mislim da je slovo "X" dokaz? samo prošetaj ulicom


Odgovor od * [stručnjak]
najčešće korištena 3 slova su U Y X


Odgovor od On[guru]
verovatno Komersant


Odgovor od Dyusmikeev Valery[guru]
Pismo A



Odgovor od &ʺ̱[guru]
Kako se svi šale. Naravno, slovo O!!!


Odgovor od Pavel Makagonov[guru]
O, pa E, pa I, pa A. Zatim suglasnici N, T, S, R, itd.
Morao sam da računam na osnovu velikog broja tekstova. Ne vjerujte huliganima.


Odgovor od Elena Strathberry[aktivan]
Naravno slovo R. Jer je u sredini tastature!! ! 🙂


Odgovor od Inga zajontz[guru]
uzimamo bilo koji rečnik, pre svega reči koje počinju sa "p", posle sa "r", posle sa "o", posle sa "T", na kraju najkarakterističnija reč za ruski je prostranost i jednostavnost
prema Dahlu


Odgovor od Alexander Reiser[guru]
Pokušajte da pogodite koje je slovo ruskog jezika najčešće?
Slovo O. Učestalost pojavljivanja – 0,090. Odnosno, u nizu od 1000 slova, slovo O će se pojaviti u prosjeku 90 puta.
Koja slova zauzimaju vodeće pozicije i najčešće se nalaze?
Samoglasnici. Oni su oni koji se najčešće nalaze u ruskom jeziku, čineći naš govor „melodičnim“. Iza O su slova E i E (zajedno nisu razdvojeni, jer prilikom pisanja često gube E). Učestalost pojavljivanja – 0,072. Iza njih su slova A i I. Učestalost pojavljivanja svakog od njih je 0,062.
Je li ovo dovoljno za dekodiranje teksta? U principu, da, ako smo sigurni da niz kodova sadrži tekst na ruskom u nekom od nama poznatih ili nepoznatih kodova. Ali uvek postoji izvesna verovatnoća da predstavljeni niz kodova nema nikakve veze sa ruskim jezikom. Da biste to potvrdili, trebate koristiti frekvencijski rječnik riječi na ruskom jeziku.
Šta mislite, koja se riječ najčešće javlja u ruskom jeziku?
Iza veznika I slijede jednako kratki dijelovi govora - IN, NOT, OH, ON. Ali najčešće će, naravno, doći do jaza.
Dekodirani tekst se mora provjeriti za podudaranje korištenjem frekvencijskog rječnika. I tek sa manje-više potpunom podudarnošću možemo reći da je riječ o tekstu napisanom na ruskom.
Ovo daje 100% rezultate ako je tekst dovoljno velik. Ako govorimo o nekoliko riječi, frekvencija slova (a još više riječi) može biti poremećena. Šta učiniti u ovom slučaju? Čitaocu moramo ponuditi nekoliko opcija za izbor. Dešifrirajte tekst koristeći jedno od najčešćih samoglasničkih slova. Samoglasnici! Uvijek će se pojavljivati ​​češće od ostalih slova. Ako je tekst kodiran na ruskom, tada je uspjeh zagarantovan.