Preview

The Herald of the Siberian State University of Telecommunications and Information Science

Advanced search

Importance of some bigram characteristics for Russian language texts

Abstract

To solve a number of text analysis problems, especially cryptographic, the known values of some frequency characteristics of natural language texts are required. The paper provides measuring results, depending on Russian language texts sizes: the number of alphabetic bigrams and digrams used in texts, as well as connected characteristics named as scatter index and conjunction index. Measurements were taken for two samples: the first sample includes nonfiction and fiction, the second one consists of university study guides. This paper represents alphabetic bigrams and digrams to form different but mathematically strictly related texts elements. Based on this relationship, the scatter index and the conjunction index are introduced enabling to distinguish texts in natural language from random texts, to determine misrepresentations in texts and the size of letter encoding. Bigrams frequency characteristics are submitted to be the most balanced characteristics according to stability, informativity, and computing efficiency.

About the Authors

Yu. .. Kotov
Новосибирский государственный технический университет
Russian Federation


O. .. Sanina
Новосибирский государственный технический университет
Russian Federation


References

1. Соснина Е. П. Введение в прикладную лингвистику. Ульяновск: Изд-во:УлГТУ, 2012.

2. Grigori Sidorov. Syntactic Dependency Based N-grams in Rule Based Automatic English as Second Language Grammar Correction // International Journal of Computational Linguistics and Applications. 2013. V. 4, № 2. Р. 169-188.

3. Grigori Sidorov, Francisco Velasquez, Efstathios Stamatatos, Alexander Gelbukh, and Liliana Chanona-Hernandez. Syntactic N-grams as Machine Learning Features for Natural Language Processing // Expert Systems with Applications. 2013. V. 41, № 3. Р. 853-860.

4. Нокель М. А. Метод учета структуры биграмм в тематических моделях // Вестник ВГУ, серия: Системный анализ и информационные технологии. 2014. № 4. С. 89-97.

5. Васильев Е. М., Жданова Д. В. Диахроническое исследование энтропии графем русского письма // Вестник Воронежского государственного технического университета. 2010. № 4. С. 1-3.

6. Васильев Е. М., Гусев К. Ю. Анализ избыточности русскоязычного текста // Вестник Воронежского государственного технического университета. 2010. № 8. С. 1-4.

7. Губарев В. В. Введение в теоретическую информатику. Новосибирск: Изд-во НГТУ. 2014. 420 с.

8. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материале Национального корпуса русского языка). М.: Азбуковник, 2009. 923 с.

9. Жданов О. Н., Куденкова И. А. Криптоанализ классических шифров. Красноярск: Изд-во Сиб. гос. аэрокосм. ун-та им. акад. М. Ф. Решетнева, 2008. 107 с.

10. Котов Ю. А. Детерминированная идентификация буквенных биграмм в русскоязычных текстах // Труды СПИИРАН. 2016. № 1. С. 181-197.

11. Котов Ю. А. Аппроксимация распределений частот буквенных биграмм текста для идентификации букв // Труды СПИИРАН. 2017. № 1. С. 190-208.

12. Бабенко Л. К., Ищукова Е. А., Маро Е. А., Сидоров И. Д., Кравченко П. П. Развитие криптографических методов и средств защиты информации // Известия ЮФУ. Технические науки. 2012. № 4. С. 40-50.

13. Бабенко Л. К., Ищукова Е. А. Анализ симметричных криптосистем // Известия ЮФУ. Технические науки. 2012. № 12. С. 136-147.

14. Глухов М. М., Круглов И. А., Пичкур А. Б., Черёмушкин А. В. Введение в теоретико-числовые методы криптографии. СПб.: Лань, 2011. 400 с.

15. Минеев М. П., Чубариков В. Н. Лекции по арифметическим вопросам криптографии. М.: Изд-во «Попечительский совет Механико-математического факультета МГУ им. М. В. Ломоносова», 2010. 186 с.

16. Sambasiva Rao Baragada, P. Satyanarayana Reddy. A Survey of Cryptanalytic Works Based on Genetic Algorithms // International Journal of Emerging Trends & Technology in Computer Science (IJETTCS). 2013. V. 2, № 5. Р. 18-22.

17. Amrit Pal Singh, Dr. S K. Pal and Dr. M P S Bhatia. The Firefly Algorithm and Application in Cryptanalysis of Monoalphabetic Substitution Ciphers // American Journal of Computer Science and Engineering Survey. 2013. V. 1, № 1. Р. 33-52.

18. Морозенко В. В., Плешкова И. Ю. О применении генетического алгоритма для криптоанализа шифра Тритемия-Белазо-Виженера // Современные проблемы науки и образования: электронный научный журнал. 2014. № 2. С. 1-11.

19. Aditi Bhateja, Shailender Kumar, Ashok К. Bhateja. Cryptanalysis of Vigenere Cipher using Particle Swarm Optimization with Markov chain random walk // International Journal on Computer Science and Engineering (IJCSE). 2013. V. 5, № 5. Р. 422-429.

20. Maya Mohan, M. К. Kavitha Devi, V. Jeevan Prakash. Security Analysis and Modification of Classical Encryption Scheme // Indian Journal of Science and Technology. 2015. V. 8, № 8. Р.542-548.


Review

For citations:


Kotov Yu..., Sanina O... Importance of some bigram characteristics for Russian language texts. The Herald of the Siberian State University of Telecommunications and Information Science. 2017;(4):24-34. (In Russ.)

Views: 879


Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 License.


ISSN 1998-6920 (Print)