Просмотр статьи


Номер журнала: 2017.4

Заголовок статьи: Значения некоторых биграммных характеристик русскоязычных текстов

Резюме

Для решения ряда задач анализа текстов, особенно криптографических, необходимы известные значения некоторых частотных характеристик текстов на естественном языке. В статье приведены результаты измерений в зависимости от объемов для русскоязычных текстов количества используемых в них буквенных биграмм и диграмм, а также связанных характеристик, названных индексами отклонения и сопряжения. Измерения проведены на двух представительных выборках для научно-популярных и художественных текстов и текстов учебных пособий для вузов. Показано, что буквенные биграммы и диграммы образуют различные, но математически строго связанные, элементы текстов. На основе такой связи введены индексы отклонения и сопряжения, которые позволяют отличить тексты на естественном языке от случайных текстов, определять искажения в текстах или размер кодировки букв. Биграммные частотные характеристики представляются сбалансированными по стабильности, информативности и вычислительной эффективности характеристиками текстов.

Авторы

Ю. А. Котов, О. В. Санина

Библиография

1. Соснина Е. П. Введение в прикладную лингвистику. Ульяновск: Изд-во: УлГТУ, 2012.
2. Grigori Sidorov. Syntactic Dependency Based N-grams in Rule Based Automatic English as Second Language Grammar Correction // International Journal of Computational Linguistics and Applications. 2013. V. 4, № 2. Р. 169–188.
3. Grigori Sidorov, Francisco Velasquez, Efstathios Stamatatos, Alexander Gelbukh, and Liliana Chanona-Hernández. Syntactic N-grams as Machine Learning Features for Natural Language Processing // Expert Systems with Applications. 2013. V. 41, № 3. Р. 853–860.
4. Нокель М. А. Метод учета структуры биграмм в тематических моделях // Вестник ВГУ, серия: Системный анализ и информационные технологии. 2014. № 4. С. 89–97.
5. Васильев Е. М., Жданова Д. В. Диахроническое исследование энтропии графем русского письма // Вестник Воронежского государственного технического университета. 2010. № 4. С. 1–3.
6. Васильев Е. М., Гусев К. Ю. Анализ избыточности русскоязычного текста // Вестник Воронежского государственного технического университета. 2010. № 8. С. 1–4.
7. Губарев В. В. Введение в теоретическую информатику. Новосибирск: Изд-во НГТУ. 2014. 420 с.
8. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материале Национального корпуса русского языка). М.: Азбуковник, 2009. 923 с.
9. Жданов О. Н., Куденкова И. А. Криптоанализ классических шифров. Красноярск: Изд-во Сиб. гос. аэрокосм. ун-та им. акад. М. Ф. Решетнева, 2008. 107 с.
10. Котов Ю. А. Детерминированная идентификация буквенных биграмм в русскоязычных текстах // Труды СПИИРАН. 2016. № 1. С. 181–197.
11. Котов Ю. А. Аппроксимация распределений частот буквенных биграмм текста для идентификации букв // Труды СПИИРАН. 2017. № 1. С. 190–208.
12. Бабенко Л. К., Ищукова Е. А., Маро Е. А., Сидоров И. Д., Кравченко П. П. Развитие криптографических методов и средств защиты информации // Известия ЮФУ. Технические науки. 2012. № 4. С. 40–50.
13. Бабенко Л. К., Ищукова Е. А. Анализ симметричных криптосистем // Известия ЮФУ. Технические науки. 2012. № 12. С. 136–147.
14. Глухов М. М., Круглов И. А., Пичкур А. Б., Черёмушкин А. В. Введение в теоретико-числовые методы криптографии. СПб.: Лань, 2011. 400 с.
15. Минеев М. П., Чубариков В. Н. Лекции по арифметическим вопросам криптографии. М.: Изд-во «Попечительский совет Механико-математического факультета МГУ им. М. В. Ломоносова», 2010. 186 с.
16. Sambasiva Rao Baragada, P. Satyanarayana Reddy. A Survey of Cryptanalytic Works Based on Genetic Algorithms // International Journal of Emerging Trends & Technology in Computer Science (IJETTCS). 2013. V. 2, № 5. Р. 18–22.
17. Amrit Pal Singh, Dr. S K. Pal and Dr. M P S Bhatia. The Firefly Algorithm and Application in Cryptanalysis of Monoalphabetic Substitution Ciphers // American Journal of Computer Science and Engineering Survey. 2013. V. 1, № 1. Р. 33–52.
18. Морозенко В. В., Плешкова И. Ю. О применении генетического алгоритма для криптоанализа шифра Тритемия–Белазо–Виженера // Современные проблемы науки и образования: электронный научный журнал. 2014. № 2. С. 1–11.
19. Aditi Bhateja, Shailender Kumar, Ashok K. Bhateja. Cryptanalysis of Vigenere Cipher using Particle Swarm Optimization with Markov chain random walk // International Journal on Computer Science and Engineering (IJCSE). 2013. V. 5, № 5. Р. 422–429.
20. Maya Mohan, M. K. Kavitha Devi, V. Jeevan Prakash. Security Analysis and Modification of Classical Encryption Scheme // Indian Journal of Science and Technology. 2015. V. 8, № 8. Р. 542–548.

Ключевые слова

выборка, тексты, буквы, частота встречаемости, биграмма, диграмма, индекс отклонения, индекс сопряжения.

Скачать полный текст