Preview

Вестник СибГУТИ

Расширенный поиск

Значения некоторых биграммных характеристик русскоязычных текстов

Аннотация

Для решения ряда задач анализа текстов, особенно криптографических, необходимы известные значения некоторых частотных характеристик текстов на естественном языке. В статье приведены результаты измерений в зависимости от объемов для русскоязычных текстов количества используемых в них буквенных биграмм и диграмм, а также связанных характеристик, названных индексами отклонения и сопряжения. Измерения проведены на двух представительных выборках для научно-популярных и художественных текстов и текстов учебных пособий для вузов. Показано, что буквенные биграммы и диграммы образуют различные, но математически строго связанные, элементы текстов. На основе такой связи введены индексы отклонения и сопряжения, которые позволяют отличить тексты на естественном языке от случайных текстов, определять искажения в текстах или размер кодировки букв. Биграммные частотные характеристики представляются сбалансированными по стабильности, информативности и вычислительной эффективности характеристиками текстов.

Об авторах

Ю. А. Котов
Новосибирский государственный технический университет
Россия


О. В. Санина
Новосибирский государственный технический университет
Россия


Список литературы

1. Соснина Е. П. Введение в прикладную лингвистику. Ульяновск: Изд-во:УлГТУ, 2012.

2. Grigori Sidorov. Syntactic Dependency Based N-grams in Rule Based Automatic English as Second Language Grammar Correction // International Journal of Computational Linguistics and Applications. 2013. V. 4, № 2. Р. 169-188.

3. Grigori Sidorov, Francisco Velasquez, Efstathios Stamatatos, Alexander Gelbukh, and Liliana Chanona-Hernandez. Syntactic N-grams as Machine Learning Features for Natural Language Processing // Expert Systems with Applications. 2013. V. 41, № 3. Р. 853-860.

4. Нокель М. А. Метод учета структуры биграмм в тематических моделях // Вестник ВГУ, серия: Системный анализ и информационные технологии. 2014. № 4. С. 89-97.

5. Васильев Е. М., Жданова Д. В. Диахроническое исследование энтропии графем русского письма // Вестник Воронежского государственного технического университета. 2010. № 4. С. 1-3.

6. Васильев Е. М., Гусев К. Ю. Анализ избыточности русскоязычного текста // Вестник Воронежского государственного технического университета. 2010. № 8. С. 1-4.

7. Губарев В. В. Введение в теоретическую информатику. Новосибирск: Изд-во НГТУ. 2014. 420 с.

8. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материале Национального корпуса русского языка). М.: Азбуковник, 2009. 923 с.

9. Жданов О. Н., Куденкова И. А. Криптоанализ классических шифров. Красноярск: Изд-во Сиб. гос. аэрокосм. ун-та им. акад. М. Ф. Решетнева, 2008. 107 с.

10. Котов Ю. А. Детерминированная идентификация буквенных биграмм в русскоязычных текстах // Труды СПИИРАН. 2016. № 1. С. 181-197.

11. Котов Ю. А. Аппроксимация распределений частот буквенных биграмм текста для идентификации букв // Труды СПИИРАН. 2017. № 1. С. 190-208.

12. Бабенко Л. К., Ищукова Е. А., Маро Е. А., Сидоров И. Д., Кравченко П. П. Развитие криптографических методов и средств защиты информации // Известия ЮФУ. Технические науки. 2012. № 4. С. 40-50.

13. Бабенко Л. К., Ищукова Е. А. Анализ симметричных криптосистем // Известия ЮФУ. Технические науки. 2012. № 12. С. 136-147.

14. Глухов М. М., Круглов И. А., Пичкур А. Б., Черёмушкин А. В. Введение в теоретико-числовые методы криптографии. СПб.: Лань, 2011. 400 с.

15. Минеев М. П., Чубариков В. Н. Лекции по арифметическим вопросам криптографии. М.: Изд-во «Попечительский совет Механико-математического факультета МГУ им. М. В. Ломоносова», 2010. 186 с.

16. Sambasiva Rao Baragada, P. Satyanarayana Reddy. A Survey of Cryptanalytic Works Based on Genetic Algorithms // International Journal of Emerging Trends & Technology in Computer Science (IJETTCS). 2013. V. 2, № 5. Р. 18-22.

17. Amrit Pal Singh, Dr. S K. Pal and Dr. M P S Bhatia. The Firefly Algorithm and Application in Cryptanalysis of Monoalphabetic Substitution Ciphers // American Journal of Computer Science and Engineering Survey. 2013. V. 1, № 1. Р. 33-52.

18. Морозенко В. В., Плешкова И. Ю. О применении генетического алгоритма для криптоанализа шифра Тритемия-Белазо-Виженера // Современные проблемы науки и образования: электронный научный журнал. 2014. № 2. С. 1-11.

19. Aditi Bhateja, Shailender Kumar, Ashok К. Bhateja. Cryptanalysis of Vigenere Cipher using Particle Swarm Optimization with Markov chain random walk // International Journal on Computer Science and Engineering (IJCSE). 2013. V. 5, № 5. Р. 422-429.

20. Maya Mohan, M. К. Kavitha Devi, V. Jeevan Prakash. Security Analysis and Modification of Classical Encryption Scheme // Indian Journal of Science and Technology. 2015. V. 8, № 8. Р.542-548.


Рецензия

Для цитирования:


Котов Ю.А., Санина О.В. Значения некоторых биграммных характеристик русскоязычных текстов. Вестник СибГУТИ. 2017;(4):24-34.

For citation:


Kotov Yu..., Sanina O... Importance of some bigram characteristics for Russian language texts. The Herald of the Siberian State University of Telecommunications and Information Science. 2017;(4):24-34. (In Russ.)

Просмотров: 878


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1998-6920 (Print)