Просмотр статьи


Номер журнала: 2020.1

Заголовок статьи: Идентификация пробела при неизвестной знаковой кодировке в англоязычных текстах

Резюме

В статье рассматриваются три критерия идентификации пробела в англоязычных текстах с неизвестной знаковой кодировкой. Два критерия основаны на оценке отклонения распределения по длине словоформ словника текста от распределения Пуассона, ещё один – на частоте встречаемости в текстах пробела. Приведена статистика критериев для англоязычных текстов различного объёма. Определены граничные значения предложенных критериев и проведена экспериментальная оценка ошибок первого и второго рода. На основе полученных в работе данных определены условия совместного использования рассмотренных критериев. Погрешность идентификации пробела в англоязычных текстах с использованием предложенных критериев проверена на контрольной выборке.

Авторы

Ю. А. Котов, О. В. Санина

Библиография

1. Котов Ю. А., Санина О. В. Идентификация пробела при неизвестной знаковой кодировке в русскоязычных текстах // Вестник СибГУТИ. 2018. № 4. С. 48–60.
2. Абденов А. Ж., Котов Ю. А., Санина О. В. Значения некоторых униграммных характери-стик русскоязычных текстов // Научный вестник Новосибирского государственного тех-нического университета. 2017. № 2. С. 146–162.
3. Oganian Y, Conrad M., Aryani A., Heekeren H. R., Spalek K. Interplay of bigram frequency and orthographic neighborhood statistics in language membership decision // Bilingualism: Language and Cognition. 2016. V. 19, № 3. P. 578–596.
4. Jones M. N., Mewhort D. J. K. Case-sensitive letter and bigram frequency counts from large-scale English corpora // Behavior Research Methods, Instruments, & Computers. 2004. V. 36, № 3. P. 388–396.
5. Kale. S., Prasad R. Author Identification on Literature in Different Languages: A Systematic Survey // 2018 International Conference On Advances in Communication and Computing Technology (ICACCT). Sangamner, India, February 8-9, 2018. P. 174–181.
6. Chuah C. W., A/L Samylingam V., Darmawan I., Shamala A/P Palaniappan P. S., Mohd Foozy C. F., Ramli S. N., Alawatugod J. Analysis of Four Historical Ciphers Against Known Plaintext Frequency Statistical Attack // International Journal of Integrated Engineering. 2018. V. 10. P. 183–192.
7. Blondeau C., Nyberg K. Joint data and key distribution of simple, multiple, and multidimen-sional linear cryptanalysis test statistic and its impact to data complexity // Designs, Codes and Cryptography. 2017. V. 82, № 1. P. 319–349.
8. Sharma N., Meghwal H., Mehta M., Kumar T. A Review on Playfair Substitution Cipher and Frequency Analysis Attack on Playfair // 2nd International Conference on Trends in Electronics and Informatics (ICOEI). Tirunelveli, India, May 11–12, 2018. P. 1–9.
9. Rubinstein-Salzedo S. The Vigenère Cipher // Cryptography. 2018. P. 41–54.
10. Rajput N. K., Ahuja B., Riyal M. K. A statistical probe into the word frequency and length dis-tributions prevalent in the translations of Bhagavad Gita // Pramana – Journal of Physics. 2019. V. 92, № 4. P. 60.
11. Kotov Yu. A., Sanina O. V. Criteria and Algorithm for the Russian Language Text Recognition Based on the Frequency Characteristics Set // 2018 XIV International scientific-technical con-ference on actual problems of electronic instrument engineering (APEIE 2018). Novosibirsk,
Russia, October 2 6, 2018. P. 175–179.
12. Yang N., Mali A. D. Modifying Keyboard Layout to Reduce Finger-Travel Distance // 2016 IEEE 28th International Conference on Tools with Artificial Intelligence (ICTAI). San Jose, CA, USA, November 6–8, 2016. P. 165–168.

Ключевые слова

знак пробела, идентификация, распределение Пуассона, индекс длины слов, частота встречаемости

Скачать полный текст