Просмотр статьи


Номер журнала: 2018.4

Заголовок статьи: Идентификация пробела при неизвестной знаковой кодировке в русскоязычных текстах

Резюме

В работе рассматриваются два критерия идентификации пробела в русскоязычных текстах, представленных в неизвестной знаковой кодировке, и их совместное применение. Оба критерия основаны на сравнении распределения словника текста по длине слов с распределением Пуассона. В первом случае такое сравнение осуществляется на основе разности математического ожидания и дисперсии выборочного распределения, во втором – на основе отношения двух площадей распределения, называемого в работе индексом длины слов. Определена статистика этих критериев для текстов различного объёма и граничные условия для их применения. Проведено экспериментальное исследование погрешности использования данных критериев с найденными граничными условиями для решения задачи идентификации пробела и получена статистика для ошибок первого и второго рода.
На основе полученных данных для текстов различного объёма определены условия совместного использования данных критериев с учётом возможной миграции знака пробела в частотном упорядочивании знаков текста. Проведено экспериментальное исследование погрешности совместного использования данных критериев и получена статистика для ошибок первого и второго рода.

Авторы

Ю. А. Котов, О. В. Санина

Библиография

1. Thelwall M., Buckley K., Paltoglou G., Cai D., Kappas A. Sentiment in short strength detection informal text // Journal of the American Society for Information Science and Technology. 2010. V. 61, № 12. P. 2544–2558.
2. Bowker L. Computer-aided Translation Technology: A Practical Introduction Front Cover. Uni-versity of Ottawa Press, 2002. 185 p.
3. Ferrer-i-Cancho R., Elvevag B. Random texts do not exhibit the real Zipf’s law-like rank distri-bution // PLoS One. 2010. V. 5, № 3. P. 1–10.
4. Котов Ю. А. Детерминированная идентификация буквенных биграмм в русскоязычных текстах // Труды СПИИРАН. 2016. № 1. С. 181–197.
5. Котов Ю. А. Аппроксимация распределений частот буквенных биграмм текста для идентификации букв // Труды СПИИРАН. 2017. № 1 (50). С. 190–208.
6. Shannon C. Communication theory of secrecy systems // Bell System Technical Journal. 1949. V. 28, № 4. P. 656–715.
7. Жданов О. Н., Куденкова И. А. Криптоанализ классических шифров. Красноярск: Изд-во Сиб. гос. аэрокосм. ун-та им. акад. М. Ф. Решетнева. 2008. 107 с.
8. Абденов А. Ж., Котов Ю. А., Санина О. В. Значения некоторых униграммных характери-стик русскоязычных текстов // Научный вестник НГТУ. 2017. № 2 (67). С. 146–162.
9. Воевудский Д. С., Тушавин В. А. Статистическая обработка лингвистических данных ни-дерландско-русских словарей // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. 2013. № 1. С. 169–176.
10. Smith R. D. Distinct word length frequencies: distributions and symbol entropies // Glottomet-rics. 2012. V. 23. P. 7–22.
11. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на ма-териале Национального корпуса русского языка). М.: Азбуковник, 2009. 923 с.
12. Котов Ю. А., Санина О. В. Значения некоторых биграммных характеристик русско-язычных текстов // Вестник СибГУТИ. 2017. № 4 (40). С. 24–34.
13. Попов В. А. Теория вероятностей. Часть 2. Случайные величины. Казань: Казанский университет, 2013. 45 с.

Ключевые слова

знак пробела, идентификация, распределение Пуассона, индекс длины слов, частота встречаемости

Скачать полный текст