Анализ тональности узбекских текстов с использованием NER: сравнительное исследование моделей SVM, LSTM и BERT
https://doi.org/10.55648/1998-6920-2025-19-4-3-16
Аннотация
В данной статье проводится сравнительный анализ методов машинного обучения (SVM), глубокого обучения (LSTM) и трансформерных моделей (BERT) для классификации тональности узбекских текстов с использованием распознавания именованных сущностей (NER). Исследование направлено на решение проблемы точного определения эмоциональной окраски в морфологически сложных языках с ограниченными ресурсами, на примере узбекского – тюркского языка с агглютинативной структурой. Для экспериментов использован датасет из 10 000 пользовательских комментариев из социальных сетей, аннотированных вручную (тональность: положительная, отрицательная,
нейтральная) и автоматически (NER через CRF-модель для идентификации брендов, локаций и публичных лиц). Интеграция NER позволила устранить контекстуальные неоднозначности, например, разграничение предложений: «Обожаю историю Самарканда» (положительный оттенок) и «Пробки в Самарканде невыносимы» (отрицательный). Результаты показали, что BERT, дообученный на узбекских текстах, достиг наивысшей точности (90.2%) благодаря контекстуализированным эмбеддингам, связывающим сущности с тональностью. LSTM продемонстрировал конкурентоспособную точность (85.1%) в анализе последовательностей, но требовал больших объёмов данных. SVM, несмотря на вычислительную эффективность, показал скромные результаты (78.3%) из-за неспособности учитывать лингвистические нюансы. Исследование подчеркивает важность NER для низкоресурсных языков в устранении неоднозначности и предлагает рекомендации по внедрению BERT в прикладные задачи (например, анализ отзывов). Обсуждаются ограничения, включая недостаток данных и высокие вычислительные затраты, что определяет направления будущих исследований для оптимизации моделей под узбекский язык.
Ключевые слова
Об авторах
Бобур Рашидович СаидовУзбекистан
аспирант, Новосибирский государственный университет
Владимир Борисович Барахнин
Россия
доктор технических наук, доцент, Новосибирский государственный университет
Список литературы
1. Lample G., Ballesteros M., Subramanian S., Kawakami K., Dyer C. Neural Architectures for Named Entity Recognition // Proceedings of NAACL-HLT. – 2016. – P. 260–270. DOI: 10.18653/v1/N16-1030
2. Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching Word Vectors with Subword Information // arXiv preprint arXiv:1607.04606. – 2016. – 12 p. URL: https://arxiv.org/abs/1607.04606
3. Liu Y., Ott M., Goyal N., Du J., Joshi M. RoBERTa: A Robustly Optimized BERT Pretraining Approach // arXiv preprint arXiv:1907.11692. – 2019. – 13 p.
4. Xolmirzayev A., Yusupov S. Rule-Based Sentiment Analysis for Uzbek Texts // Proceedings of the International Conference on Information Science and Communications Technologies (ICISCT). – 2021. – P. 1–4.
5. Hochreiter S., Schmidhuber J. Long Short-Term Memory // Neural Computation. – 1997. – Vol. 9(8). – P. 1735–1780. DOI: 10.1162/neco.1997.9.8.1735
6. Lample G., Ballesteros M., Subramanian S., Kawakami K., Dyer C. Neural Architectures for Named Entity Recognition // Proceedings of NAACL-HLT. – 2016. – P. 260–270.
7. Kuriyozov Z., Muhamediev R. Uzbek Language Processing: Challenges and Opportunities // International Journal of Advanced Computer Science and Applications. – 2020. – Vol. 11(6). – P. 123–130. DOI: 10.14569/IJACSA.2020.0110616
8. Tjong Kim Sang E., De Meulder F. Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition // Proceedings of CoNLL-2003. – 2003. – P. 142–147. URL: https://aclanthology.org/W03-0419
9. Hochreiter S., Schmidhuber J. Long Short-Term Memory // Neural Computation. – 1997. – Vol. 9(8). – P. 1735–1780.
10. Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space // arXiv preprint arXiv:1301.3781. – 2013. – 12 p. URL: https://arxiv.org/abs/1301.3781
11. Devlin J., Chang M., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // arXiv preprint arXiv:1810.04805. – 2018. – 16 p. URL: https://arxiv.org/abs/1810.04805
12. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L. Attention Is All You Need // Advances in Neural Information Processing Systems (NIPS). – 2017. – P. 5998–6008. URL:
13. https://proceedings.neurips.cc/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aaAbstract.html
14. Pang B., Lee L. Opinion Mining and Sentiment Analysis // Foundations and Trends in Information Retrieval. – 2008. – Vol. 2. – P. 1–135.
15. Yusupov F., Abdullaev S. Named Entity Recognition for Uzbek Using Conditional Random Fields // Proceedings of AINL-ISMW. – 2019. – P. 45–52. URL: https://ceurws.org/Vol-2499/paper11.pdf
16. Abidov A., Mirzaev T. UzBERT: A Pretrained Language Model for Uzbek // Technical Report, Tashkent University of Information Technologies. – 2022. – 25 p. URL: https://archive.org/details/uzbert-report
17. Sutton C., McCallum A. An Introduction to Conditional Random Fields // Foundations and Trends in Machine Learning. – 2012. – Vol. 4(4). – P. 267–373. DOI: 10.1561/2200000013
18. Jiao X., Yin Y., Shang L., Jiang X., Chen X., Li L., Wang F., Liu Q. TinyBERT: Distilling BERT for Natural Language Understanding arXiv preprint arXiv:1909.10351. 2019. URL: https://arxiv.org/abs/1909.10351
19. Sanh V., Debut L., Chaumond J., Wolf T. DistilBERT, a Distilled Version of BERT: Smaller, Faster, Cheaper and Lighter arXiv preprint arXiv:1910.01108. 2019. URL: https://arxiv.org/abs/1910.01108
20. Rakhimov S., Khamidov J. Development of a Morphological Analyzer for Uzbek // Journal of Natural Language Engineering. – 2021. – Vol. 27(3). – P. 311–328. DOI: 10.1017/S1351324921000047
21. Rasulov A., Karimov J. Building a Corpus for Low-Resource Languages: A Case Study on Uzbek // Proceedings of LREC. – 2022. – P. 112–119. URL: https://aclanthology.org/2022.lrec-1.12
Рецензия
Для цитирования:
Саидов Б.Р., Барахнин В.Б. Анализ тональности узбекских текстов с использованием NER: сравнительное исследование моделей SVM, LSTM и BERT. Вестник СибГУТИ. 2025;19(4):3-17. https://doi.org/10.55648/1998-6920-2025-19-4-3-16
For citation:
Saidov B.R., Barakhnin V.B. Sentiment analysis of Uzbek texts using NER: a comparative study of SVM, LSTM, and BERT models. The Herald of the Siberian State University of Telecommunications and Information Science. 2025;19(4):3-17. https://doi.org/10.55648/1998-6920-2025-19-4-3-16

















