Preview

Вестник СибГУТИ

Расширенный поиск

Анализ тональности узбекских текстов с использованием NER: сравнительное исследование моделей SVM, LSTM и BERT

https://doi.org/10.55648/1998-6920-2025-19-4-3-16

Аннотация

В данной статье проводится сравнительный анализ методов машинного обучения (SVM), глубокого обучения (LSTM) и трансформерных моделей (BERT) для классификации тональности узбекских текстов с использованием распознавания именованных сущностей (NER). Исследование направлено на решение проблемы точного определения эмоциональной окраски в морфологически сложных языках с ограниченными ресурсами, на примере узбекского – тюркского языка с агглютинативной структурой. Для экспериментов использован датасет из 10 000 пользовательских комментариев из социальных сетей, аннотированных вручную (тональность: положительная, отрицательная,
нейтральная) и автоматически (NER через CRF-модель для идентификации брендов, локаций и публичных лиц). Интеграция NER позволила устранить контекстуальные неоднозначности, например, разграничение предложений: «Обожаю историю Самарканда» (положительный оттенок) и «Пробки в Самарканде невыносимы» (отрицательный). Результаты показали, что BERT, дообученный на узбекских текстах, достиг наивысшей точности (90.2%) благодаря контекстуализированным эмбеддингам, связывающим сущности с тональностью. LSTM продемонстрировал конкурентоспособную точность (85.1%) в анализе последовательностей, но требовал больших объёмов данных. SVM, несмотря на вычислительную эффективность, показал скромные результаты (78.3%) из-за неспособности учитывать лингвистические нюансы. Исследование подчеркивает важность NER для низкоресурсных языков в устранении неоднозначности и предлагает рекомендации по внедрению BERT в прикладные задачи (например, анализ отзывов). Обсуждаются ограничения, включая недостаток данных и высокие вычислительные затраты, что определяет направления будущих исследований для оптимизации моделей под узбекский язык.

Об авторах

Бобур Рашидович Саидов
Новосибирский национальный исследовательский государственный университет
Узбекистан

аспирант, Новосибирский государственный университет



Владимир Борисович Барахнин
Новосибирский национальный исследовательский государственный университет, Федеральный исследовательский центр информационных и вычислительных технологий
Россия

доктор технических наук, доцент, Новосибирский государственный университет



Список литературы

1. Lample G., Ballesteros M., Subramanian S., Kawakami K., Dyer C. Neural Architectures for Named Entity Recognition // Proceedings of NAACL-HLT. – 2016. – P. 260–270. DOI: 10.18653/v1/N16-1030

2. Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching Word Vectors with Subword Information // arXiv preprint arXiv:1607.04606. – 2016. – 12 p. URL: https://arxiv.org/abs/1607.04606

3. Liu Y., Ott M., Goyal N., Du J., Joshi M. RoBERTa: A Robustly Optimized BERT Pretraining Approach // arXiv preprint arXiv:1907.11692. – 2019. – 13 p.

4. Xolmirzayev A., Yusupov S. Rule-Based Sentiment Analysis for Uzbek Texts // Proceedings of the International Conference on Information Science and Communications Technologies (ICISCT). – 2021. – P. 1–4.

5. Hochreiter S., Schmidhuber J. Long Short-Term Memory // Neural Computation. – 1997. – Vol. 9(8). – P. 1735–1780. DOI: 10.1162/neco.1997.9.8.1735

6. Lample G., Ballesteros M., Subramanian S., Kawakami K., Dyer C. Neural Architectures for Named Entity Recognition // Proceedings of NAACL-HLT. – 2016. – P. 260–270.

7. Kuriyozov Z., Muhamediev R. Uzbek Language Processing: Challenges and Opportunities // International Journal of Advanced Computer Science and Applications. – 2020. – Vol. 11(6). – P. 123–130. DOI: 10.14569/IJACSA.2020.0110616

8. Tjong Kim Sang E., De Meulder F. Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition // Proceedings of CoNLL-2003. – 2003. – P. 142–147. URL: https://aclanthology.org/W03-0419

9. Hochreiter S., Schmidhuber J. Long Short-Term Memory // Neural Computation. – 1997. – Vol. 9(8). – P. 1735–1780.

10. Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space // arXiv preprint arXiv:1301.3781. – 2013. – 12 p. URL: https://arxiv.org/abs/1301.3781

11. Devlin J., Chang M., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // arXiv preprint arXiv:1810.04805. – 2018. – 16 p. URL: https://arxiv.org/abs/1810.04805

12. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L. Attention Is All You Need // Advances in Neural Information Processing Systems (NIPS). – 2017. – P. 5998–6008. URL:

13. https://proceedings.neurips.cc/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aaAbstract.html

14. Pang B., Lee L. Opinion Mining and Sentiment Analysis // Foundations and Trends in Information Retrieval. – 2008. – Vol. 2. – P. 1–135.

15. Yusupov F., Abdullaev S. Named Entity Recognition for Uzbek Using Conditional Random Fields // Proceedings of AINL-ISMW. – 2019. – P. 45–52. URL: https://ceurws.org/Vol-2499/paper11.pdf

16. Abidov A., Mirzaev T. UzBERT: A Pretrained Language Model for Uzbek // Technical Report, Tashkent University of Information Technologies. – 2022. – 25 p. URL: https://archive.org/details/uzbert-report

17. Sutton C., McCallum A. An Introduction to Conditional Random Fields // Foundations and Trends in Machine Learning. – 2012. – Vol. 4(4). – P. 267–373. DOI: 10.1561/2200000013

18. Jiao X., Yin Y., Shang L., Jiang X., Chen X., Li L., Wang F., Liu Q. TinyBERT: Distilling BERT for Natural Language Understanding arXiv preprint arXiv:1909.10351. 2019. URL: https://arxiv.org/abs/1909.10351

19. Sanh V., Debut L., Chaumond J., Wolf T. DistilBERT, a Distilled Version of BERT: Smaller, Faster, Cheaper and Lighter arXiv preprint arXiv:1910.01108. 2019. URL: https://arxiv.org/abs/1910.01108

20. Rakhimov S., Khamidov J. Development of a Morphological Analyzer for Uzbek // Journal of Natural Language Engineering. – 2021. – Vol. 27(3). – P. 311–328. DOI: 10.1017/S1351324921000047

21. Rasulov A., Karimov J. Building a Corpus for Low-Resource Languages: A Case Study on Uzbek // Proceedings of LREC. – 2022. – P. 112–119. URL: https://aclanthology.org/2022.lrec-1.12


Рецензия

Для цитирования:


Саидов Б.Р., Барахнин В.Б. Анализ тональности узбекских текстов с использованием NER: сравнительное исследование моделей SVM, LSTM и BERT. Вестник СибГУТИ. 2025;19(4):3-17. https://doi.org/10.55648/1998-6920-2025-19-4-3-16

For citation:


Saidov B.R., Barakhnin V.B. Sentiment analysis of Uzbek texts using NER: a comparative study of SVM, LSTM, and BERT models. The Herald of the Siberian State University of Telecommunications and Information Science. 2025;19(4):3-17. https://doi.org/10.55648/1998-6920-2025-19-4-3-16

Просмотров: 4


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1998-6920 (Print)