Анализ тональности узбекских текстов с использованием NER: сравнительное исследование моделей SVM, LSTM и BERT

Бобур Рашидович Саидов; Владимир Борисович Барахнин

doi:10.55648/1998-6920-2025-19-4-3-16

Анализ тональности узбекских текстов с использованием NER: сравнительное исследование моделей SVM, LSTM и BERT

Бобур Рашидович Саидов, Владимир Борисович Барахнин

https://doi.org/10.55648/1998-6920-2025-19-4-3-16

Полный текст:

PDF (Eng)

сгенерировать QR код

Аннотация

В данной статье проводится сравнительный анализ методов машинного обучения (SVM), глубокого обучения (LSTM) и трансформерных моделей (BERT) для классификации тональности узбекских текстов с использованием распознавания именованных сущностей (NER). Исследование направлено на решение проблемы точного определения эмоциональной окраски в морфологически сложных языках с ограниченными ресурсами, на примере узбекского – тюркского языка с агглютинативной структурой. Для экспериментов использован датасет из 10 000 пользовательских комментариев из социальных сетей, аннотированных вручную (тональность: положительная, отрицательная,
нейтральная) и автоматически (NER через CRF-модель для идентификации брендов, локаций и публичных лиц). Интеграция NER позволила устранить контекстуальные неоднозначности, например, разграничение предложений: «Обожаю историю Самарканда» (положительный оттенок) и «Пробки в Самарканде невыносимы» (отрицательный). Результаты показали, что BERT, дообученный на узбекских текстах, достиг наивысшей точности (90.2%) благодаря контекстуализированным эмбеддингам, связывающим сущности с тональностью. LSTM продемонстрировал конкурентоспособную точность (85.1%) в анализе последовательностей, но требовал больших объёмов данных. SVM, несмотря на вычислительную эффективность, показал скромные результаты (78.3%) из-за неспособности учитывать лингвистические нюансы. Исследование подчеркивает важность NER для низкоресурсных языков в устранении неоднозначности и предлагает рекомендации по внедрению BERT в прикладные задачи (например, анализ отзывов). Обсуждаются ограничения, включая недостаток данных и высокие вычислительные затраты, что определяет направления будущих исследований для оптимизации моделей под узбекский язык.

Ключевые слова

анализ тональности, распознавание именованных сущностей (NER), узбекский язык, BERT, низкоресурсная обработка естественного языка

Об авторах

Бобур Рашидович Саидов

Новосибирский национальный исследовательский государственный университет
Узбекистан

аспирант, Новосибирский государственный университет

Владимир Борисович Барахнин

Новосибирский национальный исследовательский государственный университет; Федеральный исследовательский центр информационных и вычислительных технологий
Россия

доктор технических наук, доцент, Новосибирский государственный университет

Список литературы

1. Lample G., Ballesteros M., Subramanian S., Kawakami K., Dyer C. Neural Architectures for Named Entity Recognition. NAACL-HLT, 2016, p. 260–270. DOI: 10.18653/v1/N161030

2. Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching Word Vectors with Subword Information. arXiv preprint arXiv:1607.04606, 2016, 12 p. URL: https://arxiv.org/abs/1607.04606

3. Liu Y., Ott M., Goyal N., Du J., Joshi M. RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv preprint arXiv:1907.11692, 2019, 13 p.

4. Xolmirzayev A., Yusupov S. Rule-Based Sentiment Analysis for Uzbek Texts, International Conference on Information Science and Communications Technologies (ICISCT), 2021, p. 1–4.

5. Hochreiter S., Schmidhuber J. Long Short-Term Memory. Neural Computation, 1997, Vol. 9(8), p. 1735–1780. DOI: 10.1162/neco.1997.9.8.1735

6. Lample G., Ballesteros M., Subramanian S., Kawakami K., Dyer C. Neural Architectures for Named Entity Recognition. NAACL-HLT, 2016, p. 260–270.

7. Kuriyozov Z., Muhamediev R. Uzbek Language Processing: Challenges and Opportunities. International Journal of Advanced Computer Science and Applications, 2020, vol. 11(6), p. 123–130. DOI: 10.14569/IJACSA.2020.0110616

8. Zero-shot sentiment analysis: e.g., Yin et al. (2020)

9. Transfer learning for low-resource languages: e.g., Conneau et al. (2020)

10. Lightweight BERT models: Jiao et al. (2019), Sanh et al. (2019)

11. Devlin J., Chang M., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805, 2018, 16 p. URL: https://arxiv.org/abs/1810.04805

12. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L. Attention Is All You Need. Advances in Neural Information Processing Systems (NIPS), 2017, p. 5998–6008. URL: https://proceedings.neurips.cc/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aa-Abstract.html

13. Saidov B. R., Barakhnin V. B., Sharipov E. J., Maksetbaev A. B., Ruzimov J. O., Abdullayev R. M. Development and Realization of Software Application for Syntax Checking of Karakalpak Language Text. IEEE 3rd International Conference on Problems of Informatics, Electronics and Radio Engineering (PIERE), 2024. https://ieeexplore.ieee.org/document/10804984

14. Yusupov F., Abdullaev S. Named Entity Recognition for Uzbek Using Conditional Random Fields. AINL-ISMW, 2019, p. 45–52. URL: https://ceur-ws.org/Vol-2499/paper11.pdf

15. Abidov A., Mirzaev T. UzBERT: A Pretrained Language Model for Uzbek. Technical Report, Tashkent University of Information Technologies, 2022, 25 p. URL: https://archive.org/details/uzbert-report

16. Sutton C., McCallum A. An Introduction to Conditional Random Fields. Foundations and Trends in Machine Learning, 2012, vol. 4(4), p. 267–373. DOI: 10.1561/2200000013

17. Jiao X., Yin Y., Shang L., Jiang X., Chen X., Li L., Wang F., Liu Q. TinyBERT: Distilling BERT for Natural Language Understanding, arXiv preprint arXiv:1909.10351, 2019, URL: https://arxiv.org/abs/1909.10351

18. Sanh V., Debut L., Chaumond J., Wolf T. DistilBERT, a Distilled Version of BERT: Smaller, Faster, Cheaper and Lighter, arXiv preprint arXiv:1910.01108, 2019, URL: https://arxiv.org/abs/1910.01108

19. Rakhimov S., Khamidov J. Development of a Morphological Analyzer for Uzbek. Journal of Natural Language Engineering, 2021, vol. 27(3), p. 311–328. DOI: 10.1017/S1351324921000047

20. Rasulov A., Karimov J. Building a Corpus for Low-Resource Languages: A Case Study on Uzbek. LREC, 2022, p. 112–119. URL: https://aclanthology.org/2022.lrec-1.12

Рецензия

Для цитирования:

Саидов Б.Р., Барахнин В.Б. Анализ тональности узбекских текстов с использованием NER: сравнительное исследование моделей SVM, LSTM и BERT. Вестник СибГУТИ. 2025;19(4):3-17. https://doi.org/10.55648/1998-6920-2025-19-4-3-16

For citation:

Saidov B.R., Barakhnin V.B. Sentiment analysis of Uzbek texts using NER: a comparative study of SVM, LSTM, and BERT models. The Herald of the Siberian State University of Telecommunications and Information Science. 2025;19(4):3-17. https://doi.org/10.55648/1998-6920-2025-19-4-3-16

JATS XML

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1998-6920 (Print)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Вестник СибГУТИ

Анализ тональности узбекских текстов с использованием NER: сравнительное исследование моделей SVM, LSTM и BERT

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов