ВЫЯВЛЕНИЕ ЗНАЧИМЫХ ТЕМ ПРИ ПОМОЩИ АЛГОРИТМА LDA НА МАТЕРИАЛЕ НЕМЕЦКОГО МЕДИАДИСКУРСА

Авторы

  • Михаил Витальевич Корышев СПбГУ, Адрес: Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7–9 https://orcid.org/0000-0001-8946-4431
  • Мария Владимировна Хохлова СПбГУ, Адрес: Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7–9 https://orcid.org/0000-0001-9085-0284
  • Любовь Алексеевна Куликова СПбГУ, Адрес: Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7–9
  • Константин Владимирович Мазин СПбГУ, Адрес: Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7–9

DOI:

https://doi.org/10.21638/spbu33.2024.122

Аннотация

Методы тематического моделирования позволяют получить представление о тематическом наполнении текстов и выявить скрытые семантические структуры. Каждый текст может быть представлен несколькими темами, таким образом также можно определить схожесть текстов и более широко — общие тенденции, характерные для текстов, нацеленных на конкретную аудиторию. Целью статьи является формирование круга тем, которые интересуют читателей, на материале современного немецкоязычного дискурса, посвященного разным сферам жизни. В работе продемонстрированы результаты построения нескольких моделей тематического моделирования при помощи алгоритма латентного размещения Дирихле (LDA) применительно к текстам немецкоязычных источников: журнала «Zeitschrift für Ideengeschichte», который посвящен вопросам истории и развития политических, религиозных, философских и литературных идей и мыслей, и студенческого периодического издания «Moritz. Magazin» Грайфсвальдского университета. Выделенные ключевые слова получили экспертную оценку. Результаты применения алгоритма LDA показывают, что с течением времени в журнале «Zeitschrift für Ideengeschichte» можно заметить переход от более узких тем к более широким. Проведенный анализ продемонстрировал достаточно низкую схожесть между текстами разных годов данного журнала, однако в рамках выборок одного года были выявлены похожие тексты согласно мере TF-IDF. Несмотря на первоначально заявленную разноплановость рассмотренных журналов, именно политическая составляющая является для них общей. Однако в издании «Moritz.Magazin» данная тема прослеживается более отчетливо, в то время как в статьях журнала «Zeitschrift für Ideengeschichte» политический настрой подается опосредованно через отсылку к определенным мыслителям и темам. В ходе исследования был предварительно определен перечень тем, интересующих представителей двух значимых кругов современной Германии, относящихся к образованному университетскому сообществу, и тем самым был описан некоторый идейный ландшафт страны.

Ключевые слова:

тематические маркеры, ключевые слова, латентное размещение Дирихле (LDA), медиадискурс, немецкий язык

Скачивания

Данные скачивания пока недоступны.
 

Биографии авторов

Михаил Витальевич Корышев, СПбГУ, Адрес: Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7–9

Кандидат филологических наук, доцент кафедры сопоставительного изучения языков и культур СПбГУ

Мария Владимировна Хохлова, СПбГУ, Адрес: Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7–9

Кандидат филологических наук, доцент кафедры математической лингвистики СПбГУ

Любовь Алексеевна Куликова, СПбГУ, Адрес: Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7–9

Лаборант-исследователь СПбГУ

Константин Владимирович Мазин, СПбГУ, Адрес: Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7–9

Лаборант-исследователь СПбГУ

Библиографические ссылки

Источники

Moritz.Magazin. URL: https://webmoritz.de/moritz-magazin/ (дата обращения: 18.01.2024).

Zeitschrift für Ideengeschichte. URL: https://www.wiko-berlin.de (дата обращения: 18.01.2024).


Литература

Кирина М.А. Сравнение тематических моделей на основе LDA, STM и NMF для качественного анализа русской художественной прозы малой формы // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2022. Т. 20. No 2. С. 93–109.

Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet Allocation // Journal of Machine Learning Research. 2013. Vol. 3 (4–5). P. 993–1022.

Deerwester S., Dumais S.T., Furnas G.W., Landauer Th.K., Harshman R. Indexing by latent semantic analysis // Journal of the American Society for Information Science. 1990. Vol. 41 (6). P. 391–407.

Dehler-Holland J., Schumacher K., Fichtner W. Topic Modeling Uncovers Shifts in Media Framing of the German Renewable Energy Act // Patterns. 2021. Vol. 2. P. 100–169.

Hofmann Th. Probabilistic Latent Semantic Indexing // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99). New York: Association for Computing Machinery, 1999. P. 50–57.

Küsters A., Garrido E. Mining PIGS.A structural topic model analysis of Southern Europe based on the German newspaper Die Zeit (1946–2009) // Journal of Contemporary European Studies. 2020. Vol. 28: (4). P. 477–493. https://doi.org/10.1080/14782804.2020.1784112

Landauer T.K., Foltz P.W., Laham D. Introduction to Latent Semantic Analysis // Discourse Processes. 1998. Vol. 25. P. 259–284.

Lee D., Seung H. Learning the Parts of Objects by Non-Negative Matrix Factorization // Nature. 1999. Vol. 401. P. 788–791.

Řehůřek R., Sojka P. Software Framework for Topic Modelling with Large Corpora // Proceedings of LREC 2010 workshop New Challenges for NLP Frameworks. Valletta: University of Malta, 2010. P. 46–50.

Roberts M., Stewart B., Tingley D., Airoldi E. The Structural Topic Model and Applied Social Science // Advances in Neural Information Processing Systems Workshop on Topic Models: Computation, Application, and Evaluation. 2013. URL: https://projects.iq.harvard.edu/files/wcfia/files/stmnips2013.pdf (дата обращения: 18.01.2024).

Röder M., Both A., Hinneburg A. Exploring the Space of Topic Coherence Measures // Proceedings of the Eight International Conference on Web Search and Data Mining, Shanghai, February 2–6. Shanghai: ACM, 2015. P. 399–408.

Wartena Ch. A probabilistic morphology model for German lemmatization // Proceedings of the 15th Conference on Natural Language Processing (KONVENS 2019): Long Papers / German Society for Computational Linguistics & Language Technology. Erlangen: Friedrich-Alexander-Universität Erlangen-Nürnberg, 2019. P. 40–49. https://doi.org/10.25968/opus-1527


References

Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet Allocation. Journal of Machine Learning Research, 2013, vol. 3 (4–5), pp. 993–1022.

Deerwester S., Dumais S.T., Furnas G.W., Landauer Th.K., Harshman R. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990, vol. 41 (6), pp. 391–407.

Dehler-Holland J., Schumacher K., Fichtner W. Topic Modeling Uncovers Shifts in Media Framing of the German Renewable Energy Act. Patterns, 2021, vol. 2, pp. 100–169.

Hofmann Th. Probabilistic Latent Semantic Indexing. Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99). New York: Association for Computing Machinery, 1999, pp. 50–57.

Kirina M.A. A Comparison of Topic Models Based on LDA, STM and NMF for Qualitative Studies of Russian Short Prose. Vestnik NSU. Series: Linguistics and Intercultural Communication, 2022, vol. 20, no. 2, pp. 93–109. (In Russian)

Küsters A., Garrido E.Mining PIGS. A structural topic model analysis of Southern Europe based on the German newspaper Die Zeit (1946–2009). Journal of Contemporary European Studies, 2020, vol. 28 (4), pp. 477–493. https://doi.org/10.1080/14782804.2020.1784112

Landauer T.K., Foltz P.W., Laham D. Introduction to Latent Semantic Analysis. Discourse Processes, 1998, vol. 25, pp. 259–284.

Lee D., Seung H. Learning the Parts of Objects by Non-Negative Matrix Factorization. Nature, 1999, vol. 401, pp. 788–791.

Řehůřek R., Sojka P. Software Framework for Topic Modelling with Large Corpora. Proceedings of LREC 2010 workshop New Challenges for NLP Frameworks. Valletta, University of Malta, 2010, pp. 46–50.

Roberts M., Stewart B., Tingley D., Airoldi E. The Structural Topic Model and Applied Social Science. Advances in Neural Information Processing Systems Workshop on Topic Models: Computation, Application, and Evaluation, 2013. Available at: https://projects.iq.harvard.edu/files/wcfia/files/stmnips2013.pdf (accessed: 18.01.2024).

Röder M., Both A., Hinneburg A. Exploring the Space of Topic Coherence Measures. Proceedings of the Eight International Conference on Web Search and Data Mining, Shanghai, February 2–6. Shanghai, ACM, 2015, pp. 399–408.

Wartena Ch. A probabilistic morphology model for German lemmatization. Proceedings of the 15th Conference on Natural Language Processing (KONVENS 2019): Long Papers, German Society for Computational Linguistics & Language Technology. Erlangen, Friedrich-Alexander-Universität Erlangen-Nürnberg, 2019, pp. 40–49. https://doi.org/10.25968/opus-1527

Загрузки

Опубликован

25.03.2025

Как цитировать

Корышев, М. В., Хохлова, М. В., Куликова, Л. А., & Мазин, К. В. (2025). ВЫЯВЛЕНИЕ ЗНАЧИМЫХ ТЕМ ПРИ ПОМОЩИ АЛГОРИТМА LDA НА МАТЕРИАЛЕ НЕМЕЦКОГО МЕДИАДИСКУРСА. Немецкая филология в Санкт-Петербургском государственном университете, 14, 418–433. https://doi.org/10.21638/spbu33.2024.122

Выпуск

Раздел

III. НЕМЕЦКИЙ ЯЗЫК И КОММУНИКАЦИЯ НА СОВРЕМЕННОМ ЭТАПЕ: НОВЫЕ ПОДХОДЫ И МЕТОДЫ АНАЛИЗА