Методы наук о данных в политических исследованиях: анализ протестной активности в социальных сетях
https://doi.org/10.31249/poln/2021.01.02
Аннотация
Появление и рост популярности социальных сетей, а также растущая цифровизация, проникающая в разнообразные сферы экономики и общества, оказали существенное влияние на сферу политики в целом и на процессы политической мобилизации и коммуникации в частности. Методологический арсенал политической науки также оказался затронут указанными трансформационными процессами и начал пополняться новыми подходами и методами, предложенными в рамках недавно возникшей области знания, получившей название наук о данных. В статье предложен обзор ключевых инноваций в методологии исследований политической мобилизации в социальных сетях, которые были заимствованы из области наук о данных. Авторы подробно рассматривают методы обучения с учителем и без учителя и обсуждают их применимость для автоматизированного сбора данных в почти реальном времени и анализа собранных данных о протестной активности. В контексте методов обучения с учителем особое внимание уделяется методам преодоления переобучения с помощью регуляризации и выбору гиперпараметров с помощью кросс-валидации. В рамках обучения без учителя рассматриваются методы тематического моделирования и методы анализа социальных сетей. Преимущества и недостатки обсуждаемых методов иллюстрируются примерами из современных политических исследований, опубликованных в ведущих рецензируемых журналах. В заключение обсуждаются новейшие методные разработки наук о данных, до сих пор не получившие своего применения в исследованиях политической мобилизации, обладающие высоким аналитическим потенциалом (включая методы с частичным обучением, использование машинного обучения для каузального анализа и использование векторного представления текстов).
Об авторах
Д. К. СтукалРоссия
Стукал Денис Константинович, кандидат политических наук, PhD, заместитель директора Института прикладных политических исследований
Москва
В. Е. Беленков
Россия
Беленков Вадим Евгеньевич, магистр, аспирант департамента политики и управления; редактор Отдела научных изданий Управления научной политики
Москва
И. Б. Филиппов
Россия
Филиппов Илья Борисович, аспирант департамента политики и управления
Москва
Список литературы
1. Ахременко А.С., Стукал Д.К., Петров А.П. Сеть или текст? Факторы распространения протеста в социальных медиа: теория и анализ данных // Полис. Политические исследования. 2020. № 2. C. 73-91. 10.17976/ jpps/2020.02.06. DOI: 10.17976/jpps/2020.02.06 EDN: APZWMB
2. Иберла К. Факторный анализ / пер. с нем. В.М. Ивановой. М.: Статистика, 1980. 398 с.
3. Azar E. The conflict and peace data bank (COPDAB) project // Journal of Conflict Resolution. 1980. Vol. 24, N 1. P. 143-152. 10.1177/ 002200278002400106. DOI: 10.1177/002200278002400106
4. Basilevsky A. Statistical factor analysis and related methods. N.Y.: Wiley, 1994. 759 p.
5. Big data, social media, and protest: foundations for a research agenda // Computational social science: discovery and prediction / J. Tucker [et al.]; M. Alvarez (ed.). N.Y.: Cambridge University Press, 2016. P. 199-224.
6. Blei D., Lafferty J. A correlated topic model of science // Annals of Applied Statistics. 2007. Vol. 1, N 1. P. 17-35. DOI: 10.1214/07-aoas114
7. Blei D., Ng A., Jordan M. Latent Dirichlet Allocation // Journal of Machine Learning Research. 2003. Vol. 3, N 3. P. 993-1022.
8. Boschee E., Natarajan P., Weischedel R. Automatic extraction of events from open source text for predictive forecasting // Handbook of computational approaches to counterterrorism / V. Subrahmanian (ed). N.Y.: Springer, 2013. P. 51-67.
9. Casas A., Williams N. Images that matter: online protests and the mobilizing role of pictures // Political Research Quarterly. 2019. Vol. 72, N 2. P. 360-375. DOI: 10.1177/1065912918786805
10. Cioffi-Revilla C. Computational social science // Wiley interdisciplinary reviews: Computational statistics. 2010. Vol. 2, N 3. P. 259-271. DOI: 10.1002/wics.95
11. Clarke K., Kocak K. Launching revolution: social media and the Egyptian uprising's first movers // British Journal of Political Science. 2020. Vol. 50, N 3. P. 1025-1045. DOI: 10.1017/s0007123418000194
12. Cluster analysis / B. Everitt, S. Landau, M. Leese, D. Stahl. Chichester: Wiley, 2011. 330 p.
13. Comparing GDELT and ICEWS Event Data / M. Ward, A. Beger, J. Cutler, [et al]. 2013. 10 p. Mode of access: https://www.researchgate.net/profile/Andreas_Beger2/publication/303211430_Comparing_GDELT_and_ICEWS_event_ data/links/57f7d9bb08ae886b89836115/Comparing-GDELT-and-ICEWS-event-data.pdf (accessed: 19.10.2020).
14. Computational social Science / D. Lazer, A. Pentland, L. Adamic, [et al.] // Science. 2009. Vol. 323, N 5915. P. 721-723. DOI: 10.1126/science.1167742
15. Croicu M., Weidmann N. Improving the selection of news reports for event coding using ensemble classification // Research and Politics. 2015. Vol. 2, N 4. P. 1-8. DOI: 10.1177/2053168015615596
16. Diamond L. Liberation technology // Journal of Democracy. 2010. Vol. 21, N 3. P. 69-83. DOI: 10.1353/jod.0.0190
17. Distributed representations of words and phrases and their compositionality / T. Mikolov, I. Sutskever, K. Chen, G. Corrado, J. Dean // Proceedings of the 26 th International Conference on Neural Information Processing Systems. Neural Information Processing Systems Foundation, 2013. P. 3111-3119. Mode of access: https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf (accessed: 19.10.2020).
18. Elites Tweet to get feet off the streets: measuring regime social media strategies during protest / K. Munger, R. Bonneau, J. Nagler, J. Tucker // Political science research and methods. 2019. Vol. 7, N 4. P. 815-834. DOI: 10.1017/psrm.2018.3
19. Emirbayer M., Goodwin J. Network analysis, culture, and the problem of agency // American journal of sociology 1994. Vol. 99, N 6. P. 1411-1454. DOI: 10.1086/230450 EDN: BTLYCR
20. Enikolopov R., Makarin A., Petrova M. Social media and protest participation: evidence from Russia // Econometrica. 2020. Vol. 88, N 4. P. 1479-1514. DOI: 10.3982/ecta14281 EDN: WUHFHJ
21. Evaluation methods for topic models / H. Wallach, I. Murray, R. Salakhutdinov, D. Mimno // ICML'09: Proceedings of the 26 th Annual International Conference on Machine Learning. 2009. P. 1105-1112 Mode of access: https://mimno.infosci.cornell.edu/papers/wallach09evaluation.pdf (accessed: 19.10.2020).
22. Freedman D. Statistical models and shoe leather // Sociological Methodology 1991. Vol. 21 P. 291-313. DOI: 10.2307/270939
23. Golbeck J. Analyzing the social web. Amsterdam: Morgan Kaufmann, 2013. 290 p.
24. Grandjean M. A social network analysis of Twitter: Mapping the digital humanities community // Cogent Arts & Humanities. 2016. Vol. 3, N 1. P. 1-14. DOI: 10.1080/23311983.2016.1171458
25. Griffiths T., Steyvers M. Probabilistic topic models // Latent Semantic Analysis: A Road to Meaning / E. Laurence, D. Landauer, S. McNamara, D. Kintsch (eds). Mahwah, NJ: Laurence Erlbaum, 2006. P. 427-448.
26. Hafner-Burton E., Kahler M., Montgomery A. Network analysis for international relations // International organization. 2009. Vol. 63, N 3. P. 559-592. DOI: 10.1017/s0020818309090195
27. Hastie T., Tibshirani R., Friedman J. The elements of statistical learning: data mining, inference, and prediction. N.Y.: Springer, 2016 b. 745 p. DOI: 10.1007/978-0-387-84858-7
28. Hastie T., Tibshirani R., Wainwright M. Statistical learning with sparsity: the lasso and generalizations. Boca Rato: CRC Press, 2016 a. 354 p.
29. Hierarchical Dirichlet processes / Y. Teh, M. Jordan, M. Beal, D. Blei // Journal of the American Statistical Association. 2006. Vol. 101, N 476. P. 1566-1581. DOI: 10.1198/016214506000000302
30. Hoerl E., Kennard R. Ridge regression: biased estimation for nonorthogonal problems // Technometrics. 1970. Vol. 12, N 1. P. 55-67. DOI: 10.1080/00401706.1970.10488634
31. IN-SPIRE InfoVis 2004 Contest Entry / P. Wong, E. Hetzler, S. Posse, M. Whiting, S. Havre, N. Cramer, A. Shah, M. Singhal, A. Turner, J. Thomas // IEEE Symposium on Information Visualization. InfoViz. 2004. 2 p. Mode of access: https://www.cs.umd.edu/hcil/InfovisRepository/contest-2004/3/PNNLsummary2004.pdf (accessed: 19.10.2020).
32. Integrated data for events analysis (IDEA): an event typology for automated events data development / D. Bond, J. Bond, C. Oh, J. Jenkins, C.L. Taylor // Journal of peace research. 2003. Vol. 40, N 6. P. 733-745. DOI: 10.1177/00223433030406009 EDN: JNXWTD
33. Kadushin C. Too much investment in social capital? // Social networks. 2004. Vol. 1, N 26. P. 75-90. DOI: 10.1016/j.socnet.2004.01.009
34. Kadushin C. Understanding social networks: Theories, concepts, and findings. Oxford: Oxford university press, 2012. 264 p.
35. Krueger J., Lewis-Beck M. Is OLS dead? // The political methodologist. 2008. Vol. 15, N 2. P. 2-4.
36. Lankina T., Tertytchnaya K. Protest in electoral autocracies: a new dataset // Post-Soviet affairs. 2020. Vol. 36, N 1. P. 20-36. DOI: 10.1080/1060586x.2019.1656039 EDN: NQRGRU
37. Leetaru K., Schrodt P. Gdelt: Global data on events, location, and tone, 1979-2012 // ISA annual convention. 2012. Vol. 2. P. 1-49.
38. Lindgren S. Movement mobilization in the age of hashtag activism: examining the challenge of noise, hate, and disengagement in the #MeToo campaign // Policy and Internet. 2019. Vol. 11, N 4. P. 418-438. DOI: 10.1002/poi3.212
39. McClelland C. World event/interaction survey codebook (ICPSR 5211). Ann Arbor: University consortium for political and social research, 1976. 22 p.
40. Mixed-initiative social media analytics at the World Bank. Observations of citizen sentiment in Twitter Data to explore "Trust" of political actors and state institutions and its relationship to social protest / N. Calderon, B. Fisher, J. Hemsley, B. Ceskavich, G. Jansen, R. Marciano, V. Lemieux // 2015 IEEE International Conference on Big Data (Big Data). Santa Clara, CA: IEEE, 2015. P. 1678-1687. DOI: 10.1109/BigData.2015.7363939
41. Molina M., Garip F. Machine learning for sociology // Annual review of sociology. 2019. Vol. 45. P. 27-45. DOI: 10.1146/annurev-soc-073117-041106
42. Mourão R., Chen W. Covering protests on Twitter: The influences on journalists' social media portrayals of Leftand Right-Leaning demonstrations in Brazil // The International Journal of Press/Politics. 2020. Vol. 25, N 2. P. 260-280. DOI: 10.1177/1940161219882653
43. O'Brien S. Crisis early warning and decision support: contemporary approaches and thoughts on future research // International studies review. 2010. Vol. 12, N 1. P. 87-104. DOI: 10.1111/j.1468-2486.2009.00914.x
44. Open Event Data Alliance. PLOVER: Political language ontology for verifiable event records. Event, actor and data interchange specification. 2020. Mode of access: https://github.com/openeventdata/PLOVER/blob/master/PLOVER_MANUAL.pdf (accessed: 19.10.2020).
45. Pachinko Prediction: A Bayesian method for event prediction from social media data / J. Tuke, A. Nguyen, M. Nasim, D. Mellor, A. Wickramasinghe, N. Bean, L. Mitchell // Information processing and management. 2020. Vol. 57, N 2. P. 1-13. DOI: 10.1016/j.ipm.2019.102147
46. Padjett J., Ansell C. Robust Action and the Rise of the Medici // American Journal of Sociology. 1993. Vol. 98, N 6. P. 1259-1319. 10.1086/ 230190. DOI: 10.1086/230190 EDN: BOJGAJ
47. Pan J., Siegel A. How Saudi crackdowns fail to silence online dissent // American Political science review. 2020. Vol. 114, N 1. P. 109-125. DOI: 10.1017/s0003055419000650
48. Pennington J., Socher R., Manning C. Glove: global vectors for word representation // Conference on Empirical methods in natural language processing (EMNLP). Association for computational linguistics, 2014. P. 1532-1543.
49. Predicting online protest participation of social media users / S. Ranganath, F. Morstatter, X. Hu, J. Tang, S. Wang, H. Liu // 30 th AAAI Conference on artificial intelligence, AAAI 2016. Phoenix: AAAI press, 2016. P. 208-214.
50. Reading tea leaves: how humans interpret topic models / J. Chang, J. Boyd-Graber, S. Gerrish, W. Chong, D. Blei // Advances in neural information processing systems 22 (neural information processing systems 2009) / Y. Bengio [et al.] (eds). 2009. Mode of access: https://papers.nips.cc/paper/3700-reading-tea-leaves-how-humans-interpret-topic-models.pdf (accessed: 19.10.2020).
51. Rheault L., Cochrane C. Word embeddings for the analysis of ideological placement in parliamentary corpora // Political analysis. 2020. Vol. 22, N 1. P. 112-133. DOI: 10.1017/pan.2019.26
52. Roberts M., Brandon S., Dustin T. Navigating the Local Modes of Big Data: The Case of Topic Models // Data Analytics in Social Science, Government, and Industry / M. Alvarez (ed.). N.Y.: Cambridge University Press, 2016. P. 51-97.
53. Schrodt P., Gerner D., Yilmaz O. Conflict and mediation event observations (CAMEO): an event data framework for a post Cold War world // International conflict mediation: new approaches and findings / J. Bercovitch, S. Gartner (eds). N.Y.: Routledge, 2009. P. 287-304.
54. Schrodt P., Van Brackle D. Automated Coding of Political Event Data // Handbook of Computational Approaches to Counterterrorism / V. Subrahmanian (ed.). N.Y.: Springer, 2013. P. 23-49.
55. Social networks and protest participation: evidence from 130 million Twitter users / J. Larson, J. Nagler, J. Ronen, J. Tucker // American Journal of Political Science. 2019. Vol. 63, N 3. P. 690-705. DOI: 10.1111/ajps.12436
56. Steenbergen M., Bradford J. Modeling multilevel data structures // American Journal of Political Science. 2002. Vol. 46, N 1. P. 218-237. DOI: 10.2307/3088424
57. Structural topic models for open-ended survey responses / M. Roberts, S. Brandon, T. Dustin, C. Lucas, L.-L. Jetson, S. Gadarian, B. Albertson, D. Rand // American journal of political science. 2014. Vol. 58, N 4. P. 1064-1082. DOI: 10.1111/ajps.12103
58. Sundberg R., Melander E. Introducing the UCDP georeferenced event dataset // Journal of peace research. 2013. Vol. 50, N 4. P. 523-532. DOI: 10.1177/0022343313484347
59. The structural topic model and applied social science / M. Roberts, S. Brandon, T. Dustin, E. Airoldi // Advances in neural information processing systems workshop on topic models: computation, application, and evaluation. NIPS, 2013. Mode of access: https://scholar.princeton.edu/files/bstewart/files/stmnips2013.pdf (accessed: 19.10.2020).
60. Tibshirani R. Regression Shrinkage and selection via the Lasso // Journal of the Royal statistical society. Series B (methodological). 1996. Vol. 58, N 1. P. 267-288. DOI: 10.1111/j.2517-6161.1996.tb02080.x
61. Tremayne M. Anatomy of protest in the digital era: a network analysis of Twitter and Occupy Wall Street // Social movement studies. 2014. Vol. 13, N 1. P. 110-126. DOI: 10.1080/14742837.2013.830969 EDN: YDXUAT
62. Tweeting from left to right: Is online political communication more than an echo chamber? / P. Barberá, J.T. Jost, J. Nagler, J.A. Tucker, R. Bonneau // Psychological science. 2015. Vol. 26, N 10. P. 1531-1542. 10.1177/ 0956797615594620. DOI: 10.1177/0956797615594620
63. Vera E., Schupp T. Network analysis in comparative social sciences // Comparative Education. 2006. Vol. 42, N 3. P. 405-429. 10.1080/ 03050060600876723. DOI: 10.1080/03050060600876723
64. ViEWS: A political violence early-warning system / H. Hegre, M. Allansson, M. Basedau, [et al.] // Journal of Peace Research. 2019. Vol. 56, N 2. P. 155-174. DOI: 10.1177/0022343319823860
65. Weidmann N., Rød E. The Internet and political protest in autocracies. Chapter 4 // Weidmann N., Rød E. The Internet and Political Protest in Autocracies. N.Y.:Oxford university press, 2019. P. 39-62.
66. Wooldridge J. Econometric analysis of cross section and panel data. Cambridge: The MIT Press, 2002. 741 p.
67. Zhu X., Goldberg A. Introduction to semi-supervised learning // Synthesis lectures on artificial intelligence and machine learning. 2009. Vol. 3, N 1. P. 1-130. DOI: 10.2200/S00196ED1V01Y200906AIM006
68. Zhuravskaya E., Petrova M., Enikolopov R. Political effects of the internet and social media // Annual review of economics. 2020. Vol. 12. P. 415-438. DOI: 10.1146/annurev-economics-081919-050239 EDN: PECTYV