Как технологии предсказывают эпидемии и какие аспекты в аналитике данных при этом необходимо учитывать
Акцент на социальную психологию
Многие компании используют для борьбы с коронавирусом технологии. Так, «Яндекс.Карты» весной опубликовали «Индекс самоизоляции», а Apple и Google представили проект по отслеживанию передвижений в условиях пандемии. Однако эксперты считают, что для анализа и прогнозирования пандемического процесса необходимо понимание не только эпидемиологии, но и социальной психологии. Именно из-за разницы в социальных процессах мы наблюдаем, насколько сильно отличается распространение эпидемии в разных странах. Эксперты в эпидемиологии и социальной психологии вырабатывают эффективные гипотезы, которые проверяют специалисты по большим данным. При этом эпидемиологи отмечают, что критически важно замерять уровень общественной паники и уровень соблюдения мер предосторожности.
«Если мы говорим именно о панике, то замерить ее через анализ социальных сетей и СМИ в моменте качественно нельзя. Это связано с тем, что гипотеза о том, имеем мы дело с паникой или всплеском какой-то краткосрочной реакции, проверяется на отрезке времени более чем сутки. Во-вторых, паника – это не только слова, картинки, или заявления комментаторов в СМИ определенной тональности. Это действия. Здесь требуется параллельная фиксация поведения или шагов (например, скупка продуктов питания или туалетной бумаги), что опять-таки требует работы с временными отрезками, а не в моменте», – комментирует Петр Кирьян, директор по медиапроектам КРОС и автор исследования «Национальный индекс тревожностей».
Идея использовать большие данные социальных сетей для выявления источников эпидемиологического риска не нова. Алгоритмы искусственного интеллекта применяются в таких решениях для фильтрации информационного шума и выявления сигналов о фактических вспышках заболеваний. Параллельно с помощью спутниковых данных анализируют климатические условия. Например, канадская компания BlueDot сотрудничает с правительствами Канады, Сингапура, Великобритании и Филиппин для выявления и оценки эпидемиологических рисков с 2012 года. Она стала одной из первых компаний, предупредивших о возникновении нового вируса в Ухани.
Подробнее о моделях прогнозирования эпидемий читайте в материале «Большие данные против коронавируса: 24 модели окончания пандемии».
Заместитель генерального директора компании по разработке программного обеспечения для бизнеса SAP CIS Юрий Бондарь рассказал, что для выявления эпидемий можно использовать модель с применением технологии искусственного интеллекта. Чтобы сделать анализ по запросу (например, анализ заболеваемости гриппом в городе N), необходимо на уже имеющуюся информацию о гриппе (насколько он агрессивен, какой у него инкубационный период, как быстро он распространяется среди людей) наложить данные из различных источников. Таких источников может быть несколько:
Перед началом исследования данные делятся на две части: первая используется для анализа – это обучающая выборка, вторая – для тестирования уже полученных моделей, это контрольная выборка. В системах для предсказательной аналитики содержится большое количество уже установленных алгоритмов. Они анализируют данные и строят модели будущего. Когда модель построена, ее необходимо скорректировать и протестировать с помощью второй части собранной ранее информации. В конце полученный результат сравнивается с изначально известными данными, и если они на 90-95% совпадают, то такая модель считается валидной и ее можно использовать для получения достоверных прогнозов.
Примеры работы прогнозных моделей можно изучить в материале «Как технологии предсказывают пандемии».