Технологии AI и Big data для обеспечения информационно-психологической безопасности в сети интернет

1.Социальные медиа как объект обеспечения информационно-психологической безопасности в сети интернет

Социальные сети и мессенджеры играют ключевую роль в коммуникации миллионов россиян, формируя информационное пространство страны. В связи с их огромным влиянием эти ресурсы становятся приоритетным объектом обеспечения информационной безопасности.

Однако, социальные медиа несут и серьезные угрозы. Они активно используются для распространения экстремизма, вербовки радикалов, координации противоправных действий [1-4]. Кроме того, есть риски манипулирования общественным мнением и построения нужного политического дискурса [5].

Исходя из масштаба влияния социальных медиа, в Стратегии национальной безопасности РФ [6] выделяется ряд угроз информационной безопасности через них:

Распространение дестабилизирующей информации и запрещенного контента
Вербовка в экстремистские группы
Координация противоправных акций

В качестве мер противодействия формулируются задачи по обеспечению информационной безопасности применительно к социальным медиа. К ним относятся:

Мониторинг ситуации и анализ больших данных из соцсетей на предмет выявления угроз
Разработка и внедрение интеллектуальных систем раннего предупреждения о возникновении рисков на основе этих данных
Принятие своевременных мер по устранению и минимизации последствий реализованных угроз

Реализация этих задач должна значительно повысить информационную безопасность России в социальных медиа и снизить связанные с ними риски. Для эффективного решения задач по обеспечению безопасности требуется системный междисциплинарный подход с участием специалистов в области ИБ, анализа данных, психологии и социальных наук.

2. Большие языковые модели как ассистент в решении задач, связанных с обеспечением информационно-психологической безопасности в сети интернет

При решении задач, представленных в стратегии национальной безопасности РФ [6], линейные подразделения уполномоченных служб «на местах» сталкиваются с рядом проблем:

нехватка времени на погружение в новые предметные области;
нехватка узкопрофильных экспертов в различных областях;
необходимость изучения и обработки больших объемов данных.

Доступные сегодня технологии искусственного интеллекта (далее, ИИ) могут способствовать решению обозначенных проблем. В контексте развития технологий ИИ особую роль сегодня играют большие языковые модели (БЯМ) – системы, обученные на больших данных для решения аналитических задач. Теоретически, БЯМ должны предоставить возможности решения перечисленных выше проблем:

выступать в роли виртуального помощника и эксперта в различных областях;
анализировать большие массивы текста;
извлекать из массивов с данными ключевую информацию;
отвечать на вопросы по заданной теме, что позволяет экономить время специалистов; компенсировать нехватку узкопрофильных экспертов благодаря широкому кругозору и способности генерировать тексты на разные темы;
эффективно справляться с анализом и систематизацией больших объемов данных.

С целью проверки практических возможностей применения БЯМ для решения информационно-аналитических задач, решаемых в процессе обеспечения информационно-психологической безопасности, специалисты ООО «СЕУСЛАБ» инициировали внутренний пилотный проект по тестированию способностей БЯМ.

3: Применение больших языковых моделей для решения задач, связанных с обеспечением информационно-психологической безопасности в сети интернет

3.1. Популярные большие языковые модели

Специалисты ООО «СЕУСЛАБ» протестировали несколько популярных (БЯМ): Anthropic Claude 2 [7-8], ChatGPT 4 [10-11], Yandex GPT [12-13], Сбер Gigachat [14-15].

В ходе тестирования всем моделям были заданы одинаковые наборы задач. В результате были получены следующие выводы:

Anthropic Claude 2 [7-8] — наиболее успешно решает задачи анализа данных;
ChatGPT 4 [10-11] — наиболее успешно справляется с задачами генерации кода на Python;
Yandex GPT [12-13] и Сбер Gigachat [14-15] подходят для задач копирайтинга.

По результатам тестирования – для дальнейшего использования была выбрана модель Anthropic Claude 2 [7-8]. Выбор был обусловлен следующими преимуществами:

Качество понимания контекста и ведения диалога;
Точность и логичность ответов;
Низкий уровень ошибок;
Возможность загрузки файлов для обработки данных;
Стабильность и скорость работы.

3.2. Зарубежные языковые модели – опасности и ограничения

Полномасштабное использование БЯМ зарубежного производства — Anthropic Claude 2 [7-8], ChatGPT 4 [10-11], для решения задач на промышленном уровне, несет в себе риски в части информационной безопасности:

Возможность утечки информации к производителям БЯМ или третьим лицам;
Решения или рекомендации, которые предлагают в ходе своей работы БЯМ основаны на большом количестве информации из открытых источников. С учетом ведущейся информационной войны против РФ, данные источники в значительной степени политически ангажированы. Они могут содержать недостоверные сведения, попытки искажения исторических фактов, попытки воздействия на российский исторический и культурный код. Использование БЯМ обученных на таких ангажированных источниках информации может повлечь за собой получение таких же ангажированных выводов, которые предложит ИИ.

Сегодня, необходимым и перспективным направлением развития БЯМ является создание Российских (суверенных) и отраслевых моделей. При этом Российские БЯМ должны обучаться на данных с учетом «российского культурного кода». Кроме того, вся инфраструктура разработки БЯМ должна размещаться на территории Российской Федерации. Такой подход позволит обеспечить информационную безопасность.

Ярким примером использования БЯМ, обученных на иностранных источниках, является короткая сказка, придуманная ИИ по просьбе В.В. Путина [16], в которой герои традиционных российских сказок, дед мороз и снегурочка, обозначены как «два друга», без разделения по половой принадлежности.

Принимая во внимание описанные выше риски использования зарубежных БЯМ, в ходе пилотного проекта специалисты ООО «СЕУСЛАБ» использовали зарубежные модели лишь с целью оценки применимости технологии для решения реальных задач. Все задачи решались исключительно на данных из открытых источников.

3.3. Проблема галлюцинаций больших языковых моделей

Важной проблемой, с которой сталкиваются при использовании больших языковых моделей (БЯМ), является эффект галлюцинаций. Он заключается в том, что ИИ может генерировать убедительный, но ложный ответ, не имеющий подтверждения в реальных данных.

Несмотря на наличие риска галлюцинаций, в условиях высокой скорости принятия решений БЯМ могут применяться для быстрой первичной оценки ситуации и формирования рабочих гипотез. Их вычислительная мощность позволяет оперативно проанализировать большие массивы данных и выдать потенциальные варианты развития событий.

Однако важно понимать, что выводы ИИ не могут автоматически приниматься за истину. Полученные с помощью БЯМ гипотезы нуждаются в последующей проверке и подтверждении реальными фактами, собранными и проанализированными экспертами в конкретной предметной области.

Только комплексный подход, сочетающий скорость БЯМ и осторожность человека, позволит избежать неверных решений из-за эффекта галлюцинаций. Человек должен сохранять критичность мышления и проверять выводы ИИ перед их практическим применением.

Такое взаимодействие человека и технологий ИИ открывает путь к повышению качества и надежности принимаемых решений за счет синергии комплементарных возможностей.

4.Примеры практического применения больших языковых моделей для решения задач, связанных с обеспечением информационно-психологической безопасности в сети интернет

4.1. Лингвистический словарь для выявления материалов пропаганды террористической организации ИГИЛ

Одним из важнейших элементов информационно-аналитического обеспечения безопасности в сети Интернет является мониторинг открытого информационного пространства. Для решения этих задач специалистам доступны инструменты, которые работают на основе заранее созданных лингвистических словарей, отражающих интересующую предметную область.

В рамках пилотного проекта специалисты СЕУСЛАБ решили попробовать применить БЯМ для формирования такого словаря по направлению мониторинга «пропаганда ИГИЛ».

Для подготовки лингвистического словаря, ориентированного на выявление в социальных медиа контента, иллюстрирующего ИГИЛ и пропаганду радикального ислама, авторы статьи использовали большую языковую модель claude2 [7] (разработчик Antropic [8]).

В качестве исходных данных были использованы следующие материалы:

4 номера журналов исламского государства «Исток» (запрещен в РФ);
аналитический доклад на тему «Исламское государство: пропаганда группировки и механизмы ее распространения» [9], подготовленный в 2017 году экспертами Центра изучения новых коммуникаций «Цинк».

Общий объем проанализированных текстов составил около 500 000 слов. Выбранные источники информации содержат большое количество упоминаний ключевых персон, организаций, мест и событий, имеющих непосредственное отношение к деятельности ИГИЛ. Кроме того, в этих текстах широко представлена соответствующая терминология и лексика, характерная для радикальных исламистских группировок. Это позволяет выделить наиболее релевантные слова и выражения для включения в словарь.

Перед загрузкой исходных данных в БЯМ была выполнена их предобработка с целью приведения в удобный для машинной обработки вид. В частности, тексты из файлов формата PDF, были извлечены и сохранены в отдельные текстовые файлы формата TXT. Это позволило корректно обработать данные. Все тексты были разбиты на файлы объемом не более 5 мегабайт для удовлетворения ограничений БЯМ по максимальному размеру одного загружаемого файла. Таким образом, в результате предобработки исходные данные были приведены к виду, совместимому с требованиями БЯМ. Это позволило успешно использовать имеющиеся тексты для автоматической обработки и генерации лингвистического словаря, ориентированного на задачу мониторинга тематики ИГИЛ и радикального ислама в социальных медиа.

Пример «псевдо-промта», постановка задачи БЯМ

Полная версия «промта» не приводится в статье по соображениям безопасности

В результате автоматического анализа исходных данных, БЯМ были определены тематические разделы, которые должен содержать лингвистический словарь для мониторинга социальных медиа: персоны, организации, наименования медиа центров и другие. Кроме того, каждый термин получил дублирование на Арабском языке и краткое описание.

Список блоков терминов для лингвистического словаря, полученных в результате работы БЯМ:

персоны и проповедники;
структуры и подразделения;
медиа ресурсы;
нашиды;
призывы и лозунги;
общая характерная для группировки лексика.

Пример ответа БЯМ на постановку задачи о предложении структуры словаря мониторинга

В результате при помощи БЯМ в автоматическом режиме был сформирован словарь для мониторинга тематики ИГИЛ и радикального ислама в социальных сетях. Словарь включает в себя 127 терминов на русском, английском и арабском языках (см. табл. 1). Он содержит имена ключевых персон, названия организаций и их подразделений, медиаресурсов, характерную лексику и выражения, активно используемые в пропаганде ИГИЛ. Каждый термин в словаре снабжен кратким описанием. Ниже представлен пример итогового оформления нескольких терминов словаря.

Таблица 1
Пример итогового вида лингвистического словаря,
созданного БЯМ

#	Русский термин	Английский термин	Арабский термин	Описание
1	Абу Бакр аль-Багдади	Abu Bakr al-Baghdadi	[أبو بكر البغدادي]	Лидер ИГИЛ
2 …	Абу Мухаммад аль-Аднани	Abu Muhammad al-Adnani	[أبو محمد العدناني]	Спикер ИГИЛ
… 53	Фурат Медиа	Furat Media	[فرات ميديا]	Медиацентр ИГИЛ
54	Аль-Батар	Al-Battar	[الباتر]	Медиацентр ИГИЛ
55 …	Ан-Насиха	An-Nasiha	[الناصحة]	Медиацентр ИГИЛ

Для проверки работоспособности созданного словаря, с использованием компьютерной программы «Поисковая система «СЕУС» был осуществлен сбор публикаций из открытых источников — социальной сети «ВКонтакте». Поиск осуществлялся по страницам пользователей и сообществам.

В результате поиска, были получены десятки тысяч текстовых публикаций, содержащих упоминания терминов из словаря.

Поскольку материалы, на которых создавался словарь, датируются 2015-2017 гг., и основная активность группировки ИГИЛ наблюдалась в 2013-2017 гг, — анализ результатов поиска проводился за 2 периода: с 2014 по 2017 гг, и с 2018 г — по н.в.

По результатам анализа результатов поиска можно выделить следующие тенденции:

Период 2014-2017 гг иллюстрирует большое количество контента, иллюстрирующего пропаганду радикального ислама: материалы Al-Hayat, Al-Furqan и других медиацентров группировки ИГИЛ. В настоящее время, указанные материалы удалены администрацией социальной сети. Кроме того, в указанный период встречаются материалы, содержащие речи лидеров группировки и различные фильмы, вошедшие в список экстремистских материалов Минюста: звон мечей, flames of war и другие.
Период с 2018 года по н.в. Контент, содержащий упоминания терминов из словаря, находится в составе разъяснительных материалах исламского духовенства Российской Федерации, по отношению к радикальным проповедникам. Незначительное количество материалов, иллюстрирующих пропаганду радикального ислама, также присутствует в результатах поиска. Кроме того, присутствуют различные публицистические материалы, описывающие период активной деятельности группировки ИГИЛ, ее проповедников и лидеров.

Полученные результаты свидетельствуют, что использование БЯМ позволяет значительно упростить и ускорить процесс создания и обновления словарей для систем мониторинга соцмедиа. Руководствуясь практикой, можно отметить, что ручное создание словаря мониторинга объемом 100 терминов занимает порядка 48 рабочих часов – с учетом погружения аналитика в тему мониторинга, анализа данных, выявления терминов, тестирования словаря и настройки фильтров. С применением БЯМ, трудозатраты на создание словаря составили 6 рабочих часов.

4.2. Анализ контента пользователя на предмет выявления маркеров причастности к деструктивным явлениям

С целью выявления маркеров причастности к деструктивным явлениям использовалась большая языковая модель claude2 [7] (разработчик Antropic [8]).

В качестве исходных данных были использованы следующие материалы полученные из социальной сети «ВКонтакте»:

анкетные данные пользователя;
названия и описания сообществ, в которых состоит пользователь;
публикации, размещенные пользователем в пространстве соц.сети.

БЯМ было предложено сформировать краткую аналитическую записку, содержащую ответ на вопрос о наличии/отсутствии маркеров причастности к деструктивным явлениям.

Пример «псевдо-промта», постановка задачи БЯМ

Полная версия «промта» не приводится в статье по соображениям безопасности

Сформированная БЯМ в автоматическом режиме аналитическая записка, представлена ниже.

Пример аналитической записки, сформированной БЯМ

Руководствуясь практикой, можно отметить, что ручной анализ набора данных одного пользователя (анкета, сообщества, публикации) занимает порядка 2-4 рабочих часов – при условии, что аналитик регулярно практикуется в решении подобных задач, и имеет развитый уровень «насмотренности». С применением БЯМ трудозатраты на анализ данных одного пользователя составили 30 минут.

5.Выводы

«Без фундаментальных исследований и умения мыслить лиц, принимающих решения, ИИ многое может сделать, в том числе, в тех направлениях, которые нам не нужны» [17].

В.В. Путин.

Проведенное специалистами ООО «СЕУСЛАБ» исследование убедительно продемонстрировало результативность применения больших языковых моделей для решения задач в сфере информационно-психологической безопасности и противодействия угрозам в сети интернет (социальных сетях).

Внедрение БЯМ открывает принципиально новый формат взаимодействия человека и машины, где происходит изменение распределения работ между аналитиком и аналитическим комплексом с применением ИИ. При этом повышается значимость качества постановки аналитической задачи, в то время как уровень знаний в анализируемой предметной области отходит на второй план.

Ключевые преимущества БЯМ в контексте решения задач информационной безопасности включают:

высокую скорость анализа данных;
предложения и рекомендации по решению аналитических задач;
возможности повышения точности анализа – на основе предоставленной модели дополнительной информации;
автоматизацию рутинных операций и экономию времени экспертов.

На практике продемонстрирован ряд важных результатов от применения БЯМ, таких как:

формирование профильных словарей для мониторинга;
выявление текстовых маркеров угроз в публикациях пользователей;
автоматическая генерация аналитических материалов.

Следует отметить, что все эксперименты и практические примеры применения БЯМ, описанные в данной статье получены на основе анализа открытых данных из пространства социальных медиа. Необходимым и перспективным направлением развития БЯМ, является создание суверенных и отраслевых БЯМ, адаптированных к задачам обеспечения информационно-психологической безопасности России.

Использование БЯМ способно многократно расширить аналитические возможности подразделений, задействованных в решении задач обеспечения информационно-психологической безопасности страны.

6.Список литературы:
1. Шиллер Вадим Викторович, Шелудков Николай Николаевич Российские социальные сети как потенциальная угроза национальной безопасности России (на примере сайтов «Одноклассники» и «Вконтакте») // СибСкрипт. 2013. №3 (55). URL: https://cyberleninka.ru/article/n/rossiyskie-sotsialnye-seti-kak-potentsialnaya-ugroza-natsionalnoy-bezopasnosti-rossii-na-primere-saytov-odnoklassniki-i-vkontakte (дата обращения: 11.12.2023).
2.Кобец Петр Николаевич О необходимости противодействия основным факторам, способствующим распространению экстремизма в социальных сетях – как элементе обеспечения национальной безопасности // Вопросы безопасности. 2017. №4. URL: https://cyberleninka.ru/article/n/o-neobhodimosti-protivodeystviya-osnovnym-faktoram-sposobstvuyuschim-rasprostraneniyu-ekstremizma-v-sotsialnyh-setyah-kak-elemente (дата обращения: 11.12.2023).
3.Иванов А.В. Проекты праворадикальных экстремистских движений в социальных сетях как вызов национальной безопасности России // Вестник Марийского государственного университета. Серия «Исторические науки. Юридические науки». 2016. №2 (6). URL: https://cyberleninka.ru/article/n/proekty-pravoradikalnyh-ekstremistskih-dvizheniy-v-sotsialnyh-setyah-kak-vyzov-natsionalnoy-bezopasnosti-rossii (дата обращения: 11.12.2023).
4.Кравцива Анастасия Владимировна, Никонорова Наталья Михайловна МАНИПУЛЯЦИИ СОЗНАНИЕМ ПОДРОСТКОВ В СОЦИАЛЬНЫХ СЕТЯХ КАК УГРОЗА НАЦИОНАЛЬНОЙ БЕЗОПАСНОСТИ РФ // Достижения науки и образования. 2021. №2 (74). URL: https://cyberleninka.ru/article/n/manipulyatsii-soznaniem-podrostkov-v-sotsialnyh-setyah-kak-ugroza-natsionalnoy-bezopasnosti-rf (дата обращения: 11.12.2023).
5.Однорал Олег Игоревич СОЦИАЛЬНЫЕ СЕТИ КАК ИНСТРУМЕНТ PSYOP ВО ВНЕШНЕЙ ПОЛИТИКЕ: ВЫЗОВ ДЛЯ НАЦИОНАЛЬНОЙ БЕЗОПАСНОСТИ // Национальная безопасность / nota bene. 2021. №1. URL: https://cyberleninka.ru/article/n/sotsialnye-seti-kak-instrument-psyop-vo-vneshney-politike-vyzov-dlya-natsionalnoy-bezopasnosti (дата обращения: 11.12.2023).
6.Указ Президента РФ от 02.07.2021 N 400 «О Стратегии национальной безопасности Российской Федерации». URL: https://www.consultant.ru/document/cons_doc_LAW_389271/?ysclid=lq0r0e72v6524763500 (дата обращения: 11.12.2023).
7.Страница с описанием модели claude2 на официальном сайте разработчика. URL: https://www.anthropic.com/index/claude-2 (дата обращения 05.11.2023)
8.Официальный сайт разработчика модели claude2. URL: https://www.anthropic.com/ (дата обращения 05.11.2023)
9.Аналитический доклад экспертов ЦИНК». URL: http://zinc-center.ru/research/ (дата обращения 05.11.2023)
10.Официальный сайт разработчика модели ChatGPT. URL: https://openai.com (дата обращения 05.11.2023)
11.Страница с описанием модели ChatGPT на официальном сайте разработчика. URL: https://openai.com/chatgpt (дата обращения 05.11.2023)
12.Официальный сайт разработчика модели YandexGPT. URL: https://yandex.ru (дата обращения 05.11.2023)
13.Страница с описанием модели YandexGPT на официальном сайте разработчика. URL: https://ya.ru/ai/gpt-2 (дата обращения 05.11.2023)
14.Официальный сайт разработчика модели Сбер gigachat URL: https://developers.sber.ru (дата обращения 05.11.2023)
15.Страница с описанием модели Сбер gigachat на официальном сайте разработчика. URL: https://developers.sber.ru/help/gigachat (дата обращения 05.11.2023)
16.Сайт с подробным описанием события. URL: https://dzen.ru/a/ZWC01vbNZEsry7PY (дата обращения 31.01.2024)
17.Видеозапись, размещенная в Telegram канале «Смотри». URL: https://t.me/smotri_media/71893 (дата обращения 01.02.2024)

5 1 голос

Рейтинг статьи

251

Похожие записи

Пресс-служба Инфофорума