История 4,7 миллиона пользователей теперь изучается как научный архив.
Платформа Discord столкнулась с беспрецедентной утечкой данных: исследователи из Бразилии опубликовала огромный массив информации, собранный с помощью официального API сервиса. В открытом доступе оказался архив из более чем 2 миллиардов сообщений, охватывающий почти десятилетнюю историю — с момента запуска платформы в 2015 году и до конца 2024-го.
Данные охватывают активность более 4,7 миллиона пользователей на 3 167 публичных серверах. Исследователи утверждают, что все сообщения были собраны только с тех серверов, которые официально считаются публичными по условиям использования Discord. При этом были предприняты меры для анонимизации: имена пользователей заменены на псевдонимы, ID-хэшированы и усечены, а прочие идентификаторы — удалены.
Авторы объясняют, что целью публикации стало создание масштабной базы для научных исследований в области психического здоровья, политической поляризации, анализа токсичного поведения и обучения чат-ботов. Однако сам факт того, что переписки многомиллионной аудитории теперь доступны в виде JSON-файлов в интернете, вызвал тревогу и резкую реакцию со стороны пользователей.
Файл с примером весит 6,2 ГБ в архиве и распаковывается в базу размером 108 ГБ. Полная версия в сжатом виде занимает 118 ГБ, но при распаковке может значительно превышать этот объём. Каждый JSON-файл соответствует одному серверу и содержит полную историю сообщений на нём.
Отдельную тревогу вызвало появление в сети другого инструмента — «Searchcord», созданного независимым программистом. Эта утилита предоставляет доступ к неанонимизированной базе сообщений, основанной на другом датасете. В некоторых сообществах Discord уже началась паника: модераторы и пользователи обеспокоены возможным раскрытием старых сообщений, которые никогда не предполагались для массового просмотра или анализа.
Несмотря на утверждения бразильской команды о том, что они соблюдали все нормы этики и использовали только публичные ресурсы, многие подвергли сомнению допустимость самого подхода. Discord, по своей сути, воспринимается пользователями как более приватная платформа по сравнению с соцсетями вроде X* или Reddit. Интерфейс не предполагает централизованный поиск, а атмосфера напоминает закрытые чаты, где разговоры остаются внутри сообщества.
Более того, в политике разработчика Discord прямо указано: «Запрещено майнить или собирать контент или данные с помощью наших сервисов». Эта формулировка присутствует минимум с 2020 года и явно противоречит массовому сбору сообщений даже через официальный API.
Важно также учитывать, что аудитория Discord во многом состоит из подростков. И хотя участники исследовательского проекта настаивают, что пользователи дали согласие, зарегистрировавшись на платформе, в реальности маловероятно, что 15-летний геймер, шутящий о мемах в Tomato Town, осознавал, что его сообщения однажды окажутся в научной публикации.
Отличие этой инициативы от предыдущих утечек вроде Spy.pet заключается в способе сбора. Spy.pet размещал ботов на серверах, в том числе закрытых, и собирал сообщения без какой-либо фильтрации или анонимизации. Discord заблокировал аккаунты, связанные с этим сервисом, практически сразу после публичного освещения ситуации.
На момент публикации Discord не прокомментировал произошедшее. Однако если руководство платформы решит применить политику аналогичную реакции на Spy.pet, учёным грозят блокировки и удаление доступа к инфраструктуре. Пока же основной вопрос остаётся открытым: даже при формальной «анонимности» — этично ли превращать приватные беседы миллионов в удобный корпус данных?
Комментариев нет:
Отправить комментарий