Цель исследования заключалась в том, чтобы создать инструмент, который позволил бы упростить сбор данных в даркнете в больших масштабах.
Команда исследователей из университетов Аризоны, Джорджии и Южной Флориды разработала механизм на основе машинного обучения, который, по их словам, может решить более 94% загадок CAPTCHA на сайтах в даркнет.
Цель исследования заключалась в том, чтобы создать инструмент, который позволил бы сделать даркнет «более прозрачным» для изучения и упростить ИБ-экспертам сбор данных в даркнете в больших масштабах. Это позволило бы разработать более эффективные платформы киберразведки и превентивные меры для борьбы с утечками данных и прочими киберпреступлениями.
CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart, Полностью автоматизированный тест Тьюринга для различения компьютеров и людей) — тест для различения человека и компьютера. Его основная идея состоит в том, чтобы предложить такую задачу, которая легко решалась бы человеком, но была бы крайне сложна для компьютера.
Загадки CAPTCHA почти повсеместно присутствуют на ресурсах в «видимом» интернете, в «темной» сети они служат для защиты платформ от DDoS-атак конкурентов. Как правило, такие атаки осуществляются ботнетами, поэтому CAPTCHA является достаточно эффективной защитой. Сайты в даркнете реализуют собственный кастомный механизм CAPTCHA, что очень усложняет создание автоматизированного инструмента, эффективного для решения всех загадок.
Для решения этой проблемы специалисты разработали систему под названием DW-GAN, интерпретирующую рестеризованные изображения. Новый инструмент может различать буквы и цифры (исследуя их по одной), убирать шум в изображении, определять границы между буквами и сегментировать контент в отдельные символы, при этом размер CAPTCHA не имеет значения.
Для распознавания символов система использует образцы, извлеченные из различных локаций. Механизм идентифицирует линии и углы, поэтому обмануть его, меняя местами символы, размер шрифта и его цвет, довольно сложно.
Исследователи протестировали систему на примере уже несуществующего даркнет-рынка Yellow Brick, предлагавшего нелегальные товары, в частности украденные кредитные карты, взломанные учетные записи и пр. В ходе эксперимента система смогла за 76 минут решить загадки CAPTCHA на 1 831 странице продукта.
Исследователи опубликовали финальную версию инструмента на GitHub, но не предоставили набор данных из 50 тыс. изображений CAPTCHA, используемый для обучения системы.