Този голям езиков модел е обучен в тъмната мрежа за оценка на заплахите за киберсигурността. Ето какво трябва да знаете.

Популярността на големите езикови модели (LLM) нараства рязко, като на сцената непрекъснато навлизат нови. Тези модели, като ChatGPT, обикновено се обучават в различни интернет източници, включително статии, уебсайтове, книги и социални медии.

В безпрецедентен ход, екип от южнокорейски изследователи разработи DarkBERT, LLM, обучен върху масиви от данни, взети изключително от тъмната мрежа. Тяхната цел беше да създадат AI инструмент, който превъзхожда съществуващите езикови модели и подпомага изследователите на заплахи, правоприлагащите органи и професионалистите по киберсигурност в борбата с киберзаплахите.

Какво е DarkBERT?

DarkBERT е трансформаторно базиран модел на енкодер, базиран на архитектурата RoBERTa. LLM беше обучен на милиони тъмни уеб страници, включително данни от хакерски форуми, уебсайтове за измама и други онлайн източници, свързани с незаконни дейности.

instagram viewer

Терминът „тъмна мрежа“ се отнася до скрита интернет секция недостъпни през стандартните уеб браузъри. Подразделът е известен с това, че приютява анонимни уебсайтове и пазари, известни с незаконни дейности, като търговия с откраднати данни, наркотици и оръжия.

За да обучат DarkBERT, изследователите спечелиха достъп до тъмната мрежа чрез мрежата Tor и събра необработени данни. Те внимателно филтрираха тези данни, използвайки техники като дедупликация, балансиране на категории и предварителна обработка създайте усъвършенствана база данни в тъмната мрежа, която след това беше подадена на RoBERTa в продължение на приблизително 15 дни за създаване DarkBERT.

Възможни приложения на DarkBERT в киберсигурността

DarkBERT има забележително разбиране на езика на киберпрестъпниците и се отличава с откриването на конкретни потенциални заплахи. Той може да изследва тъмната мрежа и успешно да идентифицира и маркира заплахи за киберсигурността като изтичане на данни и рансъмуер, което го прави потенциално полезен инструмент за борба с киберзаплахи.

За да оценят ефективността на DarkBERT, изследователите го сравняват с два известни НЛП модела, BERT и RoBERTa, оценявайки тяхното представяне в три ключови случая на употреба, свързани с киберсигурността, изследването, публикувано на arxiv.org, показва.

1. Наблюдавайте форумите в тъмната мрежа за потенциално опасни теми

Наблюдението на форуми в тъмната мрежа, които обикновено се използват за обмен на незаконна информация, е от решаващо значение за идентифициране на потенциално опасни теми. Въпреки това, ръчното им преглеждане може да отнеме много време, което прави автоматизацията на процеса полезна за експертите по сигурността.

Изследователите се съсредоточиха върху потенциално вредни дейности в хакерски форуми, разработвайки насоки за анотации за забележителни теми, включително споделяне на поверителни данни и разпространение на критичен зловреден софтуер или уязвимости.

DarkBERT превъзхожда други езикови модели по отношение на прецизност, запомняне и резултат F1, очертавайки се като превъзходен избор за идентифициране на забележителни нишки в тъмната мрежа.

2. Откриване на сайтове, които хостват поверителна информация

Хакери и групи за рансъмуер използват тъмната мрежа, за да създават сайтове за изтичане на данни, където публикуват поверителни данни, откраднати от организации, които отказват да се съобразят с исканията за откуп. Други киберпрестъпници просто качват изтекли чувствителни данни, като пароли и финансова информация, в тъмната мрежа с намерението да ги продадат.

В своето проучване изследователите са събрали данни от известни групи за рансъмуер и анализирани сайтове за изтичане на ransomware, които публикуват лични данни на организации. DarkBERT превъзхожда други езикови модели при идентифицирането и класифицирането на такива сайтове, демонстрирайки разбирането си за езика, използван в подземни хакерски форуми в тъмната мрежа.

DarkBERT използва функцията за маска на запълване, присъща характеристика на езиковите модели от семейството на BERT, за точно идентифициране на ключови думи, свързани с незаконни дейности, включително продажба на наркотици в тъмната мрежа.

Когато думата „MDMA“ беше маскирана в страница за продажба на наркотици, DarkBERT генерира думи, свързани с наркотици, докато други модели предлагаха общи думи и термини, несвързани с наркотици, като различни професии.

Способността на DarkBERT да идентифицира ключови думи, свързани с незаконни дейности, може да бъде ценна при проследяване и справяне с възникващи кибер заплахи.

Достъпен ли е DarkBERT за широката публика?

DarkBERT в момента не е достъпен за обществеността, но изследователите са отворени за искания да го използват за академични цели.

Използвайте силата на AI за откриване и предотвратяване на заплахи

DarkBERT е предварително обучен за данни от тъмната мрежа и превъзхожда съществуващите езикови модели в множество случаи на използване на киберсигурността, като се позиционира като ключов инструмент за напредък в изследванията на тъмната мрежа.

Обученият в тъмната мрежа AI има потенциала да се използва за различни задачи по киберсигурността, включително идентифициране на уебсайтове, продаващи изтекла информация поверителни данни, наблюдение на тъмни уеб форуми за откриване на незаконно споделяне на информация и идентифициране на ключови думи, свързани с киберпространството заплахи.

Но винаги трябва да помните, че подобно на други LLM, DarkBERT е в процес на работа и неговата производителност може да бъде подобрена чрез непрекъснато обучение и фина настройка.