I nuovi benchmark definiscono come i modelli LLM dovrebbero essere testati nel SOC – misurando minacce reali, flussi di lavoro e risultati in termini di supporto ai difensori
CrowdStrike, in partnership con Meta, ha presentato una nuova suite di benchmark – CyberSOCEval – per valutare le performance dei sistemi di AI nelle operazioni di sicurezza del mondo reale. Basata sul framework CyberSecEval di Meta e sull’esperienza leader di CrowdStrike in materia di threat intelligence e di dati di AI per la cybersecurity, questa suite di benchmark open source contribuisce a stabilire un nuovo framework per testare, selezionare e sfruttare i Modelli di Linguaggio di Grandi Dimensioni (LLM) all’interno del Security Operation Center (SOC).
I cyber difensori affrontano una sfida schiacciante a causa dell’enorme flusso di avvisi di sicurezza e delle minacce in continua evoluzione. Le organizzazioni devono adottare le più recenti tecnologie di AI per superare gli avversari e molti team di sicurezza sono ancora nelle fasi iniziali del loro percorso con l’AI, in particolare nell’uso degli LLM per automatizzare i compiti e migliorare l’efficienza delle operazioni di sicurezza. Senza benchmark chiari, è difficile sapere quali sistemi, casi d’uso e standard di performance dimostrino un vero vantaggio competitivo dell’AI contro gli attacchi reali.
Meta e CrowdStrike stanno affrontando questa sfida introducendo CyberSOCEval, una suite di benchmark studiati per aiutare a definire come deve apparire un AI che sia efficace per la cyber difesa. Costruita sul framework open source CyberSecEval di Meta e sulla frontline threat intelligence di CrowdStrike, CyberSOCEval valuta i modelli LLM attraverso flussi di lavoro di sicurezza critici come la risposta agli incidenti, l’analisi del malware e la comprensione dell’analisi delle minacce. Testando l’abilità dei sistemi di AI contro una combinazione di real-world adversary tradecraft e scenari expert-designed di ragionamento sulla sicurezza, basati su tattiche avversarie realmente osservate, le organizzazioni possono convalidare le performance “sotto sforzo” e provare la prontezza operativa. Con questi benchmark, i team di sicurezza possono individuare dove l’AI fornisce il massimo valore, mentre gli sviluppatori di modelli ottengono una North Star per migliorare le capacità che potenziano il ROI e l’efficacia del SOC.
“In Meta, siamo impegnati a far progredire e massimizzare i benefici dell’AI open source – specialmente ora che i LLM diventano strumenti potenti per organizzazioni di ogni dimensione”, ha detto Vincent Gonguet, Director of Product, GenAI at Superintelligence Labs di Meta. “La nostra collaborazione con CrowdStrike introduce una nuova suite di benchmark open source per valutare le capacità dei modelli LLM in scenari di sicurezza del mondo reale. Con questi benchmark in essere, e aperti alla community della sicurezza e dell’AI per essere ulteriormente migliorati, possiamo lavorare più rapidamente come industria, per sbloccare il potenziale dell’AI nel proteggere contro gli attacchi avanzati, incluse le minacce basate sull’AI”.
“Quando due leader come CrowdStrike e Meta si uniscono, il risultato è molto più che una collaborazione: si tratta di definire la direzione della cybersecurity per l’era dell’AI”, ha dichiarato Daniel Bernard, Chief Business Officer di CrowdStrike. “Combinando l’adversary intelligence di CrowdStrike e la leadership nella cybersecurity AI-native, con l’esperienza nella ricerca AI di Meta e il vasto dataset, stiamo aiutando i clienti – e la cybersecurity come settore – ad adottare i sistemi di AI con fiducia. Questa partnership stabilisce un nuovo standard per come l’AI nel SOC dovrebbe essere costruita e implementata, dando ai difensori il potere di restare un passo avanti all’avversario”.