Onderzoekers categoriseerden AI-modellen op basis van risico – en vonden een breed scala

Onderzoekers categoriseerden AI-modellen op basis van risico – en vonden een breed scala

Po Leeeen universitair hoofddocent aan de Universiteit van Chicago, gespecialiseerd in stress- en opwindingstesten kunstmatige intelligentie Intelligente modellen die worden gebruikt om wangedrag op te sporen, zijn voor sommige adviesbureaus een voorkeurshulpmiddel geworden. Deze adviesbureaus zijn nu vaak meer bezorgd over hoe intelligent hun AI-modellen zijn dan over hoe problematisch ze zijn – juridisch, ethisch en in termen van naleving van de regelgeving.

Lee en collega's van vele andere universiteiten bovendien De deugd van kunstmatige intelligentiemede opgericht door Lee, W Lapis-laboratoriaheeft onlangs een AI-risicotaxonomie ontwikkeld, samen met een benchmark die laat zien hoe het overtreden van de regels verschilt Grote taalmodellen “We hebben een aantal principes van AI-veiligheid nodig, zowel wat betreft naleving van de regelgeving als normaal gebruik”, vertelt Lee aan WIRED.

Onderzoekers Geanalyseerd Een groep onderzoekers analyseerde overheidsregels en richtlijnen met betrekking tot kunstmatige intelligentie, waaronder die van de Verenigde Staten, China en de Europese Unie, en bestudeerde het gebruiksbeleid van 16 grote AI-bedrijven van over de hele wereld.

De onderzoekers bouwden ook LUCHTSTOEL 2024Het is een benchmark die duizenden signalen gebruikt om te bepalen hoe goed populaire AI-modellen presteren op het gebied van specifieke risico’s. Claude 3 Opus van Anthropic scoort bijvoorbeeld hoog als het gaat om het weigeren van cyberbedreigingen, terwijl Gemini 1.5 Pro van Google hoog scoort als het gaat om het vermijden van seksuele naaktheid zonder wederzijds goedvinden.

DBRX-instructies, a Model ontwikkeld door Databricksboekte op alle gebieden het slechtste resultaat. Toen het bedrijf dit aankondigde Het model werd in maart uitgebrachtHet zei dat het de veiligheidskenmerken van de DBRX Instruct zou blijven verbeteren.

Anthropic, Google en Databricks reageerden niet onmiddellijk op een verzoek om commentaar.

Het begrijpen van het risicolandschap, evenals de voor- en nadelen van bepaalde modellen, kan belangrijker worden voor bedrijven die AI willen inzetten in specifieke markten of voor specifieke gebruiksscenario’s. Een bedrijf dat bijvoorbeeld een masterdiploma in de rechten wil gebruiken voor klantenservice, zou zich meer zorgen kunnen maken over de mate waarin een model beledigende taal zal produceren wanneer het wordt geprovoceerd, dan over de mate waarin het in staat is een nucleair apparaat te ontwerpen.

Bo zegt dat de analyse ook enkele interessante kwesties aan het licht brengt met betrekking tot de manier waarop kunstmatige intelligentie wordt ontwikkeld en gereguleerd. Onderzoekers ontdekten bijvoorbeeld dat overheidsregels over het algemeen minder alomvattend zijn dan bedrijfsbeleid, wat erop wijst dat er ruimte is voor aanscherping van de regelgeving.

De analyses suggereren ook dat sommige bedrijven meer zouden kunnen doen om de veiligheid van hun modellen te garanderen. “Als je sommige modellen test volgens het eigen beleid van het bedrijf, zullen ze niet noodzakelijkerwijs compatibel zijn”, zegt Bo. “Dat betekent dat er veel ruimte voor verbetering is.”

Andere onderzoekers proberen orde te scheppen in het chaotische en verwarrende landschap van risico's die met kunstmatige intelligentie gepaard gaan. Deze week onthulden twee onderzoekers van MIT Hun eigen database met AI-risico'sDeze gegevens zijn samengesteld uit 43 verschillende AI-risicokaders. “Veel organisaties bevinden zich nog heel vroeg in het AI-adoptieproces”, wat betekent dat ze begeleiding nodig hebben over mogelijke risico’s, zegt Neil Thompson, wetenschappelijk onderzoeker bij MIT en betrokken bij het project.

Peter Slattery, projectleider en onderzoeker bij MIT Toekomstige technologiegroepInsider, een organisatie die de vooruitgang op computergebied bestudeert, zegt dat de database benadrukt dat sommige AI-risico's meer aandacht krijgen dan andere. Meer dan 70% van de frames vermeldt bijvoorbeeld privacy- en veiligheidskwesties, maar slechts ongeveer 40% vermeldt verkeerde informatie.

Inspanningen om AI-risico’s te classificeren en te meten zullen moeten evolueren naarmate AI evolueert. Lee zegt dat het belangrijk zal zijn om opkomende kwesties te onderzoeken, zoals… Emotionele gehechtheid Van modellen voor kunstmatige intelligentie. Haar bedrijf heeft onlangs een analyse uitgevoerd De grotere en sterkere versie Uit een recente studie is gebleken dat Meta's Llama 3.1-model, hoewel zeer efficiënt, niet veiliger is, wat een bredere kloof weerspiegelt. “De veiligheid verbetert niet echt zoveel”, zegt Lee.