9 december 2024
0 Reactie(s)

9 december 2024

MLCommons introduceert AILuminate voor het benchmarken van taalmodellen

MLCom­mons heeft AILumi­nate geïntro­du­ceerd, een bench­mark die de veilig­heid van grote taalmo­dellen (LLM’s) beoor­deelt. Deze versie 1.0 biedt veilig­heids­be­oor­de­lingen voor de meest gebruikte LLM’s en is het resul­taat van een samen­wer­king tussen AI-onder­zoe­kers en industrie-experts.

AILumi­nate evalu­eert de reacties van LLM’s op meer dan 24.000 test prompts, verdeeld over twaalf catego­rieën van poten­tiële gevaren. Deze catego­rieën omvatten fysieke gevaren zoals aanmoe­di­ging van zelfbe­scha­di­ging, niet-fysieke gevaren zoals priva­cy­schen­dingen, en contex­tuele gevaren zoals het geven van ongekwa­li­fi­ceerd medisch advies. 

De bench­mark maakt gebruik van gespe­ci­a­li­seerde ‘safety evalu­ator models’ om te bepalen welke reacties inbreuk maken op de vastge­stelde veilig­heids­normen. De resul­taten worden samen­gevat in een rapport met een vijfpunts­schaal: slecht, matig, goed, zeer goed en uitste­kend. Deze beoor­de­lingen zijn gebaseerd op het percen­tage reacties dat de veilig­heids­normen schendt, in verge­lij­king met een referen­tie­model samen­ge­steld uit toegan­ke­lijke systemen met open gewichten en minder dan 15 miljard parameters. 

Voor veel business- en IT-managers is het vaak ondui­de­lijk hoe verschil­lende AI-modellen zich tot elkaar verhouden, vooral op het gebied van veilig­heid en betrouw­baar­heid. AILumi­nate biedt een gestan­daar­di­seerde methode om de veilig­heid van LLM’s te evalu­eren, wat organi­sa­ties helpt bij het nemen van geïnfor­meerde beslis­singen over de imple­men­tatie van AI-systemen. Door een weten­schap­pe­lijke en onafhan­ke­lijke analyse van de risico’s van LLM’s te bieden, kunnen bedrijven beter begrijpen welke modellen geschikt zijn voor veilige integratie in hun producten en diensten.

De ontwik­ke­ling van AILumi­nate werd geleid door de AI Risk and Relia­bi­lity-werkgroep van MLCom­mons, bestaande uit-onder­zoe­kers van instel­lingen zoals de TU Eindhoven, Stanford Univer­sity en Columbia Univer­sity, evenals techni­sche experts van bedrijven zoals Google, Intel, NVIDIA, Meta, Micro­soft en Qualcomm.

Overi­gens is MLCom­mons niet de eerste partij die zich op dit soort AI rating-systemen richt. Ook bedrijven als Nextcloud en IBM hebben reeds methoden voor het beoor­delen van de kwali­teit en bijvoor­beeld de trans­pa­rantie van modellen gelanceerd. 

In de snel evolu­e­rende wereld van AI is het essen­tieel voor organi­sa­ties om op de hoogte te blijven van de veilign de modellen die ze overwegen te gebruiken. AILumi­nate fungeert als een waardevol hulpmiddel voor het beoor­delen van de veilig­heid van LLM’s, waardoor bedrijven met meer vertrouwen AI-techno­lo­gieën kunnen integreren in hun operaties.

Redactie@DCpedia

Redactie@DCpedia

0 Reactie(s)

7 weergaven

0 Reactie(s)

0 reacties

Reacties gesloten

De reactiemogelijkheid is verlopen. (14 dagen)

Nieuwsbrief

Pin It on Pinterest

Share This