Microsoft Kosmos-1 baner vei for AI på menneskelig nivå

I begynnelsen av denne uken har forskere fra Microsoft presenterte Kosmos-1, en multimodal kunstig intelligensmodell som kan analysere bilder for innhold, løse visuelle gåter, utføre visuell tekstgjenkjenning, ta visuelle IQ-tester og forstå naturlige språkinstruksjoner. Ifølge forskerne er slike AI-modeller det første skrittet mot å skape en kunstig generell intelligens (AI) som kan utføre felles oppgaver på menneskelig nivå. Det vil si at denne teknologien vil kunne erstatte en person i enhver intellektuell oppgave. Og dette er det uttalte målet til OpenAI, en viktig forretningspartner Microsoft innen kunstig intelligens.

I dette tilfellet er Kosmos-1 en ren personlig utvikling av selskapet Microsoft. Forskerne kaller deres skapelse en "multimodal bred språkmodell" (MLLM) fordi dens røtter ligger i tekstbasert naturlig språkbehandling som LLM, som ChatGPT. For at modellen skal godta inndatabilder, må forskerne først konvertere bildene til en spesiell serie tokens (hovedsakelig tekst) som LLM kan forstå.

Kosmos-1 ble trent på en database fra Internett, inkludert utdrag fra The Pile (en 800 GB engelsk tekstressurs) og Common Crawl. Modellen ble deretter testet med flere tester for taleforståelse, talegenerering, tekstklassifisering uten optisk tegngjenkjenning, bildeteksting, visuell spørsmålsbesvarelse, besvarelse av nettsidespørsmål og bildeklassifisering med lokalisering. I følge Microsoft, Kosmos-1 utkonkurrerte dagens modeller i mange av disse testene.

Spesielt interessant var Raven's Progressive Reasoning-test, som måler visuell IQ ved å presentere en sekvens av former og be personen om å fullføre sekvensen. Kosmos-1 var i stand til å gi riktig svar i 22 % av tilfellene.

Disse tidlige trinnene, som med fremtidig optimalisering kan gi enda mer betydningsfulle resultater, slik at AI-modeller kan oppfatte og påvirke enhver form for media, noe som i stor grad utvider evnene til kunstige assistenter.

Les også:

DzhereloArsTechnica

Melde deg på

0 Kommentar

Innebygde anmeldelser

Se alle kommentarer

Andre artikler

Microsoft presenterte en multimodal tilnærming som banet vei for AI på menneskelig nivå

Nylige kommentarer