Root NationNyheterIT-nyheterMicrosoft presenterte en multimodal tilnærming som banet vei for AI på menneskelig nivå

Microsoft presenterte en multimodal tilnærming som banet vei for AI på menneskelig nivå

-

I begynnelsen av denne uken har forskere fra Microsoft presenterte Kosmos-1, en multimodal kunstig intelligensmodell som kan analysere bilder for innhold, løse visuelle gåter, utføre visuell tekstgjenkjenning, ta visuelle IQ-tester og forstå naturlige språkinstruksjoner. Ifølge forskerne er slike AI-modeller det første skrittet mot å skape en kunstig generell intelligens (AI) som kan utføre felles oppgaver på menneskelig nivå. Det vil si at denne teknologien vil kunne erstatte en person i enhver intellektuell oppgave. Og dette er det uttalte målet til OpenAI, en viktig forretningspartner Microsoft innen kunstig intelligens.

Kosmos-1

I dette tilfellet er Kosmos-1 en ren personlig utvikling av selskapet Microsoft. Forskerne kaller deres skapelse en "multimodal bred språkmodell" (MLLM) fordi dens røtter ligger i tekstbasert naturlig språkbehandling som LLM, som ChatGPT. For at modellen skal godta inndatabilder, må forskerne først konvertere bildene til en spesiell serie tokens (hovedsakelig tekst) som LLM kan forstå.

Kosmos-1

Kosmos-1 ble trent på en database fra Internett, inkludert utdrag fra The Pile (en 800 GB engelsk tekstressurs) og Common Crawl. Modellen ble deretter testet med flere tester for taleforståelse, talegenerering, tekstklassifisering uten optisk tegngjenkjenning, bildeteksting, visuell spørsmålsbesvarelse, besvarelse av nettsidespørsmål og bildeklassifisering med lokalisering. I følge Microsoft, Kosmos-1 utkonkurrerte dagens modeller i mange av disse testene.

Kosmos-1

Spesielt interessant var Raven's Progressive Reasoning-test, som måler visuell IQ ved å presentere en sekvens av former og be personen om å fullføre sekvensen. Kosmos-1 var i stand til å gi riktig svar i 22 % av tilfellene.

Kosmos-1

Disse tidlige trinnene, som med fremtidig optimalisering kan gi enda mer betydningsfulle resultater, slik at AI-modeller kan oppfatte og påvirke enhver form for media, noe som i stor grad utvider evnene til kunstige assistenter.

Les også:

DzhereloArsTechnica
Melde deg på
Gi beskjed om
gjest

0 Kommentar
Innebygde anmeldelser
Se alle kommentarer