MIT-forskere løste mysteriet med maskinlæring

Etter 2010 begynte en seriøs forbedring av programvarealgoritmer, og dette, sammen med kraftige datamaskiner, ga impulser til den raske utviklingen av nevrale nettverk. Programvaremodeller er trent og trent på tusenvis av eksempler for å danne sine egne handlinger senere. I dag er det mest kjente nevrale nettverket dette OpenAI GPT-3. Dette er en maskinlæringsmodell som lærer ved hjelp av mye Internett-data, kan ta et lite fragment av tekst og legge til et utilstrekkelig fragment på et ganske høyt nivå. Og dette gjelder ikke bare fortellende tekst, men også dikt, så vel som linjer med programvarekode.

Men dette er ikke alt modellene av denne planen er i stand til. Forskere studerer et interessant fenomen kjent som «læring i kontekst», der en stor språkmodell lærer å utføre en oppgave etter å ha sett bare noen få eksempler, selv om den ikke har blitt trent på oppgaven.

Forskere fra Massachusetts Institute of Technology, Google Research og Stanford University prøver å løse dette mysteriet. Med kontekstuell læring oppdateres ikke modellparametrene, så det ser ut til at modellen lærer en ny oppgave uten å lære noe i det hele tatt.

De teoretiske resultatene til forskerne viser at disse massive modellene av nevrale nettverk er i stand til å inneholde mindre og enklere lineære modeller gjemt inne i dem. Den store modellen kan deretter implementere en enkel algoritme for å trene denne mindre lineære modellen til å utføre en ny oppgave, kun ved å bruke informasjonen som allerede finnes i den større modellen.

Takket være en dypere forståelse av kontekstuell læring, vil forskere kunne implementere nye oppgaver med modeller uten kostbar omskolering. Det vil si, for det første, for en spesifikk oppgave er det nødvendig å samle inn et stort utvalg data på grunnlag av hvilken opplæring vil finne sted. Og så vil det være mulig å gi det nevrale nettverket bare noen få eksempler, takket være hvilken trening vil finne sted.

"Kontekstuell læring er et urimelig effektivt læringsfenomen som må forstås".

Det har blitt antatt at det er mindre maskinlæringsmodeller i nevrale nettverksmodeller som kan lære en eldre modell å utføre en ny oppgave. For å teste teorien deres tok forskerne en nevrale nettverksmodell som er veldig lik GPT-3 i arkitektur, men ble bygget spesielt for læring i kontekst. Det vil si at inne i de tidligere lagene ble en modell implementert, som var engasjert i å lære en lineær modell, implementere enkle læringsalgoritmer.

"Disse resultatene er et springbrett for å forstå hvordan modeller kan lære mer komplekse oppgaver og vil hjelpe forskere med å utvikle mer effektive metoder for å trene språkmodeller for å forbedre ytelsen ytterligere.".

Les også:

Dzherelocsail.mit.edu

Melde deg på

0 Kommentar

Innebygde anmeldelser

Se alle kommentarer

Andre artikler

Forskere fra Massachusetts Institute of Technology har løst mysteriet med maskinlæring

Nylige kommentarer