Phi-3-mini er et gjennombrudd Microsoft innen kunstig intelligens?

Phi kunstig intelligens modell av Microsoft - liten, billig og lider ikke av "hallusinasjoner". Dette sier de om den nye språkmodellen, som er spådd å ha en stor fremtid.

GPT er helt fantastisk, men samtidig er det fryktelig dyrt, og det kan ikke være perfekt for alle. Av disse og mange andre grunner Microsoft eksperimenterer med mye mindre AI-modeller. Phi-3-mini sies å til og med gjøre arbeidet til OpenAI-ingeniører til skamme.

Også interessant: Fremtidens transistorer: En ny æra med sjetonger venter på oss

INNHOLD

1. ChatGPT er ikke et universalmiddel

2. Hva er kjent om Microsoft Phi

3. Hvordan bruker jeg Phi-3-mini?

4. Microsoft Vil Phi erstatte ChatGPT-modeller?

5. Phi-3 fra Microsoft forstår kun engelsk

ChatGPT er ikke et universalmiddel

ChatGPT er en oppfinnelse som er finansiert, kuratert og forbedret Microsoft. Egentlig hører det ikke til Microsoft, og selskapet OpenAI, som Microsoft ikke eier (hun er den ledende, men ikke den største, investoren). GPT-språkmodellen ga Microsoft en gigantisk fordel i forhold til resten av de store teknologiselskapene som nå skynder seg å ta igjen. Det er imidlertid et stort antall problemer med GPT, hvorav mange ikke kan løses ennå.

For det første er dette en svært ressurskrevende språkmodell. Nettorientert Microsoft OpenAIs Copilot eller ChatGPT genererer svært høye driftskostnader for Microsoft. Dette er ikke bare en funksjon i GPT, men også i alle større språkmodeller. I tillegg er GPT, i likhet med sine konkurrenter, utsatt for «hallusinasjoner», det vil si at den kan generere svar på spørsmål som inneholder falsk eller villedende informasjon. Jo mer data en slik modell absorberer, jo mer har den en tendens til å generere lignende innhold. Derfor er hallusinasjoner og falske utsagn ikke en myte sugd ut av en digital finger. Brukere legger ofte merke til at store språkmodeller ofte gjør feil, gir unøyaktige data og opererer på ikke-eksisterende fakta.

Begge problemene er svært alvorlige, og det er derfor OpenAI, Microsoft, Meta, Google og andre jobber med å utvikle ikke bare Large Language Model-teknologien, men også Small Language Model, som i praksis kan gi mye bedre resultater.

En digital regnskapsførerassistent trenger ikke å kunne mye om kvantefysikk. Det kan være mye mindre og mindre komplekst (og derfor billigere), og ved å trene bare på dataene som er nødvendige for formålet, burde det teoretisk hallusinere mindre. Selv om dette er lettere sagt enn gjort. GenAI-teknologi er fortsatt en vill IT-satsing. Og selv om arbeidet skrider frem i et enestående tempo, er det fortsatt vanskelig å få praktisk gjennombrudd i grunnleggende spørsmål. Men selskapet Microsoft nylig annonsert et slikt gjennombrudd. Vi snakker om en liten språkmodell Microsoft Phi.

Også interessant: Hvordan Taiwan, Kina og USA kjemper for teknologisk dominans: den store brikkekrigen

Hva er kjent om Microsoft Phi

Først av alt bør det bemerkes at eksperimentet ble utført uten deltakelse fra OpenAI-selskapet. Det vil si at det er utvikling av ingeniører Microsoft.

- Annonse -

Modeller Microsoft Phi er en serie små språkmodeller (SLM) som oppnår eksepsjonelle resultater i en rekke tester. Den første modellen, Phi-1, hadde 1,3 milliarder parametere og oppnådde de beste Python-kodingsresultatene blant eksisterende SLM-er.

Utviklerne fokuserte deretter på språkforståelse og -tenkning, og skapte Phi-1.5-modellen, som også hadde 1,3 milliarder parametere og viste ytelse sammenlignbar med modeller med fem ganger så mange parametere.

Phi-2 er en 2,7 milliarder parametermodell som demonstrerer enestående resonnement og språkforståelsesevner, og presterer på nivået til de beste basismodellene med 13 milliarder parametere. Phi-2 skiller seg ut fra andre modeller på grunn av innovasjonene innen modellskalering og datakurering.

Den er tilgjengelig i Azure AI Studio-modellkatalogen, som letter forskning og utvikling innen språkmodeller. Phi-2 ble lansert i desember 2023. Utviklerne forsikrer at den fungerer like bra som Mistral eller llama 2 fra Meta. Og Phi-3 fungerer enda bedre enn forrige versjon.

Phi-3-modellen som nettopp ble annonsert er imidlertid helt ny i kvalitet. Det er i hvert fall det du kan bedømme ut fra informasjonen som er gitt Microsoft. Ifølge selskapet, ifølge indikatorene for alle kjente benchmarks, presterer Phi-3 bedre enn noen annen modell av lignende størrelse, inkludert språkanalyse, programmeringsarbeid eller matematisk arbeid.

Phi-3-mini, den minste versjonen av denne modellen, har nettopp blitt tilgjengelig for alle interesserte. Det vil si at den har vært tilgjengelig siden 23. april. Phi-3-mini har 3,8 milliarder parametere og ifølge målinger Microsoft, dobbelt så effektiv som alle andre modeller av samme størrelse. Den finnes i katalogen over AI-modeller av skytjenesten Microsoft Azure, Hugging Face maskinlæringsmodellplattformen og Ollama, et rammeverk for å kjøre modeller på en lokal maskin.

Som han påstår Microsoft, Phi-3-mini krever ikke kraftige brikker Nvidia. Modellen kan fungere på vanlige databrikker. Eller passe selv på en telefon som ikke er koblet til Internett.

Mindre kraft gjør også at modellene ikke blir like nøyaktige. Phi-3 vil ikke være egnet for leger eller skatteregnskapsførere, men vil hjelpe til med enklere oppgaver. For eksempel for målretting av reklame eller oppsummering av anmeldelser på Internett.

Siden de mindre modellene krever mindre bearbeiding, vil de være billigere for private bedrifter å bruke. Det vil si i Microsoft det vil være flere kunder som gjerne vil involvere AI i arbeidet sitt, men som anser det for dyrt. Det er imidlertid ikke klart hvor mye de vil koste.

Det er foreløpig ikke kjent når de små og mellomstore modellene dukker opp. Men sistnevnte vil være kraftigere og dyrere. Selv om det allerede er kjent at Phi-3-small vil ha 7 milliarder parametere, og Phi-3-medium vil ha så mange som 14 milliarder parametere.

- Annonse -

Les også:

Hvordan bruker jeg Phi-3-mini?

GPT-4 Turbo krever kraftige AI-brikker, som fortsatt er veldig dyre. Phi-3 liten talemodell kan fungere offline, uten skyen, selv ved hjelp av en brikke på en mobiltelefon.

Phi-3 er ikke et produkt for sluttbrukere, men en teknologi som utviklere vil kunne bruke og implementere i sine applikasjoner – både skybasert, det vil si eksternt plassert, og de som fungerer lokalt og offline. Det forventes å fungere sømløst med enheter og deres komponenter, for eksempel mobiltelefoner, biler og deres infotainmentsystemer, eller til og med IoT-sensorer. I noen scenarier kan denne teknologien være uvurderlig.

Microsoft gir til og med et konkret eksempel slik at vi ikke trenger å anstrenge fantasien. Se for deg en bonde som inspiserer avlingene sine og ser tegn på sykdom på bladene, stilkene og grenene. Siden han er langt fra telekommunikasjonsmastene, trenger han bare å ta frem telefonen, ta et bilde av skaden, legge den inn i en applikasjon som bruker Phi-3-teknologi – og modellen vil raskt og offline analysere bildet og gi råd om hvordan man skal bekjempe denne sykdommen.

Som han forklarer Microsoft, var nøkkelen til GPTs suksess å trekke på enorme mengder data for trening. Med så store datasett er høy datakvalitet uaktuelt. I mellomtiden, når man trente Phi-modellen, ble den stikk motsatte OpenAI-tilnærmingen brukt. I stedet for å stappe modellen med informasjon, var fokuset på inkrementell og grundig læring.

I stedet for å bruke rå internettdata, har forskere Microsoft opprettet TinyStories-datasettet, og genererte millioner av "baby"-historier i miniatyr. Disse historiene ble brukt til å trene opp svært små språkmodeller. Forskerne gikk deretter videre ved å lage CodeTextbook-datasettet, som brukte nøye utvalgte, offentlig tilgjengelige data som ble filtrert for pedagogisk verdi og innholdskvalitet. Disse dataene ble deretter filtrert flere ganger og matet tilbake til en stor språkmodell (LLM) for videre syntese.

Alt dette gjorde det mulig å lage en rekke data tilstrekkelig til å trene opp en mer dyktig SLM. I tillegg ble det brukt en flernivåtilnærming til risikostyring og -redusering i utviklingen av Phi-3-modellen, inkludert vurdering, testing og manuelle justeringer. Som et resultat, som han hevder Microsoft, kan utviklere som bruker Phi-3-modellfamilien dra nytte av verktøysettet som er tilgjengelig i Azure AI for å bygge sikrere og pålitelige applikasjoner.

Les også: Teleportering fra et vitenskapelig synspunkt og dets fremtid

Microsoft Vil Phi erstatte ChatGPT-modeller?

Ikke i det hele tatt. Små språkmodeller (SLM), selv når de er trent på data av høy kvalitet, har sine begrensninger og er ikke designet for dyp læring. Store språkmodeller (LLM) utkonkurrerer SLM-er i komplekse resonnementer på grunn av deres størrelse og beregningskraft. LLM-er er, og vil fortsette å være, spesielt nyttige i felt som medikamentoppdagelse, hvor man må søke gjennom store samlinger av vitenskapelige artikler og analysere komplekse mønstre. På den annen side kan SLM brukes til enklere oppgaver, som å oppsummere hovedpunktene i et langt tekstdokument, lage innhold eller drive kundeservice chatbots.

Microsoft, sa hun, bruker allerede hybridmodellsett internt, der LLM tar ledelsen, og dirigerer visse spørringer som krever mindre datakraft til SLM mens den håndterer andre, mer komplekse spørringer selv. Phi er posisjonert for databehandling på enheter, uten å bruke skyen. Det vil imidlertid fortsatt være et gap mellom små språkmodeller og intelligensnivået som kan oppnås med store modeller i skyen. Dette gapet, takket være den fortsatte utviklingen av LLM, vil neppe forsvinne med det første.

Phi-3 har ennå ikke blitt verifisert av eksterne uavhengige parter. Microsoft noen ganger snakker om 25 ganger høyere effektivitet eller energieffektivitet i ekstreme tilfeller, sammenlignet med konkurrenter, noe som høres ganske fabelaktig ut. Selv om man på den annen side ikke kan glemme at disse årene har gått Microsoft avvent oss litt fra det faktum at det er en klar leder innen IT-innovasjoner, og det er kanskje derfor vi egentlig ikke tror på det. AI-baserte programmer som reagerer umiddelbart og kjører offline i stedet for å generere? Dette ville være en verdig kulminasjon av den nåværende revolusjonen. Dessverre er det ett sentralt problem.

Les også: Alt om Neuralink Telepathy-brikken: hva det er og hvordan det fungerer

Phi-3 fra Microsoft forstår kun engelsk

Phi-3 slukte ikke petabytene som ble kastet på den i massevis. Nøye og nøye opplæring av modellen innebærer ett mindre problem. Phi-3 har blitt trent med informasjon på engelsk og har ingen anelse om noe annet språk ennå. Ikke bare ukrainsk, men også tysk, spansk, fransk eller kinesisk. Dette reduserer selvfølgelig appellen til de fleste brukere rundt om i verden.

Men i Microsoft forsikret om at arbeidet med utvikling og forbedring er i gang. Selv om du ikke bør lure deg selv ved at det ukrainske markedet er en prioritet for noen av de store selskapene. Derfor må vi vente veldig lenge på støtte fra det ukrainske språket. Men dette faktum har aldri stoppet entusiaster og de som ønsker å følge med på fremgangen.

Les også:

Mer fra forfatteren

Melde deg på

0 Kommentar

Innebygde anmeldelser

Se alle kommentarer

Andre artikler