Google har nettopp sluppet sin kraftigste AI-modell som noen gang er kalt Gemini. Hva er hun og hva kan hun gjøre? Om alt i artikkelen vår.
Google har utviklet sine egne AI-verktøy i årevis. Med den offentlige utgivelsen av ChatGPT-3 fra OpenAI har selskapet som driver verdens mest populære søkemotor også laget et lignende verktøy, Bard. Men dette verktøyet tapte fortsatt for konkurrenter, noe Google ikke kunne tillate. Derfor er det ikke overraskende at verden nylig så Gemini, en ny språkmodell fra Google, som vi lærte om under presentasjonen.
Den er designet ikke bare for å forbedre den tidligere LLM (Large Language Model) til giganten, men også for å tilby helt nye muligheter innen tekstbehandling, grafikk og lyd.
Så la oss se nærmere på den nye språkmodellen Google Gemini.
Også interessant: OpenAI Project Q*: hva det er og hvorfor prosjektet er et problem
Dette er en ny og kraftig modell for kunstig intelligens fra Google, som kan forstå ikke bare tekst, men også bilder, videoer og lyd. Denne multimodale modellen beskrives som å kunne utføre komplekse oppgaver innen matematikk, fysikk og andre domener, samt forstå og generere høykvalitetskode i en rekke programmeringsspråk.
Gemini er for tiden tilgjengelig gjennom integrasjon med Google Bard og Google Pixel 8 og vil gradvis bli inkludert i andre Google-tjenester.
«Tvillingene er resultatet av en massiv samarbeidsinnsats på tvers av Google-team, inkludert kollegene våre i Google Research,» — sa Dennis Hassabis, administrerende direktør og medgründer av Google DeepMind. "Den ble bygget fra grunnen av for å være multimodal, noe som betyr at den kan generalisere og sømløst forstå, operere på og kombinere forskjellige typer informasjon, inkludert tekst, kode, lyd, bilder og video."
Også interessant: Ikke alt vi kaller AI er faktisk kunstig intelligens. Her er det du trenger å vite
Som du sikkert allerede har gjettet, ble Gemini laget av Google og Alphabet, Googles morselskap, og er selskapets mest avanserte AI-modell til dags dato. Googles DeepMind-divisjon ga også et betydelig bidrag til utviklingen. Det er foreløpig ikke kjent hvor mange ansatte som deltok i utviklingen og hvilke midler som ble bevilget til dette, men med kjennskap til Googles muligheter kan vi være sikre på at det er et veldig stort beløp.
Også interessant: Windows 12: Hva blir det nye operativsystemet
Som jeg nevnte ovenfor, er det en multimodal modell, noe som betyr at den kan forstå, operere på og kombinere forskjellige typer data, inkludert tekst, kode, lyd, bilder og video. Det gir bedre forståelse, tenkning og kodeferdigheter sammenlignet med tidligere AI-systemer.
De viktigste egenskapene til modellen er:
Som du kan se, er egenskapene overlegne andre modeller.
I tester av språkforståelse, matematisk tenkning og koding, utkonkurrerte Gemini Ultra modeller som GPT-4. Spesielt er det den første modellen som overgår ytelsen på menneskelig nivå på testen for Massive Multitask Language Understanding (MMLU), og oppnår over 90 % nøyaktighet.
I 32 akademiske tester av en stor språkmodellstudie overgikk Gemini GPT-4. I 30 tilfeller var den nye språkmodellen fra Google bedre enn konkurrenten. Dette demonstrerer modellens evne til å forstå språket fullt ut.
Les også: Human Brain Project: Et forsøk på å imitere den menneskelige hjernen
Google beskriver denne AI som en fleksibel modell som kan fungere på alle enheter: fra Googles datasentre til mobile enheter. For å oppnå denne skalerbarheten kommer Gemini i tre versjoner: Nano, Pro og Ultra.
La oss snakke om de forskjellige versjonene av Gemini mer detaljert.
Også interessant: Google Bard AI: Alt du trenger å vite
AI i Nano- og Pro-versjoner er nå tilgjengelig i Google-produkter som henholdsvis Google Pixel 8-smarttelefonene og Bard-chatboten. Google planlegger etter hvert å integrere den i sin søkemotor, reklame, Gmail-e-posttjeneste, Chrome-nettleser og andre tjenester.
Utviklere og bedriftskunder vil kunne få tilgang til Pro gjennom Gemini API i Google AI Studio og Google Cloud Vertex AI fra og med 13. desember 2023. Utviklere Android vil ha tilgang til Nano-versjonsmodellen via AICore, som vil være tilgjengelig i en tidlig forhåndsvisning.
Les også: Samsung Galaxy Flip5 vs Motorola Razr 40 Ultra: Battle of the Two Yokozuns
I henhold til informasjon gitt under presentasjonen, vil modellen tillate Google Bard å bedre håndtere mer komplekse problemer, som nevnt:
"Vi designet Gemini slik at modellen er naturlig multimodal og forhåndstrent på flere modaliteter fra starten. Deretter foredlet vi den ved å legge til flere multimodale data for å forbedre ytelsen. Som et resultat kan Gemini lett forstå og utlede mye bedre enn tidligere multimodale modeller, og kan skryte av toppmoderne evner på nesten alle områder.
Geminis ekstraordinære multimodale evner hjelper deg å forstå kompleks tekstlig og visuell informasjon. De er spesielt nyttige når det gjelder å trekke ut spesifikk informasjon fra enorme datasett. Den ekstraordinære evnen til denne modellen til å trekke ut essensen av informasjon fra hundretusenvis av dokumenter ved å lese, filtrere og analysere dem, vil utvilsomt bidra til nye, lynraske oppdagelser innen ulike felt fra vitenskap til finans."
Under presentasjonen ble et eksempel på en kompleks studie demonstrert, som inneholder mer enn 200 tusen poster, hvorav noen måtte oppdateres i henhold til nye data. Som du kanskje har gjettet, ville det å gjøre dette manuelt være svært tidkrevende, så studieforfatterne brukte Gemini til å utarbeide kode som tok innspillene og gjorde de nødvendige oppdateringene. Et annet, mer realistisk eksempel er å bruke Googles språkmodell for å forklare matematikk- eller fysikkproblemer.
Inndataene her var et bilde/skanning av en oppgave fra en skoletime. Systemet var i stand til å behandle grafikken og teksten som var lagret der og deretter indikere hvilke deler av leksene som ble gjort riktig og som trengte mer oppmerksomhet. Presentasjonen viste at en bruker gjentatte ganger kan be Gemini om å forklare en oppgave, og hvert påfølgende forsøk må forklares på et enklere språk. Hvor nøyaktig og korrekt Gemini blir, vil selvfølgelig bli sjekket av interesserte, men muligheten til å lese og behandle tekst direkte fra bilder er imponerende. Som lagt til under presentasjonen:
"Gemini har blitt lært opp til å gjenkjenne og forstå tekst, bilder, lyder og mer på samme tid. Takket være dette forstår han bedre nyansene til informasjon og kan svare på komplekse spørsmål. Den er spesielt effektiv til å forklare emner relatert til matematikk og fysikk, så den kan tjene som en personlig leksehjelper".
Google skrøt også av at Gemini «lærte» på de nye TPUv5-brikkesettene, og planlegger å introdusere Gemini Ultra tidlig i 2024, som vil bruke Bard Advanced, en ny versjon av forbrukerversjonen av gigantens talemodell. Gemini Ultra er for tiden i testing og er allerede tilgjengelig for utvalgte sikkerhetseksperter.
Den siste viktige informasjonen er introduksjonen av Gemini i smarttelefonene Google Pixel 8. Dette vil blant annet gjøre det mulig å lage raske svar gjennom Gboard-applikasjonen i messengers. Den første er WhatsApp, men neste år vil slike løsninger dukke opp i andre applikasjoner knyttet til kommunikasjon. Dette er imidlertid bare begynnelsen, ettersom Google har annonsert mange nye AI-verktøy for Pixel 8-smarttelefonene, og de vil være tilgjengelige på noen andre enheter i fremtiden. Android. Dette er imidlertid ytterligere planer og ingen detaljer er gitt på nåværende tidspunkt.
Googles nye Gemini-modell ser ut til å være en av de største og mest avanserte AI-modellene til dags dato, selv om utgivelsen av Ultra-modellen definitivt vil avgjøre det. Sammenlignet med andre populære modeller som for tiden bruker AI chatbots, skiller Gemini seg ut med sin egen multimodale funksjon, mens andre modeller som GPT-4 er avhengige av plugins og integrasjon for å være virkelig multimodale.
Selv om Gemini er et stort sprang fremover i utviklingen av kunstig intelligens, har den de samme manglene som andre store språkmodeller. Først av alt er dette muligheten for å lage falsk informasjon. Fordommer er også basert på opplæringsdataene som er tilgjengelige for den nye språkmodellen. Det er også verdt å nevne den begrensede forståelsen av den virkelige verden. Google innrømmer at den nye Gemini-modellen kan gjøre feil, gi fakta som ikke er basert på bevis og motsier sunn fornuft.
Flere tester er nødvendig, spesielt for Gemini Ultra, som har nye funksjoner som ennå ikke er fullt utforsket. Google er forpliktet til å nøye evaluere Gemini for å minimere potensiell skade.
Også interessant: Alt om Microsoft Copilot: fremtiden eller feil vei?
Lanseringen av Gemini av Google innledet en ny æra av AI-utvikling. Med sin beste ytelse sammenlignet med tidligere modeller og menneskelige grunnlinjer, peker Gemini på fremtidens muligheter for kunstig intelligens, men trenger fortsatt mer forskning for å løse visse mangler.
I fremtiden kan du forvente at Gemini vil tilby mer nyttige og intelligente funksjoner i Google-produkter. Fremover planlegger selskapet å fortsette å utvide Gemini utover engelsk og bygge på sin kjernemodellmetodikk.
Vi kan bare se og håpe at Google vet hva det gjør.
Les også:
Legg igjen en kommentar