Hva er Gemini: Alt om Googles nye AI-modell

08/02/2024 22:28

Google har nettopp sluppet sin kraftigste AI-modell som noen gang er kalt Gemini. Hva er hun og hva kan hun gjøre? Om alt i artikkelen vår.

Google har utviklet sine egne AI-verktøy i årevis. Med den offentlige utgivelsen av ChatGPT-3 fra OpenAI har selskapet som driver verdens mest populære søkemotor også laget et lignende verktøy, Bard. Men dette verktøyet tapte fortsatt for konkurrenter, noe Google ikke kunne tillate. Derfor er det ikke overraskende at verden nylig så Gemini, en ny språkmodell fra Google, som vi lærte om under presentasjonen.

Den er designet ikke bare for å forbedre den tidligere LLM (Large Language Model) til giganten, men også for å tilby helt nye muligheter innen tekstbehandling, grafikk og lyd.

Så la oss se nærmere på den nye språkmodellen Google Gemini.

Også interessant: OpenAI Project Q*: hva det er og hvorfor prosjektet er et problem

INNHOLD

1. Hva er Google Gemini?

2. Hvem har laget modellen?

3. Muligheter

4. Finnes det forskjellige versjoner?

5. Hvordan få tilgang til Gemini?

6. Gemini hos Google Bard: Hva vil endre seg?

7. Gemini i Google Pixel-smarttelefoner

8. Hvordan er Gemini forskjellig fra andre AI-modeller, for eksempel GPT-4?

9. Bekymringer om nøyaktighet og upartiskhet

10. Fremtiden er med Gemini

Hva er Google Gemini?

Dette er en ny og kraftig modell for kunstig intelligens fra Google, som kan forstå ikke bare tekst, men også bilder, videoer og lyd. Denne multimodale modellen beskrives som å kunne utføre komplekse oppgaver innen matematikk, fysikk og andre domener, samt forstå og generere høykvalitetskode i en rekke programmeringsspråk.

Gemini er for tiden tilgjengelig gjennom integrasjon med Google Bard og Google Pixel 8 og vil gradvis bli inkludert i andre Google-tjenester.

«Tvillingene er resultatet av en massiv samarbeidsinnsats på tvers av Google-team, inkludert kollegene våre i Google Research,» — sa Dennis Hassabis, administrerende direktør og medgründer av Google DeepMind. "Den ble bygget fra grunnen av for å være multimodal, noe som betyr at den kan generalisere og sømløst forstå, operere på og kombinere forskjellige typer informasjon, inkludert tekst, kode, lyd, bilder og video."

Også interessant: Ikke alt vi kaller AI er faktisk kunstig intelligens. Her er det du trenger å vite

Hvem har laget modellen?

Som du sikkert allerede har gjettet, ble Gemini laget av Google og Alphabet, Googles morselskap, og er selskapets mest avanserte AI-modell til dags dato. Googles DeepMind-divisjon ga også et betydelig bidrag til utviklingen. Det er foreløpig ikke kjent hvor mange ansatte som deltok i utviklingen og hvilke midler som ble bevilget til dette, men med kjennskap til Googles muligheter kan vi være sikre på at det er et veldig stort beløp.

Også interessant: Windows 12: Hva blir det nye operativsystemet

Muligheter

Som jeg nevnte ovenfor, er det en multimodal modell, noe som betyr at den kan forstå, operere på og kombinere forskjellige typer data, inkludert tekst, kode, lyd, bilder og video. Det gir bedre forståelse, tenkning og kodeferdigheter sammenlignet med tidligere AI-systemer.

De viktigste egenskapene til modellen er:

Naturlig språkbehandling for oppgaver som oversettelse, oppsummering og dialog
Matematisk tenkning og problemløsning
Evne til å generere kode og dokumentasjon
Forstå bilder, lyd og video
Multitasking i forskjellige domener

Som du kan se, er egenskapene overlegne andre modeller.

I tester av språkforståelse, matematisk tenkning og koding, utkonkurrerte Gemini Ultra modeller som GPT-4. Spesielt er det den første modellen som overgår ytelsen på menneskelig nivå på testen for Massive Multitask Language Understanding (MMLU), og oppnår over 90 % nøyaktighet.

I 32 akademiske tester av en stor språkmodellstudie overgikk Gemini GPT-4. I 30 tilfeller var den nye språkmodellen fra Google bedre enn konkurrenten. Dette demonstrerer modellens evne til å forstå språket fullt ut.

Les også: Human Brain Project: Et forsøk på å imitere den menneskelige hjernen

Finnes det forskjellige versjoner?

Google beskriver denne AI som en fleksibel modell som kan fungere på alle enheter: fra Googles datasentre til mobile enheter. For å oppnå denne skalerbarheten kommer Gemini i tre versjoner: Nano, Pro og Ultra.

La oss snakke om de forskjellige versjonene av Gemini mer detaljert.

Gemini dverg: designet for å fungere på smarttelefoner, spesielt Google Pixel 8. Den er designet for å utføre oppgaver som krever effektiv behandling av kunstig intelligens uten å koble til eksterne servere, for eksempel å foreslå svar i chatteprogrammer eller oppsummere tekst. Denne kompakte enhetsmodellen har omtrent 6 milliarder parametere.
GeminiPro: kjører i Googles datasentre. Pro er designet for å fungere med den nyeste versjonen av Bard AI chatbot. Den er i stand til å gi raske responstider og forstå komplekse spørsmål. En mellomstor modell har omtrent 100 milliarder parametere og er kjernen i Bards samtale-AI. Pro vil være tilgjengelig via Google Cloud.
Gemini Ultra: selv om Ultra-versjonen ennå ikke er allment tilgjengelig, beskriver Google den som dens best-ytende modell, og overgår "den nåværende state-of-the-art for 30 av 32 mye brukte akademiske tester brukt i forskning på store språkmodeller (LLM). " Som den største og kraftigste versjonen vil Ultra motta mer enn 1 billion parametere. Det vil bli plassert i datasentre. Ultra er tilpasset bedriftsbruk. Versjonen er designet for å utføre svært komplekse oppgaver. Google planlegger å gi den ut etter slutten av den nåværende testfasen. Det vil si at den kraftigste versjonen ennå ikke er tilgjengelig for brukerne.

Også interessant: Google Bard AI: Alt du trenger å vite

Hvordan få tilgang til Gemini?

AI i Nano- og Pro-versjoner er nå tilgjengelig i Google-produkter som henholdsvis Google Pixel 8-smarttelefonene og Bard-chatboten. Google planlegger etter hvert å integrere den i sin søkemotor, reklame, Gmail-e-posttjeneste, Chrome-nettleser og andre tjenester.

Utviklere og bedriftskunder vil kunne få tilgang til Pro gjennom Gemini API i Google AI Studio og Google Cloud Vertex AI fra og med 13. desember 2023. Utviklere Android vil ha tilgang til Nano-versjonsmodellen via AICore, som vil være tilgjengelig i en tidlig forhåndsvisning.

Les også: Samsung Galaxy Flip5 vs Motorola Razr 40 Ultra: Battle of the Two Yokozuns

Gemini hos Google Bard: Hva vil endre seg?

I henhold til informasjon gitt under presentasjonen, vil modellen tillate Google Bard å bedre håndtere mer komplekse problemer, som nevnt:

"Vi designet Gemini slik at modellen er naturlig multimodal og forhåndstrent på flere modaliteter fra starten. Deretter foredlet vi den ved å legge til flere multimodale data for å forbedre ytelsen. Som et resultat kan Gemini lett forstå og utlede mye bedre enn tidligere multimodale modeller, og kan skryte av toppmoderne evner på nesten alle områder.

Geminis ekstraordinære multimodale evner hjelper deg å forstå kompleks tekstlig og visuell informasjon. De er spesielt nyttige når det gjelder å trekke ut spesifikk informasjon fra enorme datasett. Den ekstraordinære evnen til denne modellen til å trekke ut essensen av informasjon fra hundretusenvis av dokumenter ved å lese, filtrere og analysere dem, vil utvilsomt bidra til nye, lynraske oppdagelser innen ulike felt fra vitenskap til finans."

Under presentasjonen ble et eksempel på en kompleks studie demonstrert, som inneholder mer enn 200 tusen poster, hvorav noen måtte oppdateres i henhold til nye data. Som du kanskje har gjettet, ville det å gjøre dette manuelt være svært tidkrevende, så studieforfatterne brukte Gemini til å utarbeide kode som tok innspillene og gjorde de nødvendige oppdateringene. Et annet, mer realistisk eksempel er å bruke Googles språkmodell for å forklare matematikk- eller fysikkproblemer.

Inndataene her var et bilde/skanning av en oppgave fra en skoletime. Systemet var i stand til å behandle grafikken og teksten som var lagret der og deretter indikere hvilke deler av leksene som ble gjort riktig og som trengte mer oppmerksomhet. Presentasjonen viste at en bruker gjentatte ganger kan be Gemini om å forklare en oppgave, og hvert påfølgende forsøk må forklares på et enklere språk. Hvor nøyaktig og korrekt Gemini blir, vil selvfølgelig bli sjekket av interesserte, men muligheten til å lese og behandle tekst direkte fra bilder er imponerende. Som lagt til under presentasjonen:

"Gemini har blitt lært opp til å gjenkjenne og forstå tekst, bilder, lyder og mer på samme tid. Takket være dette forstår han bedre nyansene til informasjon og kan svare på komplekse spørsmål. Den er spesielt effektiv til å forklare emner relatert til matematikk og fysikk, så den kan tjene som en personlig leksehjelper".

Gemini i Google Pixel-smarttelefoner

Google skrøt også av at Gemini «lærte» på de nye TPUv5-brikkesettene, og planlegger å introdusere Gemini Ultra tidlig i 2024, som vil bruke Bard Advanced, en ny versjon av forbrukerversjonen av gigantens talemodell. Gemini Ultra er for tiden i testing og er allerede tilgjengelig for utvalgte sikkerhetseksperter.

Den siste viktige informasjonen er introduksjonen av Gemini i smarttelefonene Google Pixel 8. Dette vil blant annet gjøre det mulig å lage raske svar gjennom Gboard-applikasjonen i messengers. Den første er WhatsApp, men neste år vil slike løsninger dukke opp i andre applikasjoner knyttet til kommunikasjon. Dette er imidlertid bare begynnelsen, ettersom Google har annonsert mange nye AI-verktøy for Pixel 8-smarttelefonene, og de vil være tilgjengelige på noen andre enheter i fremtiden. Android. Dette er imidlertid ytterligere planer og ingen detaljer er gitt på nåværende tidspunkt.

Hvordan er Gemini forskjellig fra andre AI-modeller, for eksempel GPT-4?

Googles nye Gemini-modell ser ut til å være en av de største og mest avanserte AI-modellene til dags dato, selv om utgivelsen av Ultra-modellen definitivt vil avgjøre det. Sammenlignet med andre populære modeller som for tiden bruker AI chatbots, skiller Gemini seg ut med sin egen multimodale funksjon, mens andre modeller som GPT-4 er avhengige av plugins og integrasjon for å være virkelig multimodale.

Bekymringer om nøyaktighet og upartiskhet

Selv om Gemini er et stort sprang fremover i utviklingen av kunstig intelligens, har den de samme manglene som andre store språkmodeller. Først av alt er dette muligheten for å lage falsk informasjon. Fordommer er også basert på opplæringsdataene som er tilgjengelige for den nye språkmodellen. Det er også verdt å nevne den begrensede forståelsen av den virkelige verden. Google innrømmer at den nye Gemini-modellen kan gjøre feil, gi fakta som ikke er basert på bevis og motsier sunn fornuft.

Flere tester er nødvendig, spesielt for Gemini Ultra, som har nye funksjoner som ennå ikke er fullt utforsket. Google er forpliktet til å nøye evaluere Gemini for å minimere potensiell skade.

Også interessant: Alt om Microsoft Copilot: fremtiden eller feil vei?

Fremtiden er med Gemini

Lanseringen av Gemini av Google innledet en ny æra av AI-utvikling. Med sin beste ytelse sammenlignet med tidligere modeller og menneskelige grunnlinjer, peker Gemini på fremtidens muligheter for kunstig intelligens, men trenger fortsatt mer forskning for å løse visse mangler.

I fremtiden kan du forvente at Gemini vil tilby mer nyttige og intelligente funksjoner i Google-produkter. Fremover planlegger selskapet å fortsette å utvide Gemini utover engelsk og bygge på sin kjernemodellmetodikk.

Vi kan bare se og håpe at Google vet hva det gjør.

Les også:

Del

Yuri Svitlyk

Sønn av Karpatene, ukjent geni innen matematikk, "advokat"Microsoft, praktisk altruist, venstre-høyre

Neste artikkel Acer kunngjorde Predator Extreme elektrisk scooter, nye spillskjermer og bærbare datamaskiner »

Forrige artikkel « Homeworld 3-utgivelsen utsatt til mai 2024

Legg igjen en kommentar

Tags: GooglevalgtKunstig intelligens