Root NationNyheterIT-nyheterIBM opprettet Project CodeNet-datasettet: 14 millioner kodeeksempler vil lære AI å programmere

IBM opprettet Project CodeNet-datasettet: 14 millioner kodeeksempler vil lære AI å programmere

-

Enhet IBM of Artificial Intelligence (AI) forskning presenterte et datasett med 14 millioner prøver for å utvikle maskinlæringsmodeller som kan hjelpe til med programmeringsoppgaver. Et datasett som heter Prosjekt CodeNet, tar navnet sitt fra ImageNet, det berømte bildelageret som revolusjonerte datasyn og dyp læring.

Programmerere oppdager nye problemer og utforsker forskjellige løsninger ved å bruke mange mekanismer for bevisst og underbevisst tenkning. De fleste maskinlæringsalgoritmer krever veldefinerte oppgaver og store mengder kommenterte data for å utvikle modeller som kan løse de samme problemene.

IBM Project CodeNet
Project CodeNet er et enormt datasett med ~ 14 millioner kodeeksempler spredt over dusinvis av programmeringsspråk.

Mye innsats har gått i å lage datasett og benchmarks for utvikling og evaluering av AI-for-code-systemer av ekspertmiljøet. Men gitt programvareutviklingens kreative og åpne natur, er det svært vanskelig å lage det perfekte datasettet for programmering. Med Project CodeNet forsøkte IBM-forskere å lage et flerbruksdatasett som kan brukes til å trene maskinlæringsmodeller på en rekke oppgaver. CodeNets skapere beskriver det som "et veldig storskala, mangfoldig og høykvalitets datasett for å akselerere algoritmiske fremskritt innen AI for kode."

Datasettet inneholder 14 millioner eksempler på 500 millioner linjer med kode skrevet på 55 forskjellige programmeringsspråk. Kodeprøver ble hentet fra nesten 4000 innsendte oppgaver lagt ut på AIZU og AtCoder online kodeplattformer. Kodeeksemplene inkluderer både riktige og feil svar på de gitte oppgavene.

Også interessant:

En av nøkkelfunksjonene til CodeNet er mengden merknader lagt til eksempler. Hver av kodeoppgavene som er inkludert i datasettet har en tekstlig beskrivelse, samt CPU-tid og minnegrenser. Hver kodeinnsending inneholder et dusin opplysninger, inkludert språk, dato for innsending, størrelse, utførelsestid, aksept og feiltyper. IBM-forskere gikk også langt for å sikre at datasettet var balansert på tvers av en rekke parametere, inkludert programmeringsspråk, akseptabilitet og feiltyper.

IBM Project CodeNet

CodeNet er ikke det eneste datasettet for opplæring av maskinlæringsmodeller på programmeringsoppgaver. Men det er flere egenskaper som skiller det. Den første er selve størrelsen på datasettet, inkludert antall prøver og mangfoldet av språk. Men kanskje viktigere er metadataene som følger med kodeeksemplene. De rike merknadene lagt til CodeNet gjør det egnet for et mangfoldig sett med oppgaver, i motsetning til andre kodedatasett som spesialiserer seg på spesifikke programmeringsoppgaver.

Det er flere måter å bruke CodeNet på. En av dem er språkoversettelse. Fordi hver kodeoppgave i datasettet inneholder representasjoner av forskjellige programmeringsspråk, kan dataforskere bruke den til å bygge maskinlæringsmodeller som oversetter kode fra ett språk til et annet. Dette kan være praktisk for organisasjoner som ønsker å portere gammel kode til nye språk og gjøre dem tilgjengelige for nye generasjoner av programmerere.

Les også:

Melde deg på
Gi beskjed om
gjest

2 Kommentar
Nyere
De eldre Den mest populære
Innebygde anmeldelser
Se alle kommentarer
Victor
Victor
2 år siden

Tradisjoner og arv bør spille sammen med ulik tenkning, med de yngste generasjonene av nevrale algoritmer og ML-metoder for å skape problemer, gjensidig forbedre hverandre

Aasd
Aasd
2 år siden

Over tid vil nivået på programmerere synke enda mer (sammenlignet med nå). Det vil si at det vil være mulig å skrive skrå, skjev kode på «drittspråket». Og så vil maskinen optimalisere, og du vil etter hvert kunne få den optimaliserte koden til en profesjonell assembler-programmerer (eller enda bedre).