Jaunu AI pētniecības modeļu izlaišana, lai paātrinātu inovācijas

Īss ieskats:

Priekš vairāk nekā desmit gadus, Meta Fundamental AI Research (FAIR) komanda ir koncentrējusies uz AI jaunāko sasniegumu pilnveidošanu, izmantojot atklātu izpēti. Tā kā šajā jomā notiek strauji jauninājumi, mēs uzskatām, ka sadarbība ar globālo AI kopienu ir svarīgāka nekā jebkad agrāk.Šodien mēs ar prieku dalāmies ar dažiem no jaunākajiem FAIR pētniecības modeļiem ar globālo sabiedrību. Mēs publiski izlaižam piecus modeļus, tostarp attēla pārveidošanas un teksta pārveidošanas mūzika ģenerēšanas modeļi, vairāku marķieru prognozēšanas modelis un AI ģenerētas runas noteikšanas paņēmiens. Publiski daloties ar šo pētījumu, mēs ceram iedvesmot iterācijas un galu galā atbildīgā veidā veicināt AI.

Vairāk nekā desmit gadus, Meta Fundamental AI Research (FAIR) komanda ir koncentrējusies uz AI jaunāko sasniegumu pilnveidošanu, izmantojot atklātu izpēti. Tā kā šajā jomā notiek strauji jauninājumi, mēs uzskatām, ka sadarbība ar globālo AI kopienu ir svarīgāka nekā jebkad agrāk.

Šodien mēs ar prieku dalāmies ar dažiem no jaunākajiem FAIR pētniecības modeļiem ar globālo sabiedrību. Mēs publiski izlaižam piecus modeļus, tostarp attēla pārveidošanas un teksta pārveidošanas mūzika ģenerēšanas modeļi, vairāku marķieru prognozēšanas modelis un AI ģenerētas runas noteikšanas paņēmiens. Publiski daloties ar šo pētījumu, mēs ceram iedvesmot iterācijas un galu galā atbildīgā veidā veicināt AI.

Meta Chameleon var apstrādāt un ģenerēt gan tekstu, gan attēlus

Mēs publiski izlaižam mūsu Chameleon modeļu galvenās sastāvdaļas saskaņā ar licenci tikai pētniecībai. Hameleons ir jauktu modālu modeļu saime, kas var saprast un ģenerēt gan attēlus, gan tekstu. Tāpat kā cilvēki var vienlaikus apstrādāt vārdus un attēlus, hameleons var apstrādāt un piegādāt gan attēlu, gan tekstu vienlaikus. Lai gan lielākajai daļai lielo valodu modeļu parasti ir unimodāli rezultāti (piemēram, tie pārvērš tekstus attēlos), Hameleons var izmantot jebkuru teksta un attēlu kombināciju kā ievadi, kā arī izvadīt jebkuru teksta un attēlu kombināciju. Un iespējas ar Chameleon ir bezgalīgas: iedomājieties, ka ģenerējat radošus parakstus attēliem vai izmantojot teksta uzvedņu un attēlu kombināciju, lai izveidotu pilnīgi jaunu ainu.

Vairāku marķieru prognozēšana palīdz apmācīt AI modeļus ātrāk paredzēt vārdus

Lielie valodas modeļi (LLM), kas ir apmācīti par lielu teksta apjomu, jau palīdz cilvēkiem ģenerēt radošu tekstu, izdomāt idejas un atbildēt uz jautājumiem. LLM ir vienkāršs apmācības mērķis: paredzēt nākamo vārdu. Lai gan šī pieeja ir vienkārša un mērogojama, tā ir arī neefektīva. Tam ir nepieciešams par vairākām kārtām vairāk teksta nekā tas, kas bērniem nepieciešams, lai apgūtu tādu pašu valodas prasmes pakāpi.

Aprīlī mēs ierosinājām jaunu pieeju, lai izveidotu labākus un ātrākus LLM, izmantojot vairāku marķieru prognoze. Izmantojot šo pieeju, mēs apmācām valodas modeļus, lai prognozētu vairākus nākotnes vārdus vienlaikus — agrākās pieejas “viens pie reizes” vietā. Atbildīgas atvērtās zinātnes garā mēs izlaižam iepriekš apmācītus modeļus koda pabeigšanai saskaņā ar nekomerciālu, tikai pētniecībai paredzētu licenci.

JASCO piedāvā lielāku kontroli pār AI mūzikas ģenerēšanu

Ģeneratīvais AI ir ļāvis cilvēkiem izpētīt savu radošumu jaunos veidos, piemēram, pārvēršot teksta uzvedni mūzikas klipā. Lai gan esošie teksta pārvēršanas mūzikā modeļi, piemēram, MusicGen, galvenokārt balstās uz teksta ievadi mūzikas ģenerēšanai, mūsu jaunais modelis JASCO spēj dažādu ievades veidu, piemēram, akordu vai sitienu, pieņemšana, lai uzlabotu ģenerētās mūzikas izvades kontroli.

Tas ļauj iekļaut gan simbolus, gan audio vienā teksta pārveides mūzikā ģenerēšanas modelī.

Rezultāti liecina, ka JASCO ir salīdzināms ar novērtētajām bāzes līnijām, ņemot vērā paaudzes kvalitāti, vienlaikus ļaujot ievērojami labāk un daudzpusīgāk kontrolēt ģenerēto mūziku.

AudioSeal palīdz noteikt AI ģenerētu runu

Mēs arī izlaižam AudioSeal, kas, mūsuprāt, ir pirmā audio ūdenszīmju veidošanas tehnika, kas īpaši izstrādāta AI ģenerētas runas lokalizācijai. AudioSeal ļauj precīzi noteikt AI ģenerētus segmentus garākā audio fragmentā.

Atšķirībā no tradicionālajām metodēm, kas balstās uz sarežģītiem dekodēšanas algoritmiem, AudioSeal lokalizētā noteikšanas pieeja nodrošina ātrāku un efektīvāku noteikšanu. Šis dizains uzlabo noteikšanas ātrumu līdz pat 485 reizēm salīdzinājumā ar iepriekšējām metodēm, padarot to piemērotu liela mēroga un reāllaika lietojumprogrammām.

AudioSeal tiek izlaists saskaņā ar komerciālu licenci. Tas ir tikai viens no vairākiem atbildīgiem pētījumiem, ar kuriem esam kopīgojuši, lai palīdzētu novērst ģeneratīvo AI rīku ļaunprātīgu izmantošanu.

Teksta pārveidošanas attēlu ģenerēšanas sistēmu daudzveidības palielināšana

Ir svarīgi, lai teksta pārveides modeļi labi darbotos ikvienam un atspoguļotu pasaules ģeogrāfisko un kultūras daudzveidību. Lai to panāktu, mēs izstrādājām automātiskie indikatori novērtēt iespējamās ģeogrāfiskās atšķirības teksta-attēla modeļos.

Turklāt, lai saprastu, kā cilvēki dažādos reģionos atšķiras uztverē par ģeogrāfisko attēlojumu, mēs veicām liela mēroga anotācijas pētījumu. Mēs savācām vairāk nekā 65 000 anotāciju un vairāk nekā divdesmit aptaujas atbildes par katru piemēru, kas aptver apelāciju, līdzību, konsekvenci un kopīgošanu. ieteikumus uzlabotai teksta-attēla modeļu automātiskai un cilvēka novērtēšanai. Tas nodrošina lielāku dažādību un labāku attēlojumu AI ģenerētos attēlos.

Šodien mēs izlaižam ģeogrāfisko atšķirību novērtējuma kodu un mūsu anotācijas, kas, cerams, palīdzēs kopienai uzlabot dažādību savos ģeneratīvajos modeļos.

Ziņas avots