Naujausi AI architektūrų pasiekimai: transformeriai, „Mamba“, I-JEPA

Kategorijos AI/ML Pažymėta ,
Save and Share:

Sparčiai besivystančiame dirbtinio intelekto (DI) pasaulyje siekis sukurti galingesnes ir universalesnes architektūras buvo varomoji jėga, paskatinusi vienus įspūdingiausių proveržių pastaraisiais metais. Nuo novatoriškų transformerių modelių, kurie pakeitė natūralios kalbos apdorojimo sritį, iki inovatyvių jungtinio įterpimo prognozuojančių architektūrų (JEPAs), kurios plečia savarankiško mokymosi ribas, dirbtinio intelekto sritis nuolat keičiasi, atverdama naujas galimybes ir iššūkius.

Šiame straipsnyje mes giliai pasinersime į pažangiausių DI architektūrų pasaulį, tyrinėdami pagrindines transformerių, JEPAs ir kitų pažangiausių modelių savybes, pranašumus ir pritaikymo galimybes. Nesvarbu, ar esate patyręs DI entuziastas, ar tik pradedate tyrinėti šią žavią sritį, šis straipsnis suteiks jums išsamią ir suprantamą naujausių pasiekimų apžvalgą, padėsiančią jums orientuotis nuolat besikeičiančiame dirbtinio intelekto kraštovaizdyje.

Transformerių architektūrų iškilimas

Transformerių architektūra, pirmą kartą pristatyta novatoriškame Vaswani ir kt. straipsnyje „Dėmesys yra viskas, ko jums reikia“ 2017 m., greitai tapo vienu įtakingiausių ir plačiausiai taikomų modelių natūralios kalbos apdorojimo (NLP) srityje. Skirtingai nuo tradicinių rekurentinių neuroninių tinklų (RNN) ir konvoliucinių neuroninių tinklų (CNN), transformeriai naudoja unikalų mechanizmą, vadinamą „dėmesiu“, kad užfiksuotų tolimojo nuotolio priklausomybes ir kontekstinę informaciją įvesties duomenyse.

Transformerių architektūros pagrindą sudaro du pagrindiniai komponentai: kodavimo ir dekodavimo dalys. Kodavimo dalis paima įvesties seką ir generuoja kontekstinių vaizdavimų rinkinį, o dekodavimo dalis naudoja šiuos vaizdavimus, kad žingsnis po žingsnio generuotų išvesties seką. Dėmesio mechanizmas vaidina lemiamą vaidmenį šiame procese, leisdamas modeliui sutelkti dėmesį į svarbiausias įvesties dalis generuojant kiekvieną išvesties ženklą.

Transformerių galia slypi jų gebėjime tvarkyti tolimojo nuotolio priklausomybes, jų paralelinėje prigimtyje ir mastelio keitime didesniems ir sudėtingesniems duomenų rinkiniams. Šios savybės transformeriais pavertė populiariausiu pasirinkimu įvairiems NLP uždaviniams spręsti – nuo mašininio vertimo ir teksto santraukų kūrimo iki kalbos modeliavimo ir klausimų atsakymo.

Jungtinio įterpimo prognozuojančių architektūrų (JEPAs) tyrinėjimas

Nors transformeriai dominuoja NLP srityje, atsirado nauja architektūrų klasė, kuri pasirengusi iš esmės pakeisti savarankiško mokymosi iš vaizdų sritį: jungtinio įterpimo prognozuojančios architektūros (JEPAs).

Pagrindinė JEPAs idėja yra išmokti vaizdavimus, kurie gali prognozuoti vienas kitą, kai pateikiama papildoma informacija, o ne siekti invariantumo duomenų papildymams, kaip tradiciniai savarankiško mokymosi metodai. Šis požiūris skatina modelį fiksuoti prasmingas ir aukšto lygio savybes, o ne sutelkti dėmesį į nereikšmingas pikselių lygio detales.

Vienas iš ryškiausių JEPAs pavyzdžių yra vaizdais pagrįsta jungtinio įterpimo prognozuojanti architektūra (I-JEPA), kurią pristatė „Meta AI“ tyrėjai. I-JEPA veikia paimdama vieną „konteksto“ bloką iš vaizdo ir naudodama jį įvairių „taikinių“ blokų vaizdavimams tame pačiame vaizde prognozuoti. Šis negeneratyvus požiūris leidžia modeliui išmokti semantinio lygio vaizdavimus nepasikliaujant rankomis sukurtais duomenų papildymais.

Pagrindiniai I-JEPA dizaino pasirinkimai, tokie kaip maskavimo strategija ir erdviškai paskirstyto konteksto bloko naudojimas, yra labai svarbūs nukreipiant modelį link prasmingų ir aukšto lygio vaizdavimų generavimo. Empiriškai įrodyta, kad I-JEPA yra labai keičiama, gebanti apmokyti didelius vaizdo transformerių (ViT) modelius „ImageNet“ duomenų rinkinyje per mažiau nei 72 valandas, tuo pačiu pasiekiant aukštą galutinį našumą įvairiose užduotyse.

Kokie yra pagrindiniai JEPA architektūros pranašumai, palyginti su tradiciniais generatyviniais modeliais?

Pagrindiniai jungtinio įterpimo prognozuojančių architektūrų (JEPAs) pranašumai, palyginti su tradiciniais generatyviniais modeliais, yra šie:

Semantiniams vaizdavimams teikiama pirmenybė prieš pikselių lygio detales

Skirtingai nei generatyviniai modeliai, kurie orientuojasi į įvesties duomenų atkūrimą pikselių erdvėje, JEPAs mokosi vaizdavimų, kurie prognozuoja vienas kitą abstrakčioje įterpimo erdvėje. Tai leidžia modeliui teikti pirmenybę prasmingų, aukšto lygio semantinių savybių fiksavimui, o ne nereikšmingoms pikselių lygio detalėms.

Vaizdavimo kolapso vengimas

Generatyviniai modeliai kartais gali patirti vaizdavimo kolapsą, kai modelis nesugeba išmokti įvairių ir informatyvių vaizdavimų. JEPAs sprendžia šią problemą naudodama asimetrinį skirtingų kodavimo dalių dizainą, kuris skatina mokytis vaizdavimų, kurie gali prognozuoti vienas kitą, kai pateikiama papildoma informacija.

Mastelio keitimas ir efektyvumas

JEPAs, tokios kaip vaizdais pagrįsta jungtinio įterpimo prognozuojanti architektūra (I-JEPA), gali būti labai keičiamos ir efektyvios. Pavyzdžiui, įrodyta, kad I-JEPA apmoko didelius vaizdo transformerių (ViT) modelius „ImageNet“ duomenų rinkinyje per mažiau nei 72 valandas, tuo pačiu pasiekdama aukštą galutinį našumą.

Universalumas galutinėse užduotyse

JEPAs parodė didelį našumą ne tik aukšto lygio užduotims, tokioms kaip vaizdų klasifikavimas, bet ir žemo lygio bei tankioms prognozavimo užduotims, tokioms kaip objektų skaičiavimas ir gylio prognozavimas. Šis universalumas rodo, kad išmokti vaizdavimai gali efektyviai fiksuoti tiek semantines, tiek vietines savybes.

Pagrindiniai JEPAs pranašumai, palyginti su tradiciniais generatyviniais modeliais, yra jų gebėjimas teikti pirmenybę semantiniams vaizdavimams, išvengti vaizdavimo kolapso, pasiekti mastelio keitimą ir efektyvumą bei demonstruoti universalumą įvairiose galutinėse užduotyse. Dėl šių savybių JEPAs yra daug žadantis požiūris į savarankiško mokymosi pažangą ir pajėgesnių bei pritaikomesnių DI sistemų kūrimą.

Kaip transformerių architektūra tvarko multimodaliuosius duomenis, palyginti su JEPA architektūra?

Štai palyginimas, kaip transformerių architektūra ir jungtinio įterpimo prognozuojanti architektūra (JEPA) tvarko multimodaliuosius duomenis:

Transformerių architektūra multimodaliems duomenims

  • Transformeriai iš pradžių buvo sukurti natūralios kalbos apdorojimo užduotims, tačiau jie buvo išplėsti, kad galėtų tvarkyti ir multimodaliuosius duomenis.
  • Multimodalūs transformerių modeliai paprastai koduoja skirtingus modalumus (pvz., tekstą, vaizdus, garsą) atskirai naudodami modalumui būdingas kodavimo dalis, o tada sujungia užkoduotus vaizdavimus naudodami sujungimo mechanizmus, tokius kaip sujungimas ar dėmesys.
  • Tai leidžia transformerių modeliams efektyviai užfiksuoti skirtingų modalumų sąveikas ir ryšius.
  • Multimodalių transformerių modelių pavyzdžiai yra VilBERT, VisualBERT ir UNITER, kurie buvo pritaikyti tokioms užduotims kaip vaizdų klausimų atsakymas ir vaizdo-teksto paieška.

JEPA architektūra multimodaliems duomenims

  • JEPA (jungtinio įterpimo prognozuojanti architektūra) požiūris, kurio pavyzdys yra vaizdais pagrįstas JEPA (I-JEPA) modelis, yra orientuotas į vaizdavimų mokymąsi iš vieno modalumo (šiuo atveju – vaizdų).
  • I-JEPA mokosi šių vaizdavimų prognozuodama įvairių „taikinių“ vaizdo blokų vaizdavimus iš vieno „konteksto“ bloko, nepasikliaudama rankomis sukurtais duomenų papildymais.
  • Nors I-JEPA dar nebuvo aiškiai išplėsta multimodaliems duomenims tvarkyti, pagrindinė JEPA prognozuojančių vaizdavimų mokymosi koncepcija potencialiai galėtų būti pritaikyta kitiems modalumams, tokiems kaip tekstas ar garsas.
  • Būsimas darbas galėtų būti skirtas JEPA išplėtimui mokytis bendrų vaizdavimų tarp kelių modalumų, panašiai kaip veikia transformeriais pagrįsti multimodaliūs modeliai.

Transformerių architektūra yra labiau sukurta multimodaliems duomenims tvarkyti, koduojant kiekvieną modalumą atskirai ir tada sujungianti vaizdavimus, o JEPA požiūris iki šiol buvo orientuotas į vaizdavimų mokymąsi iš vieno modalumo. Tačiau prognozuojanti JEPA prigimtis galėtų padaryti ją daug žadančia kandidate kuriant multimodalines architektūras ateityje.

„Mamba“ architektūra: hibridinis požiūris

Nors transformeriai ir JEPAs padarė didelę pažangą savo atitinkamose srityse, vis labiau domimasi hibridinėmis architektūromis, kurios sujungia kelių požiūrių stipriąsias puses. Vienas iš tokių pavyzdžių yra „Mamba“ architektūra, kurios tikslas – pasinaudoti geriausiomis abiejų pusių savybėmis.

„Mamba“, pavadinta vikrios ir prisitaikančios gyvatės vardu, yra hibridinė architektūra, kuri integruoja transformerių dėmesiu pagrįstus mechanizmus su JEPAs jungtinio įterpimo prognozuojančiomis galimybėmis. Sujungdama šias dvi galingas paradigmas, „Mamba“ siekia sukurti universalesnį ir patikimesnį modelį, kuris galėtų puikiai veikti įvairiose užduotyse – nuo natūralios kalbos apdorojimo iki kompiuterinės vizijos ir dar daugiau.

„Mamba“ architektūra sukurta taip, kad būtų labai modulinė, leidžianti sklandžiai integruoti skirtingus komponentus ir lengvai pritaikyti įvairiems duomenų modalumams ir problemų sritims. Dėl šio lankstumo „Mamba“ yra daug žadanti kandidatė kuriant tikrus „generalistinius“ DI modelius, gebančius spręsti įvairias užduotis ir iššūkius.

Pažangiausios multimodalių DI architektūrų technologijos

Dirbtinio intelekto sričiai toliau vystantis, poreikis modeliams, kurie galėtų efektyviai tvarkyti ir integruoti kelis duomenų modalumus, tokius kaip tekstas, vaizdai, garsas ir vaizdo įrašai, tampa vis akivaizdesnis. Tai paskatino atsirasti multimodalines DI architektūras, kurių tikslas – pasinaudoti papildoma informacija iš skirtingų duomenų šaltinių, siekiant pagerinti bendrą sistemos našumą ir galimybes.

Vienas iš pagrindinių iššūkių kuriant multimodalines DI architektūras yra efektyvus įvairių duomenų modalumų sujungimas ir vaizdavimas. Tyrėjai ištyrė įvairius požiūrius – nuo paprasto unimodalių savybių sujungimo iki sudėtingesnių metodų, tokių kaip dėmesiu pagrįstas sujungimas ir kryžminis modalinis sąveika.

Žymūs pažangiausių multimodalių DI architektūrų pavyzdžiai yra tinkleliu pagrįstas atminties transformatorius vaizdų antraštėms (M2 Transformer), kuris sujungia transformerių galią su nauju atmintimi pagrįstu mechanizmu, siekiant pagerinti ir vaizdų kodavimą, ir kalbos generavimą. Kitas pavyzdys yra „Meta AI“ modelis „ImageBind“, kuriuo siekiama sukurti vieningą įterpimo erdvę, galinčią susieti įvairius vaizdinius ir tekstinius modalumus.

Multimodalaus DI sričiai toliau tobulėjant, galime tikėtis dar daugiau novatoriškų ir universalių architektūrų, kurios galės sklandžiai integruoti ir apdoroti įvairius duomenų šaltinius, nutiesdamos kelią kuriant tikrai generalistines DI sistemas.

Apibendrinimas

Dirbtinio intelekto pasaulis nuolat kinta, sparčiai atsiranda naujų ir įdomių architektūrų. Nuo novatoriškų transformerių modelių, kurie pakeitė natūralios kalbos apdorojimo sritį, iki inovatyvių jungtinio įterpimo prognozuojančių architektūrų, kurios plečia savarankiško mokymosi ribas, dirbtinio intelekto kraštovaizdis nuolat vystosi, atverdamas naujas galimybes ir iššūkius.

Šiame straipsnyje mes išnagrinėjome pagrindines šių pažangiausių architektūrų savybes, pranašumus ir pritaikymo galimybes, taip pat besiformuojančias multimodalaus DI tendencijas. Toliau stumiant ribas to, kas įmanoma dirbtinio intelekto srityje, akivaizdu, kad ateitis atneš dar nuostabesnių pasiekimų, pakeisiančių mūsų bendravimą su pasauliu ir jo supratimą.

Nesvarbu, ar esate patyręs DI entuziastas, ar tik pradedate tyrinėti šią žavią sritį, šis straipsnis suteikė jums išsamią ir suprantamą naujausių pasiekimų apžvalgą, aprūpindamas jus žiniomis ir įžvalgomis, reikalingomis orientuotis nuolat besikeičiančiame dirbtinio intelekto kraštovaizdyje.

Įrašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *