4 AI-onderzoekstrends waar iedereen het over heeft (of zal hebben)

We zijn verheugd om Transform 2022 persoonlijk terug te brengen op 19 juli en vrijwel 20 – 28 juli. Sluit je aan bij AI- en dataleiders voor inzichtelijke gesprekken en spannende netwerkmogelijkheden. Registreer vandaag!


Het gebruik van AI in de echte wereld blijft in veel opzichten een uitdaging. Organisaties hebben moeite om talent aan te trekken en te behouden, AI-modellen te bouwen en in te zetten, verantwoorde AI-praktijken te definiëren en toe te passen, en inzicht te krijgen in en zich voor te bereiden op de naleving van regelgeving.

Tegelijkertijd gaan de DeepMinds, Googles en Meta’s van de wereld door met hun AI-onderzoek. Hun talentenpool, ervaring en processen rond het snel en op grote schaal operationaliseren van AI-onderzoek plaatsen hen op een ander niveau dan de rest van de wereld, waardoor de facto een AI-kloof ontstaat.

Dit zijn 4 AI-onderzoekstrends waar de techreuzen de leiding over hebben, maar waar iedereen in de nabije toekomst over zal praten en ze zal gebruiken.

Opkomende mogelijkheden van grote taalmodellen in AI-onderzoek

Een van de belangrijkste discussiepunten over de weg vooruit in AI is of opschalen kan leiden tot wezenlijk andere kwaliteiten in modellen. Recent werk van een groep onderzoekers van Google Research, Stanford University, UNC Chapel Hill en DeepMind zegt van wel.

Hun onderzoek bespreekt wat zij opkomende vaardigheden van grote taalmodellen (LLM’s) noemen. Een vermogen wordt als emergent beschouwd als het niet aanwezig is in kleinere modellen, maar wel in grotere modellen. De stelling is dat het bestaan ​​van een dergelijke opkomst impliceert dat extra schaling het scala aan mogelijkheden van taalmodellen verder zou kunnen uitbreiden.

Het werk evalueert opkomende mogelijkheden in Google’s LaMDA en PaLM, OpenAI’s GPT-3 en DeepMind’s Gopher en Chinchilla. In termen van de “grote” in LLM’s, wordt opgemerkt dat de huidige taalmodellen voornamelijk zijn geschaald volgens drie factoren: de hoeveelheid berekening (in FLOP’s), het aantal modelparameters en de grootte van de trainingsdataset.

Hoewel het onderzoek zich richt op rekenkracht, zijn er enkele kanttekeningen. Het kan dus verstandig zijn om opkomst te zien als een functie van veel gecorreleerde variabelen, merken de onderzoekers op.

Om de opkomende capaciteiten van LLM’s te evalueren, hebben de onderzoekers gebruik gemaakt van het prompting-paradigma, waarin een vooraf getraind taalmodel een taakprompt krijgt (bijvoorbeeld een natuurlijke taalinstructie) en het antwoord voltooit zonder verdere training of gradiëntupdates van de parameters .

LLM’s werden geëvalueerd met behulp van standaardbenchmarks voor zowel eenvoudige, zogenaamde ‘weinig-shot-prompttaken’ als voor augmented prompting-strategieën. Taken met een aantal opdrachten omvatten zaken als optellen en aftrekken, en taalbegrip in domeinen zoals wiskunde, geschiedenis, rechten en meer. Augmented prompts omvat taken zoals redeneren in meerdere stappen en het volgen van instructies.

De onderzoekers ontdekten dat een reeks vaardigheden alleen is waargenomen als ze worden geëvalueerd op een voldoende groot taalmodel. Hun opkomst kan niet worden voorspeld door simpelweg de prestaties te extrapoleren op kleinere schaalmodellen. De algemene implicatie is dat verdere schaalvergroting waarschijnlijk nog grotere taalmodellen zal voorzien van nieuwe opkomende mogelijkheden. Er zijn veel taken in benchmarks waarvoor zelfs de grootste LaMDA- en GPT-3-modellen geen boven-willekeurige prestaties behalen.

Wat betreft de reden waarom deze opkomende vermogens zich manifesteren, zijn enkele mogelijke verklaringen die worden aangeboden, taken die een bepaald aantal stappen omvatten, mogelijk ook een model met een gelijke diepte vereisen, en dat het redelijk is om aan te nemen dat meer parameters en meer training een betere memorisatie mogelijk maken die zou kunnen nuttig zijn voor taken die wereldkennis vereisen.

Naarmate de wetenschap van het trainen van LLM’s vordert, merken de onderzoekers op, kunnen bepaalde vaardigheden worden ontgrendeld voor kleinere modellen met nieuwe architecturen, gegevens van hogere kwaliteit of verbeterde trainingsprocedures. Dat betekent dat zowel de mogelijkheden die in dit onderzoek zijn onderzocht, als andere, uiteindelijk ook beschikbaar kunnen zijn voor gebruikers van andere AI-modellen.

Chain-of-thought-aansporing roept redenering op in LLM’s

Een ander opkomend vermogen dat aandacht krijgt in recent gepubliceerd werk van onderzoekers van het Google Research Brain Team, is het uitvoeren van complexe redeneringen.

De hypothese is eenvoudig: wat als gebruikers, in plaats van beknopt te zijn bij het aansporen van LLM’s, het model een paar voorbeelden zouden laten zien van een redeneerproces met meerdere stappen, vergelijkbaar met wat een mens zou gebruiken?

Een gedachteketen is een reeks tussenliggende redeneerstappen in natuurlijke taal die leiden tot de uiteindelijke output, geïnspireerd door hoe mensen een weloverwogen denkproces gebruiken om gecompliceerde taken uit te voeren.

Dit werk wordt gemotiveerd door twee kernideeën: Ten eerste verbetert het genereren van tussenresultaten de nauwkeurigheid aanzienlijk voor het betrekken van meerdere rekenstappen. Ten tweede kunnen LLM’s worden “aangespoord” met een paar voorbeelden die een taak demonstreren om te “leren” deze uit te voeren. De onderzoekers merken op dat het stimuleren van gedachteketens verschillende aantrekkelijke eigenschappen heeft als een benadering om redeneren in LLM’s te vergemakkelijken.

Ten eerste betekent het toestaan ​​van modellen om meerstapsproblemen op te splitsen in tussenstappen, dat extra berekeningen kunnen worden toegewezen aan problemen die meer redeneerstappen vereisen. Ten tweede draagt ​​dit proces bij aan de verklaarbaarheid. Ten derde kan het (in principe) worden toegepast op elke taak die mensen via taal kunnen oplossen. En ten vierde kan het relatief eenvoudig worden uitgelokt in voldoende grote standaard taalmodellen.

Het onderzoek evalueert Google’s LaMDA en PaLM, en OpenAI’s GPT-3. Deze LLM’s worden geëvalueerd op basis van hun vermogen om taken op te lossen die zijn opgenomen in benchmarks voor wiskundige woorden, gezond verstand en symbolisch redeneren.

Om een ​​idee te krijgen van hoe de onderzoekers het benaderden om LLM’s voor de taken te vragen, kun je de volgende probleemstelling beschouwen: “Roger heeft 5 tennisballen. Hij koopt nog 2 blikken tennisballen. Elk blik heeft 3 tennisballen. Hoeveel tennisballen heeft hij nu?”

De “standaard” benadering van ‘weinig-shot’-aangespoord leren zou zijn om de LLM rechtstreeks het antwoord te geven, dat wil zeggen: ‘Het antwoord is 11’. Chain-of-thought prompting vertaalt zich in het uitbreiden van het antwoord als volgt: “Roger begon met 5 ballen. 2 blikken van 3 tennisballen elk is 6 tennisballen. 5 + 6 = 11. Het antwoord is 11.”

Het blijkt dat hoe complexer de taak van belang is (in de zin van het vereisen van een meerstapsbenadering), hoe groter de boost van de gedachteketen. Het lijkt er ook op dat hoe groter het model, hoe groter de winst. De methode bleek ook altijd beter te presteren dan standaardprompts in het licht van verschillende annotators, verschillende promptstijlen, enz.

Dit lijkt erop te wijzen dat de gedachteketenbenadering ook nuttig kan zijn om LLM’s op maat te trainen voor andere taken waarvoor ze niet expliciet zijn ontworpen. Dat kan erg handig zijn voor downstream-toepassingen die gebruikmaken van LLM’s.

Een pad naar autonome machine-intelligentie

Meta AI hoofdwetenschapper Yann LeCun is een van de drie mensen (naast Google’s Geoffrey Hinton en MILA’s Yoshua Bengio) die de Turing Award ontvingen voor hun baanbrekende werk in deep learning. Hij is zich bewust van zowel de vooruitgang als de controverse rond AI en heeft zijn gedachten gedocumenteerd over een agenda om het domein vooruit te helpen.

LeCun gelooft dat het bereiken van “Human Level AI” een nuttig doel kan zijn, en dat de onderzoeksgemeenschap maakt sommige hierin vorderingen maken. Hij gelooft ook dat opschaling helpt, al is het niet voldoende omdat we nog een aantal fundamentele concepten missen.

We hebben bijvoorbeeld nog steeds geen leerparadigma waarmee machines kunnen leren hoe de wereld werkt zoals mensen en veel niet-menselijke baby’s, merkt LeCun op. Hij haalt ook verschillende andere noodzakelijke concepten aan: voorspellen hoe iemand de wereld kan beïnvloeden door acties te ondernemen, evenals hiërarchische representaties leren die langetermijnvoorspellingen mogelijk maken, terwijl hij zich bezighoudt met het feit dat de wereld niet volledig voorspelbaar is. Ze moeten ook in staat zijn om de effecten van opeenvolgingen van acties te voorspellen om te kunnen redeneren en plannen, en een complexe taak op te splitsen in subtaken.

Hoewel LeCun voelt dat hij een aantal obstakels heeft geïdentificeerd die moeten worden opgelost, merkt hij ook op dat we niet weten hoe. De oplossing ligt dus niet om de hoek. Onlangs deelde LeCun zijn visie in een position paper getiteld “A Path Towards Autonomous Machine Intelligence”.

Naast schalen deelt LeCun zijn kijk op onderwerpen als versterkend leren (“beloning is niet genoeg”) en redeneren en plannen (“het komt neer op gevolgtrekking, expliciete mechanismen voor symboolmanipulatie zijn waarschijnlijk niet nodig”).

LeCun presenteert ook een conceptuele architectuur, met componenten voor functies als perceptie, kortetermijngeheugen en een wereldmodel dat ongeveer overeenkomt met het gangbare model van het menselijk brein. Ondertussen is Gadi Singer, VP en directeur van opkomende AI bij Intel Labs, van mening dat het afgelopen decennium fenomenaal is geweest voor AI, voornamelijk vanwege diepgaand leren, maar er is een volgende golf in opkomst. Singer denkt dat deze combinatie tot stand zal komen via een component: neurale netwerken, symbolische representatie en symbolisch redeneren, en diepgaande kennis, in een architectuur die hij Thrill-K noemt.

Daarnaast is Frank van Harmelen hoofdonderzoeker van het Hybrid Intelligence Center, een 22,7 miljoen dollar (€20 miljoen), 10-jarige samenwerking tussen onderzoekers van zes Nederlandse universiteiten die onderzoek doen naar AI die samenwerkt met mensen in plaats van ze te vervangen. Hij denkt dat de combinatie van machine learning met symbolische AI ​​in de vorm van zeer grote kennisgrafieken ons een weg vooruit kan bieden, en heeft werk gepubliceerd over “Modulaire ontwerppatronen voor hybride leer- en redeneersystemen.”

Dat klinkt allemaal visionair, maar hoe zit het met de impact op duurzaamheid? Zoals onderzoekers van Google en UC Berkeley opmerken, is machine learning-workloads snel belangrijker geworden, maar hebben ze ook zorgen geuit over hun ecologische voetafdruk.

In een recent gepubliceerd werk delen Google-onderzoekers best practices die volgens hen de energie voor machine learning-training tot 100x en de CO2-uitstoot tot 1000x kunnen verminderen:

  • Aanbieders van datacenters moeten de PUE, %CFE en CO2e/MWh per locatie publiceren, zodat klanten die om hen geven hun energieverbruik en ecologische voetafdruk kunnen begrijpen en verminderen.
  • ML-beoefenaars moeten trainen met de meest effectieve processors in het groenste datacenter waar ze toegang toe hebben, dat tegenwoordig vaak in de cloud staat.
  • ML-onderzoekers moeten doorgaan met het ontwikkelen van efficiëntere ML-modellen, bijvoorbeeld door gebruik te maken van schaarste of door retrieval te integreren in een kleiner model.
  • Ze moeten ook hun energieverbruik en CO2-voetafdruk publiceren, zowel om de concurrentie op meer dan alleen de kwaliteit van modellen te bevorderen, als om een ​​nauwkeurige boekhouding van hun werk te garanderen, wat moeilijk is om nauwkeurig post hoc te doen.

Door deze best practices te volgen, beweert het onderzoek dat het totale energieverbruik van machine learning (in onderzoek, ontwikkeling en productie) de afgelopen drie jaar stabiel is gebleven op <15% van het totale energieverbruik van Google, hoewel het totale energieverbruik bij Google jaarlijks toeneemt met meer gebruik.

Als het hele machine learning-veld de beste praktijken zou toepassen, zou de totale CO2-uitstoot van training verminderen, beweren de onderzoekers. Ze merken echter ook op dat de gecombineerde emissies van trainings- en serveermodellen moeten worden geminimaliseerd.

Over het algemeen is dit onderzoek over het algemeen aan de optimistische kant, ondanks het feit dat het belangrijke kwesties erkent die op dit punt niet zijn behandeld. Hoe dan ook, een inspanning leveren en het bewustzijn vergroten, zijn beide welkom en kunnen doorsijpelen naar meer organisaties.

De missie van VentureBeat moet een digitaal stadsplein zijn voor technische besluitvormers om kennis op te doen over transformatieve bedrijfstechnologie en transacties. Leer meer over lidmaatschap.