Richard Sutton jedan je od pionira reinforcement learninga (RL). U nedavnom intervjuu pod naslovom “Richard Sutton – Father of RL thinks LLMs are a dead end” (linkan dolje), iznosi jasnu, kontrarnu perspektivu: veliki jezični modeli (LLM-ovi) kakvi danas postoje rješavaju važnu klasu problema, ali nisu finalna arhitektura za sustave koji moraju kontinuirano učiti i prilagodavati se iz iskustva.
Ovaj post sažet je argumenat, objašnjava povijesni kontekst Suttonove pozicije i bilježi praktične implikacije za ljude koji danas grade AI sustave.
Odakle dolazi tvrdnja
Suttonov rad kroz desetljeca - od temporal-difference learninga do Dyna i options frameworka - fokusira se na agente koji uce kroz interakciju s okolinom. U eseju “The Bitter Lesson” tvrdio je da pristupi koji skaliraju s racunanjem i učenjem povijesno nadmase ručno izradena, domen-specific rjesenja. Teza koju iznosi u intervjuu slicnog je duha: sustavi koji mogu učiti na poslu, kontinuirano i interaktivno, fundamentalno su drukciji od staticnih, zamrznutih modela treniranih jednom na batch podataka.
U intervjuu Sutton otprilike kaze da su LLM-ovi mocni pattern strojevi trenirani na masivnim skupovima podataka, ali sami po sebi nisu agenti koji mogu učiti iz kontinuiranog, situiranog iskustva - nisu dizajnirani da “uče na poslu”. Za Suttona ta ograničenja sugeriraju da će LLM-ove nadomjestiti arhitekture koje kombiniraju učenje, interakciju i kontinuiranu prilagodbu.
Ključne točke argumenta
- LLM-ovi izvrsno rade statisticko dovršavanje uzorka kroz ogromne korpuse, ali nemaju intrinzicni mehanizam za kontinuirano, online učenje iz vlastitih interakcija agenta.
- Stvarna inteligencija zahtijeva učenje iz sekvencijalnog iskustva i credit assignment kroz vrijeme - klasicni RL problemi - a ne samo next-token prediction.
- Arhitekture koje integriraju percepciju, akciju, planiranje i učenje na skali trebale bi biti potrebne za agente koji se mogu poboljšavati u okolini bez ponovnog offline treniranja.
- Suttonova pozicija nije da su LLM-ovi beskorisni - on ih vidi kao alate koji rješavaju dio problema, ali vjerojatno neće biti finalni, jedini substrate za adaptive agente.
Povijesni kontekst: “the bitter lesson”
Suttonova “Bitter Lesson” tvrdi da general methods koji skaliraju s racunanjem (pretraga i učenje) dugorocno nadjacavaju hand-crafted, domain-specific pristupe. Interview ima slican ton: umjesto da u staticne modele ugrađujemo ljudske pretpostavke, trebali bismo graditi opce sustave učenja koji mogu iskoristiti ogromno računanje i kontinuirano iskustvo.
Zašto je ovaj pogled važan za prakticare
- Ako danas gradite proizvode, LLM-ovi su iznimno korisni za zadatke poput sažetaka, retrieval-augmented generationa, code assistance i mnogih NLP problema - koristite ih pragmatično.
- Ali ako vas proizvod treba agenta koji uči iz interakcije s korisnicima, prilagodava ponašanje kroz vrijeme ili izvodi dugogorocno credit assignment, razmislite o arhitekturama koje podržavaju online learning, reinforcement signale ili hybrid sustave koji kombiniraju LLM-ove s learning loopom temeljenim na iskustvu.
- Za timove i donositelje odluka, Suttonov pogled podsjetnik je da razlikujete kratkorocne engineering pobjede (deployanje LLM-ova) od dugorocnih research i arhitekturnih odluka (gradnja sustava koji mogu nastaviti učiti pouzdano u produkciji).
Uravnotežen zaključak
Suttonova izjava namjerno je jaka kako bi potaknula preispitivanje. Najbolje ju je tretirati kao istrazivacku tvrdnju, a ne kao konacnu presudu. LLM-ovi će ostati vrlo prakticni za mnoge zadatke; Sutton poziva zajednicu da ulaže i u komplementarne pravce istrazivanja (agenti, continual learning, interaction-driven training) umjesto da pretpostavi kako će pre-trenirani, statični modeli pokriti svaki budući use case.
Pogledajte i pročitajte
- Interview (video): https://www.youtube.com/watch?v=21EYKqUsPfg
- Richard Sutton — The Bitter Lesson (essay): http://www.incompleteideas.net/IncIdeas/BitterLesson.html
- Richard S. Sutton (bio and work): https://en.wikipedia.org/wiki/Richard_S._Sutton
Povezane usluge
Savjetodavna područja vezana uz ovu temu
Ove su usluge usklađene s temom članka i daju čišći prijelaz od edukativnog sadržaja do konkretne implementacije.
Nastavite čitati
Povezani članci
Prvo po zajedničkim kategorijama, a zatim po najjačem preklapanju u tagovima.