Richard Sutton - 'LLMs su slijepa ulica' (druga, korisna perspektiva)

Richard Sutton jedan je od pionira reinforcement learninga (RL). U nedavnom intervjuu pod naslovom “Richard Sutton – Father of RL thinks LLMs are a dead end” (linkan dolje), iznosi jasnu, kontrarnu perspektivu: veliki jezični modeli (LLM-ovi) kakvi danas postoje rješavaju važnu klasu problema, ali nisu finalna arhitektura za sustave koji moraju kontinuirano učiti i prilagodavati se iz iskustva.

Ovaj post sažet je argumenat, objašnjava povijesni kontekst Suttonove pozicije i bilježi praktične implikacije za ljude koji danas grade AI sustave.

Odakle dolazi tvrdnja

Suttonov rad kroz desetljeća - od temporal-difference learninga do Dyna i options frameworka - fokusira se na agente koji uče kroz interakciju s okolinom. U eseju “The Bitter Lesson” tvrdio je da pristupi koji skaliraju s računanjem i učenjem povijesno nadmaše ručno izradena, domen-specific rješenja. Teza koju iznosi u intervjuu sličnog je duha: sustavi koji mogu učiti na poslu, kontinuirano i interaktivno, fundamentalno su drukčiji od statičnih, zamrznutih modela treniranih jednom na batch podataka.

U intervjuu Sutton otprilike kaze da su LLM-ovi mocni pattern strojevi trenirani na masivnim skupovima podataka, ali sami po sebi nisu agenti koji mogu učiti iz kontinuiranog, situiranog iskustva - nisu dizajnirani da “uče na poslu”. Za Suttona ta ograničenja sugeriraju da će LLM-ove nadomjestiti arhitekture koje kombiniraju učenje, interakciju i kontinuiranu prilagodbu.

Ključne točke argumenta

LLM-ovi izvrsno rade statisticko dovršavanje uzorka kroz ogromne korpuse, ali nemaju intrinzicni mehanizam za kontinuirano, online učenje iz vlastitih interakcija agenta.
Stvarna inteligencija zahtijeva učenje iz sekvencijalnog iskustva i credit assignment kroz vrijeme - klasicni RL problemi - a ne samo next-token prediction.
Arhitekture koje integriraju percepciju, akciju, planiranje i učenje na skali trebale bi biti potrebne za agente koji se mogu poboljšavati u okolini bez ponovnog offline treniranja.
Suttonova pozicija nije da su LLM-ovi beskorisni - on ih vidi kao alate koji rješavaju dio problema, ali vjerojatno neće biti finalni, jedini substrate za adaptive agente.

Povijesni kontekst: “the bitter lesson”

Suttonova “Bitter Lesson” tvrdi da general methods koji skaliraju s računanjem (pretraga i učenje) dugoročno nadjačavaju hand-crafted, domain-specific pristupe. Interview ima sličan ton: umjesto da u statične modele ugrađujemo ljudske pretpostavke, trebali bismo graditi opće sustave učenja koji mogu iskoristiti ogromno računanje i kontinuirano iskustvo.

Zašto je ovaj pogled važan za prakticare

Ako danas gradite proizvode, LLM-ovi su iznimno korisni za zadatke poput sažetaka, retrieval-augmented generationa, code assistance i mnogih NLP problema - koristite ih pragmatično.
Ali ako vas proizvod treba agenta koji uči iz interakcije s korisnicima, prilagodava ponašanje kroz vrijeme ili izvodi dugogorocno credit assignment, razmislite o arhitekturama koje podržavaju online learning, reinforcement signale ili hybrid sustave koji kombiniraju LLM-ove s learning loopom temeljenim na iskustvu.
Za timove i donositelje odluka, Suttonov pogled podsjetnik je da razlikujete kratkoročne engineering pobjede (deployanje LLM-ova) od dugoročnih research i arhitekturnih odluka (gradnja sustava koji mogu nastaviti učiti pouzdano u produkciji).

Uravnotežen zaključak

Suttonova izjava namjerno je jaka kako bi potaknula preispitivanje. Najbolje ju je tretirati kao istrazivacku tvrdnju, a ne kao konacnu presudu. LLM-ovi će ostati vrlo prakticni za mnoge zadatke; Sutton poziva zajednicu da ulaže i u komplementarne pravce istrazivanja (agenti, continual learning, interaction-driven training) umjesto da pretpostavi kako će pre-trenirani, statični modeli pokriti svaki budući use case.

Pogledajte i pročitajte

Interview (video): https://www.youtube.com/watch?v=21EYKqUsPfg
Richard Sutton — The Bitter Lesson (essay): http://www.incompleteideas.net/IncIdeas/BitterLesson.html
Richard S. Sutton (bio and work): https://en.wikipedia.org/wiki/Richard_S._Sutton

Richard Sutton - 'LLMs su slijepa ulica' (druga, korisna perspektiva)

Odakle dolazi tvrdnja

Ključne točke argumenta

Povijesni kontekst: “the bitter lesson”

Zašto je ovaj pogled važan za prakticare

Uravnotežen zaključak

Pogledajte i pročitajte

Savjetodavna područja vezana uz ovu temu

Povezani članci

Redis u 2026.: cache, sesije, realtime i AI memorija

Dizajn agent harnessa: kako LLM modele učiniti spremnima za posao

Kako AI agenti zaista rade za DevOps i platform inženjere