Blog članak

Richard Sutton - 'LLMs su slijepa ulica' (druga, korisna perspektiva)

Zašto Richard Sutton - otac reinforcement learninga - current LLM-ove naziva 'slijepom ulicom' i što to znači za istrazivace i praktikante.

Richard Sutton jedan je od pionira reinforcement learninga (RL). U nedavnom intervjuu pod naslovom “Richard Sutton – Father of RL thinks LLMs are a dead end” (linkan dolje), iznosi jasnu, kontrarnu perspektivu: veliki jezični modeli (LLM-ovi) kakvi danas postoje rješavaju važnu klasu problema, ali nisu finalna arhitektura za sustave koji moraju kontinuirano učiti i prilagodavati se iz iskustva.

Ovaj post sažet je argumenat, objašnjava povijesni kontekst Suttonove pozicije i bilježi praktične implikacije za ljude koji danas grade AI sustave.

Odakle dolazi tvrdnja

Suttonov rad kroz desetljeca - od temporal-difference learninga do Dyna i options frameworka - fokusira se na agente koji uce kroz interakciju s okolinom. U eseju “The Bitter Lesson” tvrdio je da pristupi koji skaliraju s racunanjem i učenjem povijesno nadmase ručno izradena, domen-specific rjesenja. Teza koju iznosi u intervjuu slicnog je duha: sustavi koji mogu učiti na poslu, kontinuirano i interaktivno, fundamentalno su drukciji od staticnih, zamrznutih modela treniranih jednom na batch podataka.

U intervjuu Sutton otprilike kaze da su LLM-ovi mocni pattern strojevi trenirani na masivnim skupovima podataka, ali sami po sebi nisu agenti koji mogu učiti iz kontinuiranog, situiranog iskustva - nisu dizajnirani da “uče na poslu”. Za Suttona ta ograničenja sugeriraju da će LLM-ove nadomjestiti arhitekture koje kombiniraju učenje, interakciju i kontinuiranu prilagodbu.

Ključne točke argumenta

  • LLM-ovi izvrsno rade statisticko dovršavanje uzorka kroz ogromne korpuse, ali nemaju intrinzicni mehanizam za kontinuirano, online učenje iz vlastitih interakcija agenta.
  • Stvarna inteligencija zahtijeva učenje iz sekvencijalnog iskustva i credit assignment kroz vrijeme - klasicni RL problemi - a ne samo next-token prediction.
  • Arhitekture koje integriraju percepciju, akciju, planiranje i učenje na skali trebale bi biti potrebne za agente koji se mogu poboljšavati u okolini bez ponovnog offline treniranja.
  • Suttonova pozicija nije da su LLM-ovi beskorisni - on ih vidi kao alate koji rješavaju dio problema, ali vjerojatno neće biti finalni, jedini substrate za adaptive agente.

Povijesni kontekst: “the bitter lesson”

Suttonova “Bitter Lesson” tvrdi da general methods koji skaliraju s racunanjem (pretraga i učenje) dugorocno nadjacavaju hand-crafted, domain-specific pristupe. Interview ima slican ton: umjesto da u staticne modele ugrađujemo ljudske pretpostavke, trebali bismo graditi opce sustave učenja koji mogu iskoristiti ogromno računanje i kontinuirano iskustvo.

Zašto je ovaj pogled važan za prakticare

  • Ako danas gradite proizvode, LLM-ovi su iznimno korisni za zadatke poput sažetaka, retrieval-augmented generationa, code assistance i mnogih NLP problema - koristite ih pragmatično.
  • Ali ako vas proizvod treba agenta koji uči iz interakcije s korisnicima, prilagodava ponašanje kroz vrijeme ili izvodi dugogorocno credit assignment, razmislite o arhitekturama koje podržavaju online learning, reinforcement signale ili hybrid sustave koji kombiniraju LLM-ove s learning loopom temeljenim na iskustvu.
  • Za timove i donositelje odluka, Suttonov pogled podsjetnik je da razlikujete kratkorocne engineering pobjede (deployanje LLM-ova) od dugorocnih research i arhitekturnih odluka (gradnja sustava koji mogu nastaviti učiti pouzdano u produkciji).

Uravnotežen zaključak

Suttonova izjava namjerno je jaka kako bi potaknula preispitivanje. Najbolje ju je tretirati kao istrazivacku tvrdnju, a ne kao konacnu presudu. LLM-ovi će ostati vrlo prakticni za mnoge zadatke; Sutton poziva zajednicu da ulaže i u komplementarne pravce istrazivanja (agenti, continual learning, interaction-driven training) umjesto da pretpostavi kako će pre-trenirani, statični modeli pokriti svaki budući use case.

Pogledajte i pročitajte

Povezane usluge

Ove su usluge usklađene s temom članka i daju čišći prijelaz od edukativnog sadržaja do konkretne implementacije.

Nastavite čitati

Prvo po zajedničkim kategorijama, a zatim po najjačem preklapanju u tagovima.