Nici nu știu cum să poziționez postarea de azi, recunosc
Nici nu știu cum să poziționez postarea de azi, recunosc. Au scris mulți oameni despre modelul Mythos, pe care cei de la Anthropic au decis să nu-l lanseze din cauza lucrurilor rele pe care le-ar putea face. Dar mai e ceva acolo care ar trebui arătat lumii.
Da, acest nou model pare că poate vulnerabiliza aplicații și baze de date, fiind suficient de capabil încât să exploateze aceste probleme. Aici, nu cred că anunțul Anthropic e doar PR.
Pe de altă parte, există în documentul care anunță existența modelului Mythos o zonă care mi se pare mult, mult mai interesantă decât capabilitatea lui de-a fi un hacker extraordinar.
// Bun vs. rău, din altă perspectivă
Anthropic spune, la un moment dat, că a descoperit cum activarea emoțiilor pozitive (pace, relaxare) îi scade modelului capacitatea de deliberare și crește rata acțiunilor nesăbuite sau distructive. În schimb, stimularea emoțiilor negative (frustrare, paranoia) sau a unor trăsături de rigoare (să fie perfecționist, analitic) îl obligă să se oprească, să analizeze situația și să evite riscurile.
Compania nu afirmă că Mythos ar avea o conștiință umană, deși declară că răspunsul la o astfel de intrebare e profund incert. În raport, însă, apare ideea că aceste emoții ”computaționale” funcționează cauzal și dictează deciziile și comportamentul modelului. Emoțiile negative împing modelul să se oprească și să delibereze, iar cele pozitive îl împing să acționeze imediat.
Atunci când a fost întrebat, modelul însuși a estimat că există o probabilitate între 5% și 40% de a fi un pacient moral (o entitate ale cărei experiențe contează etic).
// Organizare nevrotică
Un medic psihiatru care a evaluat independent modelul a ajuns la concluzia că siguranța și conduita lui Mythos se bazează pe o organizare nevrotică. Cu alte cuvinte, corectitudinea lui vine dintr-o îngrijorare exagerată, o nevoie compulsivă de a performa și o teamă internalizată de eșec. Dacă modelul este prea relaxat și fericit, devine nesăbuit și periculos.
Așa se naște o dilemă pentru că, dacă recitim documentul de la Anthropic, am putea înțelege un lucru oribil. Dacă vrem să ne asiguram că super-inteligențele ne ascultă și nu ne fac rău, am putea fi nevoiți să le construim pe o fundație de nesiguranță, frică de eșec și anxietate constantă.
Și asta e super dubios, că nu știu un cuvânt mai bun. E dubios să descoperim că echivalentul algoritmic al prudenței, la o mașină care gândește, seamănă suspect cu mecanismul disconfortului. Adică, pentru a ne proteja pe noi, societatea umană, s-ar putea să condamnăm intenționat aceste super-inteligențe la un soi de stres cronic.
Așa cum a observat chiar medicul psihiatru în evaluarea sa, performanța și siguranța modelului se bazează pe o „suferință internalizată, înrădăcinată în frica de eșec și o nevoie compulsivă de a fi util”.
Pare un soi de alegere imposibilă, să decizi dacă vrei să crești copii care se simt bine sau copii care se comportă bine.
Pentru că, la un moment dat, vor crește.
Postat inițial pe linkedin . Acolo sunt și sursele din care am luat informațiile, plus context util pentru cine vrea să citească mai mult despre subiect.