”A turnat apa din ibric în cană până când s-a umplut”. Cine s-a umplut? Pentru noi, oamenii, e evident că nu ibricul, ci obiectul în care s-a turnat apa. Cumva, fără să conștientizăm cum, creierul nostru reimaginează procesul de turnare a apei din ceva în altceva și știe cu exactitate cine se golește și cine se umple în acest proces.
Mulți ani, pentru computere a fost complicat să ”gândească” astfel. Sigur, poate că puteau fi învățate să trateze acest tip de problemă în mod specific, dar ideea în sine, a înțelegerii profunde a unui text, era departe de capacitățile lor.
Apoi, cu șase ani în urmă, în 2017, pe arXiv a fost publicată o lucrare cu numele ”Attention Is All You Need”. Avea șase autori și aducea în atenția lumii, pentru prima dată, un concept care se numea ”Transformer”. La baza funcționării acestui concept stătea o abilitate definită de creatorii studiului ca fiind „self-attention”. De atunci, cana și ibricul n-au mai fost niciodată la fel pentru sistemele informatice.
Când Transformer-ul citește propoziția „A turnat apa din ibric în cană până când s-a umplut”, el utilizează abilitatea sa de „self-attention” pentru a lega cuvintele și ideile. La început, vede sintagme precum „a turnat apa” și „din ibric în cană”, deci înțelege că apa se mută din ibric în cană. Dar apoi vine partea „până când s-a umplut”. Cine sau ce s-a umplut? Ibricul sau cana?
Aici intervine abilitatea de „self-attention”. Transformer-ul nu doar că se uită la fiecare cuvânt în parte, ci și la relațiile dintre ele. El știe că în propoziția dată, „s-a umplut” se referă la acel obiect care a ”primit” ceva – în acest caz, cana.
Înainte de Transformer, existau alte modele, cum ar fi RNNs (Recurrent Neural Networks) sau LSTMs (Long Short-Term Memory). Acestea procesau informațiile într-o ordine secvențială, un cuvânt după altul, la fel cum citim noi o carte sau o propoziție. Ele păstrau o „memorie” a cuvintelor pe care le vedeau, dar uneori uitau informații importante din începutul propoziției când ajungeau la sfârșit.
În exemplul nostru, începeau prin a citi „A turnat apa”, apoi „din ibric”, apoi „în cană”, și așa mai departe. Problema e că, când ajungeau la „s-a umplut”, era posibil să uite că apa a fost turnată din ibric în cană, așa că puteau spune greșit că ibricul s-a umplut, nu cana.
Apariția Transformer a schimbat asta. În loc să proceseze cuvintele unul după altul, poate privi toată propoziția deodată și poate decide la ce anume să acorde atenție. Așa funcționează „auto-atenția”. Când ajunge la „s-a umplut”, Transformer-ul poate „vedea” în urmă că apa a fost turnată din ibric în cană, așa că poate înțelege că acea cană este cea care s-a umplut.
E util să țineți minte povestea asta, când vom discuta despre viitor.