Zašto se koristi pretvorba točka u transformatoru?
1. Mjerenje sličnosti:
* Točkasti proizvod kao mjera sličnosti: Točkasti umnožak između dva vektora je mjera njihove sličnosti. U kontekstu pažnje, želimo znati koliko je vektor upita (koji predstavlja trenutnu poziciju u nizu) sličan svakom ključnom vektoru (koji predstavlja druge pozicije).
* Produkt s većim točkama =Sličnije: Veći točkasti umnožak ukazuje na veću sličnost, što znači da upit više "pridaje pozornost" tom ključu.
2. Učinkovito i skalabilno:
* Množenje matrica: Operacija točkastog produkta može se učinkovito implementirati korištenjem matričnog množenja. To je osobito korisno kada se radi o velikim sekvencama, jer omogućuje paralelno izračunavanje na GPU-u.
3. Meko poravnanje:
* Normalizirane težine: Rezultati točkastog proizvoda obično se normaliziraju korištenjem funkcije softmax, što rezultira skupom pondera pozornosti čiji je zbroj 1. Ovi ponderi predstavljaju meko poravnanje između upita i ključeva, pokazujući relativnu važnost svakog ključa.
Kako to radi (pojednostavljeni primjer):
1. Unos: Imate niz riječi (npr. "Mačka je sjedila na prostirci").
2. Upit, ključ i vrijednost: Svaka se riječ pretvara u tri vektora:upit (Q), ključ (K) i vrijednost (V).
3. Pozornost na proizvod: Vektor upita se množi (umnožak) sa svakim ključnim vektorom. Ovo proizvodi rezultat za svaki ključ.
4. Softmax: Rezultati se normaliziraju pomoću funkcije softmax, stvarajući pondere pažnje.
5. Ponderirani zbroj: Ponderi pozornosti koriste se za kombiniranje vektora vrijednosti, stvarajući vektor konteksta koji uključuje informacije iz relevantnih riječi.
Prednosti Dot-Product Attention:
* Učinkovitost: Množenje matrice je visoko optimizirano.
* Paralelizam: Pogodan za GPU za velike sekvence.
* Meko poravnanje: Omogućuje postupno, ponderirano obraćanje pažnje na različite dijelove unosa.
Alternative:
Dok je pažnja točkastim proizvodom najčešća, postoje i drugi mehanizmi pažnje (npr. aditivna pažnja, skalirana pažnja točkastog produkta), ali oni često imaju prednosti ili nedostatke ovisno o specifičnom zadatku ili računalnim resursima.
Ukratko, operacija točkastog umnoška u transformatorima ključna je za izračun težine pažnje, koja mjeri sličnost između upita i ključnih vektora i pomaže u fokusiranju na relevantne dijelove ulazne sekvence.