Czym dokładnie są klucze, zapytania i wartości w mechanizmach uwagi?

Seankala

2019-08-13 14:00:55 UTC

view on stackexchange narkive permalink

Jak należy rozumieć klucze, zapytania i wartości, które są często wymieniane w mechanizmach uwagi?

Próbowałem wyszukiwać online, ale wszystkie znalezione zasoby mówią o nich tylko tak, jakby czytelnik już wiedział, czym one są.

Sądząc po artykule napisanym przez Bahdanau ( Neural Machine Translation by Jointly Learning to Align and Translate ), wydaje się, że wartości są wektorem adnotacji $ h $ , ale nie jest jasne, co oznacza „zapytanie” i „klucz”.

Artykuł, o którym wspomniałem, stwierdza, że uwaga jest obliczana przez

$$ c_i = \ sum ^ {T_x} _ {j = 1} \ alpha_ {ij} h_j $$

$$ \ begin {align} \ alpha_ {ij} & = \ frac {e ^ {e_ {ij}}} {\ sum ^ {T_x} _ {k = 1} e ^ {ik}} \\\\ e_ {ij} & = a (s_ {i - 1}, h_j) \ end {align} $$

Skąd ludzie biorą klucz, zapytanie i wartość z tych równań?

Dziękuję.

Jeśli [to jest artykuł] (https://arxiv.org/abs/1409.0473), o którym mówisz, nie wspomina się w nim o żadnym „kluczu”, „zapytaniu” ani „wartości” wymagającej uwagi i wydaje się, żewyjaśnij symbole z równań, które cytujesz, więc nie wydaje mi się, aby rozumieć, o co właściwie chodzi?

Byłem zdezorientowany przez Q, K, V, dopóki nie przeczytałem tego artykułu: https://medium.com/@b.terryjack/deep-learning-the-transformer-9ae5e9c5a190.Obejmuje wszystkie pytania, od historii po niedawne wdrożenie.Mam nadzieję, że Tobie też się przyda.

Patrzę też na to.O ile zrozumiałem, w niektórych miejscach Query jest również przedstawiane jako „s”.Jest więc wyjściem z poprzedniej iteracji dekodera.Kluczem i wartością, które w niektórych miejscach są również reprezentowane jako „h”, jest wektor słowa z kodera.Dla odniesienia możesz sprawdzić https://www.youtube.com/watch?v=OyFJWRnt_AY i https://www.youtube.com/watch?v=yInilk6x-OY&list=PLyqSpQzTE6M9gCgajvQbc68Hk_JKGBAYT&index=115 Znowu wciąż próbuję zrozumiećwięcej.Proszę przeprowadzić dalsze badania i dać mi znać, jeśli coś znajdziesz.

Najlepsze wyjaśnienie dla mnie: https://youtu.be/XXtpJxZBa2c?t=4337

@QtRoS Nie sądzę, żeby było tam wyjaśnione, jakie były klucze, tylko jakie były wartości i zapytania.

@QtRoS Oglądałem również ten film w czasie, gdy publikowałem to pytanie.Szczerze mówiąc, nie pomogło mi to zbytnio.Spodziewałem się intuicyjnej definicji motywacji do posługiwania się samą terminologią, ale to było traktowane jako „dane”.

@Seankala jest jeszcze jeden film, niestety tylko po rosyjsku, ale jest to najlepsze wyjaśnienie, jakie do tej pory widziałem.Ilustracje w nim mogą być pomocne dla Ciebie.Daj mi znać, jeśli chcesz tego spróbować.