topic-45922

Posts: 44235

Joined: Thu Oct 06, 2005 05:47 PM

Transformers diagram

Posted: Tue Sep 09, 2025 07:33 PM

</s>graph TD subgraph Input Tokens --> Embedding Embedding --> Positional_Encoding end subgraph Encoder Positional_Encoding --> MultiHead_Attention1 MultiHead_Attention1 --> AddNorm1 AddNorm1 --> FeedForward1 FeedForward1 --> AddNorm2 AddNorm2 --> Encoder_Output end subgraph Decoder Encoder_Output --> Masked_MultiHead_Attention Masked_MultiHead_Attention --> AddNorm3 AddNorm3 --> MultiHead_Attention2 MultiHead_Attention2 --> AddNorm4 AddNorm4 --> FeedForward2 FeedForward2 --> AddNorm5 AddNorm5 --> Linear Linear --> Softmax Softmax --> Output end subgraph Attention Query --> Scaled_Dot_Product Key --> Scaled_Dot_Product Value --> Scaled_Dot_Product Scaled_Dot_Product --> Mask[Optional Mask] Mask --> Softmax_Attention Softmax_Attention --> Weighted_Sum end subgraph MultiHead Weighted_Sum --> Concat Concat --> Linear_Projection end %% Backpropagation (punteado e inverso) %% Desde la pérdida en la salida Output -. grad .-> Softmax Softmax -. dL/dlogits .-> Linear %% Decoder backward Linear -. grad .-> AddNorm5 AddNorm5 -. grad .-> FeedForward2 FeedForward2 -. grad .-> AddNorm4 AddNorm4 -. grad .-> MultiHead_Attention2 MultiHead_Attention2 -. grad to Q,K,V,W .-> AddNorm3 AddNorm3 -. grad .-> Masked_MultiHead_Attention Masked_MultiHead_Attention -. grad .-> Encoder_Output %% Encoder backward (vía cross-attention) Encoder_Output -. grad .-> AddNorm2 AddNorm2 -. grad .-> FeedForward1 FeedForward1 -. grad .-> AddNorm1 AddNorm1 -. grad .-> MultiHead_Attention1 MultiHead_Attention1 -. grad .-> Positional_Encoding Positional_Encoding -. dL/dEmb .-> Embedding Embedding -. grad .-> Tokens %% Atención interna (backprop por atención) %% Nota: se muestran gradientes típicos dentro de la subcapa de atención Softmax_Attention -. dL/dAttn .-> Mask Mask -. grad .-> Scaled_Dot_Product Scaled_Dot_Product -. grad Q,K,V .-> Query Scaled_Dot_Product -. grad Q,K,V .-> Key Scaled_Dot_Product -. grad Q,K,V .-> Value Weighted_Sum -. grad .-> Softmax_Attention Concat -. grad .-> Weighted_Sum Linear_Projection -. grad .-> Concat <e>

regards, saludos

Antonio Linares
www.fivetechsoft.com

FiveTech Support Forums

Transformers diagram

Re: Transformers diagram

Continue the discussion