日韩欧美人妻无码精品白浆,www.大香蕉久久网,狠狠的日狠狠的操,日本好好热在线观看

LOGO OA教程 ERP教程 模切知識(shí)交流 PMS教程 CRM教程 開發(fā)文檔 其他文檔  
 
網(wǎng)站管理員

神經(jīng)網(wǎng)絡(luò)算法:一文搞懂Transformer本質(zhì)、原理、架構(gòu)改進(jìn)

admin
2025年6月18日 9:2 本文熱度 317
本文將從Transformer的本質(zhì)、Transformer的原理、Transformer架構(gòu)改進(jìn)三個(gè)方面,帶您一文搞懂Transformer。

一、Transformer的本質(zhì)

Transformer架構(gòu)主要由輸入部分(輸入輸出嵌入與位置編碼)、多層編碼器、多層解碼器以及輸出部分(輸出線性層與Softmax)四大部分組成。

Transformer架構(gòu)

  • 輸入部分:

  • 源文本嵌入層:將源文本中的詞匯數(shù)字表示轉(zhuǎn)換為向量表示,捕捉詞匯間的關(guān)系。

  • 位置編碼器:為輸入序列的每個(gè)位置生成位置向量,以便模型能夠理解序列中的位置信息。

  • 目標(biāo)文本嵌入層(在解碼器中使用):將目標(biāo)文本中的詞匯數(shù)字表示轉(zhuǎn)換為向量表示。

  • 編碼器部分:

  • 由N個(gè)編碼器層堆疊而成。

  • 每個(gè)編碼器層由兩個(gè)子層連接結(jié)構(gòu)組成:第一個(gè)子層是一個(gè)多頭自注意力子層,第二個(gè)子層是一個(gè)前饋全連接子層。每個(gè)子層后都接有一個(gè)規(guī)范化層和一個(gè)殘差連接。

  • 解碼器部分:

  • 由N個(gè)解碼器層堆疊而成。

  • 每個(gè)解碼器層由三個(gè)子層連接結(jié)構(gòu)組成:第一個(gè)子層是一個(gè)帶掩碼的多頭自注意力子層,第二個(gè)子層是一個(gè)多頭注意力子層(編碼器到解碼器),第三個(gè)子層是一個(gè)前饋全連接子層。每個(gè)子層后都接有一個(gè)規(guī)范化層和一個(gè)殘差連接。

  • 輸出部分:

  • 線性層:將解碼器輸出的向量轉(zhuǎn)換為最終的輸出維度。

  • Softmax層:將線性層的輸出轉(zhuǎn)換為概率分布,以便進(jìn)行最終的預(yù)測(cè)。

Encoder-Decoder(編碼器-解碼器):左邊是N個(gè)編碼器,右邊是N個(gè)解碼器,Transformer中的N為6。

Encoder-Decoder(編碼器-解碼器)

  • Encoder編碼器

  • Transformer中的編碼器部分一共6個(gè)相同的編碼器層組成。

    每個(gè)編碼器層都有兩個(gè)子層,即多頭自注意力層(Multi-Head Attention)層和逐位置的前饋神經(jīng)網(wǎng)絡(luò)(Position-wise Feed-Forward Network)。在每個(gè)子層后面都有殘差連接(圖中的虛線)和層歸一化(LayerNorm)操作,二者合起來稱為Add&Norm操作。

?

Encoder(編碼器)架構(gòu)

  • Decoder解碼器

  • Transformer中的解碼器部分同樣一共6個(gè)相同的解碼器層組成。

    每個(gè)解碼器層都有三個(gè)子層,掩蔽自注意力層(Masked Self-Attention)、Encoder-Decoder注意力層、逐位置的前饋神經(jīng)網(wǎng)絡(luò)。同樣,在每個(gè)子層后面都有殘差連接(圖中的虛線)和層歸一化(LayerNorm)操作,二者合起來稱為Add&Norm操作。

Decoder(解碼器)架構(gòu)

二、Transformer的原理

Transformer工作原理

Multi-Head Attention(多頭注意力)它允許模型同時(shí)關(guān)注來自不同位置的信息。通過分割原始的輸入向量到多個(gè)頭(head),每個(gè)頭都能獨(dú)立地學(xué)習(xí)不同的注意力權(quán)重,從而增強(qiáng)模型對(duì)輸入序列中不同部分的關(guān)注能力。

Multi-Head Attention(多頭注意力)

  1. 輸入線性變換:對(duì)于輸入的Query(查詢)、Key(鍵)和Value(值)向量,首先通過線性變換將它們映射到不同的子空間。這些線性變換的參數(shù)是模型需要學(xué)習(xí)的。

  2. 分割多頭:經(jīng)過線性變換后,Query、Key和Value向量被分割成多個(gè)頭。每個(gè)頭都會(huì)獨(dú)立地進(jìn)行注意力計(jì)算。

  3. 縮放點(diǎn)積注意力:在每個(gè)頭內(nèi)部,使用縮放點(diǎn)積注意力來計(jì)算Query和Key之間的注意力分?jǐn)?shù)。這個(gè)分?jǐn)?shù)決定了在生成輸出時(shí),模型應(yīng)該關(guān)注Value向量的部分。

  4. 注意力權(quán)重應(yīng)用:將計(jì)算出的注意力權(quán)重應(yīng)用于Value向量,得到加權(quán)的中間輸出。這個(gè)過程可以理解為根據(jù)注意力權(quán)重對(duì)輸入信息進(jìn)行篩選和聚焦。

  5. 拼接和線性變換:將所有頭的加權(quán)輸出拼接在一起,然后通過一個(gè)線性變換得到最終的Multi-Head Attention輸出。

Scaled Dot-Product Attention縮放點(diǎn)積注意力它是Transformer模型中多頭注意力機(jī)制的一個(gè)關(guān)鍵組成部分。

Scaled Dot-Product Attention縮放點(diǎn)積注意力

  • Query、Key和Value矩陣

    • Query矩陣(Q):表示當(dāng)前的關(guān)注點(diǎn)或信息需求,用于與Key矩陣進(jìn)行匹配。

    • Key矩陣(K):包含輸入序列中各個(gè)位置的標(biāo)識(shí)信息,用于被Query矩陣查詢匹配。

    • Value矩陣(V):存儲(chǔ)了與Key矩陣相對(duì)應(yīng)的實(shí)際值或信息內(nèi)容,當(dāng)Query與某個(gè)Key匹配時(shí),相應(yīng)的Value將被用來計(jì)算輸出。

  • 點(diǎn)積計(jì)算

    • 通過計(jì)算Query矩陣和Key矩陣之間的點(diǎn)積(即對(duì)應(yīng)元素相乘后求和),來衡量Query與每個(gè)Key之間的相似度或匹配程度。

  • 縮放因子

    • 由于點(diǎn)積操作的結(jié)果可能非常大,尤其是在輸入維度較高的情況下,這可能導(dǎo)致softmax函數(shù)在計(jì)算注意力權(quán)重時(shí)進(jìn)入飽和區(qū)。為了避免這個(gè)問題,縮放點(diǎn)積注意力引入了一個(gè)縮放因子,通常是輸入維度的平方根。點(diǎn)積結(jié)果除以這個(gè)縮放因子,可以使得softmax函數(shù)的輸入保持在一個(gè)合理的范圍內(nèi)。

  • Softmax函數(shù)

    • 將縮放后的點(diǎn)積結(jié)果輸入到softmax函數(shù)中,計(jì)算每個(gè)Key相對(duì)于Query的注意力權(quán)重。Softmax函數(shù)將原始得分轉(zhuǎn)換為概率分布,使得所有Key的注意力權(quán)重之和為1。

  • 加權(quán)求和

    • 使用計(jì)算出的注意力權(quán)重對(duì)Value矩陣進(jìn)行加權(quán)求和,得到最終的輸出。這個(gè)過程根據(jù)注意力權(quán)重的大小,將更多的關(guān)注放在與Query更匹配的Value上。

三、Transformer架構(gòu)改進(jìn)

BERT:BERT是一種基于Transformer的預(yù)訓(xùn)練語言模型,它的最大創(chuàng)新之處在于引入了雙向Transformer編碼器,這使得模型可以同時(shí)考慮輸入序列的前后上下文信息。

BERT架構(gòu)

  1. 輸入層(Embedding)

    • Token Embeddings:將單詞或子詞轉(zhuǎn)換為固定維度的向量。

    • Segment Embeddings:用于區(qū)分句子對(duì)中的不同句子。

    • Position Embeddings:由于Transformer模型本身不具備處理序列順序的能力,所以需要加入位置嵌入來提供序列中單詞的位置信息。

  2. 編碼層(Transformer Encoder)BERT模型使用雙向Transformer編碼器進(jìn)行編碼。

  3. 輸出層(Pre-trained Task-specific Layers)

    • MLM輸出層:用于預(yù)測(cè)被掩碼(masked)的單詞。在訓(xùn)練階段,模型會(huì)隨機(jī)遮蓋輸入序列中的部分單詞,并嘗試根據(jù)上下文預(yù)測(cè)這些單詞。

    • NSP輸出層:用于判斷兩個(gè)句子是否為連續(xù)的句子對(duì)。在訓(xùn)練階段,模型會(huì)接收成對(duì)的句子作為輸入,并嘗試預(yù)測(cè)第二個(gè)句子是否是第一個(gè)句子的后續(xù)句子。

GPT:GPT也是一種基于Transformer的預(yù)訓(xùn)練語言模型,它的最大創(chuàng)新之處在于使用了單向Transformer編碼器,這使得模型可以更好地捕捉輸入序列的上下文信息。

GPT架構(gòu)

  1. 輸入層(Input Embedding)

    • 將輸入的單詞或符號(hào)轉(zhuǎn)換為固定維度的向量表示。

    • 可以包括詞嵌入、位置嵌入等,以提供單詞的語義信息和位置信息。

  2. 編碼層(Transformer Encoder):GPT模型使用單向Transformer編碼器進(jìn)行編碼和生成。

  3. 輸出層(Output Linear and Softmax)

    • 線性輸出層將最后一個(gè)Transformer Decoder Block的輸出轉(zhuǎn)換為詞匯表大小的向量。

    • Softmax函數(shù)將輸出向量轉(zhuǎn)換為概率分布,以便進(jìn)行詞匯選擇或生成下一個(gè)單詞。


該文章在 2025/6/18 9:02:38 編輯過
關(guān)鍵字查詢
相關(guān)文章
正在查詢...
點(diǎn)晴ERP是一款針對(duì)中小制造業(yè)的專業(yè)生產(chǎn)管理軟件系統(tǒng),系統(tǒng)成熟度和易用性得到了國內(nèi)大量中小企業(yè)的青睞。
點(diǎn)晴PMS碼頭管理系統(tǒng)主要針對(duì)港口碼頭集裝箱與散貨日常運(yùn)作、調(diào)度、堆場(chǎng)、車隊(duì)、財(cái)務(wù)費(fèi)用、相關(guān)報(bào)表等業(yè)務(wù)管理,結(jié)合碼頭的業(yè)務(wù)特點(diǎn),圍繞調(diào)度、堆場(chǎng)作業(yè)而開發(fā)的。集技術(shù)的先進(jìn)性、管理的有效性于一體,是物流碼頭及其他港口類企業(yè)的高效ERP管理信息系統(tǒng)。
點(diǎn)晴WMS倉儲(chǔ)管理系統(tǒng)提供了貨物產(chǎn)品管理,銷售管理,采購管理,倉儲(chǔ)管理,倉庫管理,保質(zhì)期管理,貨位管理,庫位管理,生產(chǎn)管理,WMS管理系統(tǒng),標(biāo)簽打印,條形碼,二維碼管理,批號(hào)管理軟件。
點(diǎn)晴免費(fèi)OA是一款軟件和通用服務(wù)都免費(fèi),不限功能、不限時(shí)間、不限用戶的免費(fèi)OA協(xié)同辦公管理系統(tǒng)。
Copyright 2010-2025 ClickSun All Rights Reserved

亚洲AV无码一区二区 一二三| 色色五月丁香婷婷|| 日韩无码6666| 内射日韩setu| 偷拍自拍 AV| 超在线97总站| 闩日朝男女橾鸡巴| 国产品无码一区二区三区| 一区二区三区三区在线观看视频| 韩日成人一区二区三区| 日本五十路一区| 日本少妇久久久网站| 婷婷五月婷婷开心五月| 日韩黄色精品电影久久| 男人的天堂五月天av| 成人网站.comwww.| 性哦美高清| 国产五月天激情综合网| 十三姨一区二区| 国产在线综合一区二区影院| 人妻精品刺激丰满蜜乳四区| 天堂Av色色| 欧美在线免费观看国产| 欧美123区多人黄片| 久久日韩三级| 日本A级片一区二区| 亚洲日韩国产久久一区二区| 老鸭窝国产在线| 久久青青草原亚洲A3d| 日韩久久电影中文字幕| 88国产精品免费一区二区| 久久 大香蕉| 少妇久久被弄到高潮| 伊人天天干天天操| 超碰在线免费日韩| chaoporn精品在线| 免费欧美| 国产欧美日韩成人看片| 2019中文亚洲欧美乱码一区| 亚洲中午文字幕一区| Juli中文在线观看一区二区在线|