<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 設計應用 > 從隱空間理解編碼器(Encoder)

從隱空間理解編碼器(Encoder)

作者:高煥堂 時(shí)間:2023-06-22 來(lái)源:電子產(chǎn)品世界 收藏


本文引用地址:http://dyxdggzs.com/article/202306/447898.htm

1 前言

當我們在閱讀關(guān)于A(yíng)IGC 的文章時(shí),常常會(huì )看到Encoder和Decoder名詞。它們是AI( 即ML) 的核心模型,如果能深入理解它們的涵意和功能,就能更流暢地理解相關(guān)文章的內容,以及圖示。例如,關(guān)于Diff usion( 擴張模型) 的文章里??吹饺鐖D1。

1687448711624451.png

(圖1 來(lái)源https://www.joaoleal.com/how-stablediffusion-dall-e-2-and-midjourney-work)

圖1 說(shuō)明諸如Stable Diff usion 里,就含有文本(text encoder)、圖像(img decoder)、以及解碼器(decoder)。這些都是AI 里的基本名詞,處處可見(jiàn)。再如,關(guān)于DeepFake( 換臉) 的文章里,也??吹竭@兩個(gè)名詞( 圖2)。

1687495490596687.png

(圖2 來(lái)源:https://arxiv.org/pdf/1909.11573.pdf)

這圖里就說(shuō)明了,一般的DeepFake 模型里常含有一個(gè)圖像(Eecoder)、以及兩個(gè)圖像解碼器( 即Decoder_A 和Decoder_B)。

諸如上述圖片,其中的”Encoder”、”Decoder 名詞是處處常見(jiàn)的。所以把它弄清楚是有必要的。于是,本文就先來(lái)解說(shuō)第1 個(gè)名詞:編碼器(Encoder)。當您深入理解編碼器了,就能輕易繼續理解第2 個(gè)名詞:解碼器(Decoder)。

2 從歐式空間出發(fā)

為了充分掌握它,就必需從歐式(Euclidean) 空間來(lái)入手。所謂空間就是大家熟悉的坐標空間(Coordinate space)。例如,一維空間就是數線(xiàn)( 圖3)。

1687495562196625.png

圖3

這圖里有兩個(gè)一維空間。人們隨著(zhù)閱歷增多,逐漸學(xué)習,就會(huì )連連看,把兩個(gè)空間對映起來(lái)( 圖4)。

1687495631448652.png

圖4

人們把它記憶于腦海里??吹匠靥晾镉泻谏仪?,就會(huì )聯(lián)想的< 鴨>??吹匠靥晾镉邪咨仪?,可能就會(huì )聯(lián)想的< 鵝> 或< 雞>。接下來(lái),請您先思考:AI 如何學(xué)會(huì )上述的連連看呢? 也就是,人們如何當老師,把上述的連連看智能,傳授( 教導) 給AI 模型,讓它也能記憶上述的連連看關(guān)系。

其實(shí),它是依賴(lài)一個(gè)簡(jiǎn)單的數學(xué)公式:Y=X*W+B。有時(shí)候會(huì )再添加激活函數,如:Z = Sigmoid(Y)。于是,拿來(lái)X = 0,放入公式計算出Y=4.6 的值( 圖5)。

1687495711637175.png

圖5

AI 就依賴(lài)這些參數( 即WB 值) 來(lái)記憶這項連連看的智慧。于是,再拿來(lái)X = 255,放入公式計算出Y = 0.5 的值( 圖6)。

1687495756625069.png

圖6

當AI 計算出Y=4.6,很接近于4,就連結到< 鴨> 了,也就憑過(guò)去的學(xué)習經(jīng)驗和智慧,拿起畫(huà)筆畫(huà)出一只黑色鴨了。同樣地,AI 計算出Y = 0.5,很接近于0,就連結到< 雞> 了,也就憑過(guò)去的學(xué)習經(jīng)驗和智慧,拿起畫(huà)筆畫(huà)出一只白色雞了。這就是AI 繪圖創(chuàng )作的源點(diǎn)。

在上述的例子里,白色灰階值為0,只有1 個(gè)特征值(Feature),可以是使用1 維空間表示。同理,當x = [255,100] 時(shí),它即是2 維歐式空間里的一個(gè)點(diǎn)。

依此類(lèi)推,當x = [255, 255, 255] 時(shí),它即是3 維歐式空間里的一個(gè)點(diǎn)。在A(yíng)I 里,就拿歐式空間來(lái)表達宇宙中的一切事物或現象。例如,拿歐式空間來(lái)表達RGB色彩,就成為大家熟知的RGB 色彩空間( 圖7)。

1687495832444797.png

圖7

3 范例演練

此范例里,包含4 張圖像,各章都由4 個(gè)像素(Pixel)所組成( 圖8)。

1687495880751830.png

圖8

請您練習想想看,在A(yíng)I 里如何使用歐式空間來(lái)表達這4 件事物( 即4 張圖) 呢? 答案是:每一張圖像有4*3 = 12 個(gè)值( 即12 個(gè)特征),每一個(gè)特征值各在一維度軸上。于是,上述每一張圖在12 維歐式空間里,就是一個(gè)點(diǎn)。以此類(lèi)推,這是1 張512 x512 的JPG 圖像( 圖9)。

image.png

圖9 圖源自《仙劍奇俠傳》

請您練習想想看,在A(yíng)I 里如何使用歐式空間來(lái)表達這張圖像呢? 答案是: 每一張圖像有512*512*3 個(gè)值( 即特征),每一個(gè)特征值各在一維度軸上。于是,上述這張圖在512*512*3維歐式空間里,就是1 個(gè)點(diǎn)。

基于上述的基礎,接下來(lái),就可來(lái)理解一個(gè)常見(jiàn)的名詞:Embedded 及Embedding 。剛才提到,在這12 維空間里,存放( 記載) 這4張圖( 只含4 個(gè)點(diǎn))。似乎有些浪費空間,計算也常比較費時(shí)。那么,我們能否把它降維呢?例如,利用5 維空間的4 個(gè)點(diǎn)來(lái)代表這4 張圖,會(huì )更省空間。

答案是:可以的。但是,請想一想:5 維空間的每一個(gè)點(diǎn)只能含有5 個(gè)值( 特征),而上述每一張圖有12 個(gè)值,該怎么辦呢?這個(gè)降維過(guò)程,就稱(chēng)為:嵌入(Embedding )。即是:高維空間里的點(diǎn),對應到低維空間里的點(diǎn)。于是,可將兩個(gè)不同的高維空間里的點(diǎn),嵌入到同一個(gè)低維( 如3 維) 空間里( 圖10)。

1687496007592060.png

圖10 內含圖片引自《仙劍奇俠傳》

這表達了,仙劍奇俠傳里的“趙靈兒”喜歡“圖像-B”,而“李逍遙”喜歡“圖像-A”。負責嵌入的模型叫:編碼器(Encoder)。

人們想象可觀(guān)察空間里事物,然后由Encoder 來(lái)進(jìn)行編碼,即嵌入到里,而AI 則對里的嵌入數據( 通稱(chēng)為:Embedding code) 進(jìn)行操作,來(lái)組合、生成創(chuàng )新的東西( 仍在里),然后交給Decoder來(lái)還原出可觀(guān)察空間的事物( 如新圖像、或新文句等)。例如,更多創(chuàng )新組合( 圖11)。

1687496059357532.png

圖11

上圖里的灰色部分就是隱空間,而Diffusion 就是在這隱空間里,進(jìn)行圖像的組合創(chuàng )新。

4 結束語(yǔ)

深刻領(lǐng)會(huì )Encoder 和Decoder 的功能,非常有助于理解AIGC 的涵意。例如,理解Encoder 在進(jìn)行嵌入到低維空間時(shí),會(huì )過(guò)濾掉一些訊息。然后Decoder 必需( 依據其所學(xué)習的智慧) 把被過(guò)濾掉的細節部分弭補起來(lái)。

此時(shí),像Diffusion 在隱空間里的創(chuàng )新組合,以及其Decoder 所添加弭補的部分,就是Diffusion 生成的內容。

(本文來(lái)源于《電子產(chǎn)品世界》雜志2023年6月期)



關(guān)鍵詞: 202306 隱空間 編碼器

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>