OpenAI 的 DALL-E AI 圖像生成器現在也可以編輯圖片了 發(fā)布人:傳感器技術(shù) 時(shí)間:2022-04-26 來(lái)源:工程師 加入技術(shù)交流群 掃碼加入和技術(shù)大咖面對面交流海量資料庫查詢(xún) 發(fā)布文章 DALL-E 2 結果為“泰迪熊將閃閃發(fā)光的化學(xué)物質(zhì)混合為瘋狂的科學(xué)家,蒸汽朋克”。 人工智能研究小組 OpenAI創(chuàng )建了一個(gè)新版本的 DALL-E,它的文本到圖像生成程序。DALL-E 2 具有原始系統的高分辨率和低延遲版本,可生成描繪用戶(hù)描述的圖片。它還包括新功能,例如編輯現有圖像。與之前的 OpenAI 工作一樣,該工具并未直接向公眾發(fā)布。但研究人員可以在線(xiàn)注冊以預覽該系統,OpenAI 希望以后可以將其用于第三方應用程序。最初的 DALL-E 是藝術(shù)家“薩爾瓦多·達利”和機器人“WALL-E”的組合,于2021 年 1 月首次亮相。這是對人工智能視覺(jué)表達概念能力的有限但引人入勝的測試,從對法蘭絨襯衫人體模型的平凡描繪到“烏龜制成的長(cháng)頸鹿”或蘿卜遛狗的插圖。當時(shí),OpenAI 表示將繼續在該系統的基礎上進(jìn)行構建,同時(shí)檢查潛在的危險,例如圖像生成偏差或錯誤信息的產(chǎn)生。它試圖使用技術(shù)保障和新的內容策略來(lái)解決這些問(wèn)題,同時(shí)減少其計算負載并推動(dòng)模型的基本功能。“戴貝雷帽和黑色高領(lǐng)毛衣的柴犬狗”的 DALL-E 2 結果。DALL-E 2 的一項新功能是修復,它在更精細的級別上應用了 DALL-E 的文本到圖像功能。用戶(hù)可以從現有圖片開(kāi)始,選擇一個(gè)區域,然后告訴模型進(jìn)行編輯。例如,您可以將客廳墻上的一幅畫(huà)擋住,然后用另一幅畫(huà)替換它,或者在咖啡桌上添加一瓶鮮花。該模型可以填充(或移除)對象,同時(shí)考慮房間中陰影方向等細節。另一個(gè)功能,變體,有點(diǎn)像不存在的圖片的圖像搜索工具。用戶(hù)可以上傳起始圖像,然后創(chuàng )建一系列與其類(lèi)似的變體。他們還可以混合兩個(gè)圖像,生成具有兩者元素的圖片。生成的圖像為 1,024 x 1,024 像素,比原始模型提供的 256 x 256 像素有了飛躍。 DALL-E 2 建立在 CLIP 之上,這是 OpenAI 去年也宣布的計算機視覺(jué)系統。OpenAI 研究科學(xué)家 Prafulla Dhariwal 說(shuō):“DALL-E 1 只是從語(yǔ)言中提取了我們的 GPT-3 方法并將其應用于生成圖像:我們將圖像壓縮成一系列單詞,我們剛剛學(xué)會(huì )了預測接下來(lái)會(huì )發(fā)生什么?!?/span>許多文本 AI 應用程序使用的 GPT 模型. 但單詞匹配并不一定能捕捉到人類(lèi)認為最重要的品質(zhì),而且預測過(guò)程限制了圖像的真實(shí)性。CLIP 旨在以人類(lèi)的方式查看圖像并總結其內容,OpenAI 在此過(guò)程中迭代以創(chuàng )建“unCLIP”——一個(gè)從描述開(kāi)始并朝著(zhù)圖像前進(jìn)的倒置版本。DALL-E 2 使用稱(chēng)為擴散的過(guò)程生成圖像,Dhariwal 將其描述為從“點(diǎn)袋”開(kāi)始,然后以越來(lái)越多的細節填充圖案。房間的現有圖像,在一個(gè)角落添加了火烈鳥(niǎo)。有趣的是,關(guān)于 unCLIP 的一篇論文草稿說(shuō)它部分抵制了 CLIP 的一個(gè)非常有趣的弱點(diǎn):人們可以通過(guò)用一個(gè)表示其他東西的詞(如 iPod )。作者說(shuō),變體工具“仍然很有可能生成蘋(píng)果圖片”,即使使用的是 CLIP 無(wú)法識別為史密斯奶奶的錯誤標簽圖片。相反,“盡管該標題的相對預測概率非常高,但該模型從未生成 iPod 的圖片?!?/span>DALL-E 的完整模型從未公開(kāi)發(fā)布,但其他開(kāi)發(fā)人員在過(guò)去一年中已經(jīng)磨練了自己的工具來(lái)模仿它的一些功能。最受歡迎的主流應用程序之一是 Wombo 的 Dream 移動(dòng)應用程序,它可以生成用戶(hù)以各種藝術(shù)風(fēng)格描述的任何圖片。OpenAI 今天沒(méi)有發(fā)布任何新模型,但開(kāi)發(fā)人員可以使用其技術(shù)發(fā)現來(lái)更新他們自己的工作。DALL-E 2 結果為“一碗看起來(lái)像怪物的湯,用羊毛編織而成?!?/span>OpenAI 已經(jīng)實(shí)施了一些內置的保護措施。該模型是根據剔除一些令人反感的材料的數據進(jìn)行訓練的,理想情況下會(huì )限制其產(chǎn)生令人反感的內容的能力。有一個(gè)水印表明該作品的 AI 生成性質(zhì),盡管理論上它可以被裁剪掉。作為一種先發(fā)制人的反濫用功能,該模型也無(wú)法根據名稱(chēng)生成任何可識別的面孔——即使要求像蒙娜麗莎這樣的東西,顯然也會(huì )從繪畫(huà)中返回真實(shí)面孔的變體。DALL-E 2 將由經(jīng)過(guò)審查的合作伙伴進(jìn)行測試,但有一些警告。禁止用戶(hù)上傳或生成“非 G 級”和“可能造成傷害”的圖像,包括任何涉及仇恨符號、裸露、淫穢手勢或“與正在進(jìn)行的重大地緣政治事件相關(guān)的重大陰謀或事件”的內容。他們還必須披露人工智能在生成圖像中的作用,并且他們不能通過(guò)應用程序或網(wǎng)站將生成的圖像提供給其他人——所以你最初不會(huì )看到像 Dream 這樣的由 DALL-E 驅動(dòng)的版本。但 OpenAI 希望稍后將其添加到該組織的 API 工具集中,使其能夠為第三方應用程序提供動(dòng)力。Dhariwal 說(shuō):“我們希望在這里繼續進(jìn)行分階段的過(guò)程,這樣我們就可以從獲得的反饋中不斷評估如何安全地發(fā)布這項技術(shù)?!?/span> *博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。