「羊駝打籃球」怎麼畫?有人花了13美元逼DALL·E 2亮出真本事

充值之前,建議你先學會「調教」 DALL·E 2。

2022 年,DALL·E 算是火出圈了。

4 月初,OpenAI 的開創性模型 DALL·E 2 登場,為圖像生成和處理領域樹立了新的標杆。只需輸入簡短的文字 prompt,DALL·E 2 就可以生成全新的圖像,這些圖像以語義上十分合理的方式將不同且不相關的對象組合起來。

很多人都迫不及待地上手試試——博主 Joy Zhang 在 5 月初註冊了候補名單,並在 7 月底獲得了訪問許可權。在測試期間,使用者會收到積分(第一個月免費 50 個積分,之後每月 15 個積分),每次使用需要 1 個積分,每次使用會產生 3-4 張圖像。如果不夠用,還可以花 15 美元購買 115 個積分。

你可能已經在網上看到過各種精心挑選的圖片,展示了 DALL·E 2 的能力(提供了正確的創意 prompt)。

在一篇部落格中,她分享了一些演示,以說明如何從頭開始為主題創建一個可用的圖像:「一隻大羊駝打籃球」。

起點

給 DALL·E 2 喂 prompt 是一門學問。首先,下圖是「大羊駝打籃球」的生成結果:

為什麼 DALL·E 2 傾向於為這個 prompt 生成卡通圖像?她認為這與訓練期間模型沒怎麼見過大羊駝打籃球真實圖像有關。

她試圖通過添加關鍵詞「真實照片」更進一步:

這隻大羊駝看起來更逼真,但整個圖像開始看起來像是一個拙劣的 Photoshop 作品。在這種情況下,DALL·E 2 顯然需要一些手工技巧來創造一個更逼真的場景。

Prompt 工程

在 DALL·E 的上下文中,prompt 工程是指設計 prompt 以提供你想要的結果的過程。

DALL·E 2 Prompt Book 是一個很好的資源,包含使用攝影和藝術關鍵詞的 prompt 靈感的詳細列表。

地址:https://dallery.gallery/the-dalle-2-prompt-book/

為什麼這樣的事情是有必要的?因為從 DALL·E 2 獲得可用的輸出是不確定性的(尤其是當你不確定 DALL·E 2 的能力時)。以至於一家新的初創公司正在創建一個收費 1.99 美元的相關業務,以節省人們自己提出 prompt 的時間和金錢。

她個人最喜歡的發現是「戲劇背光」,下圖的 prompt 是:

「Film still of a llama dunking a basketball, low angle, extreme long shot, indoors, dramatic backlighting.」

告訴 DALL·E 2 你想要什麼很重要。顯然,從上下文來看,這隻大羊駝的著裝並不適合這種場合。然而,當指定「穿著運動衫的大羊駝」時,DALL·E 2 很好地實現了這個場景:

不止於此,為了給圖像添加一些戲劇性並真正讓這隻大羊駝飛起來,她需要指定諸如「扣籃」、「動作鏡頭 」之類的短語,或者她個人最喜歡的「穿著球衣的大羊駝像麥可喬丹一樣扣籃」:

你可能已經注意到:DALL·E 2 的構圖並不出色。

你會認為,從「扣籃」的上下文來看,大羊駝、球和籃筐的相對位置應該是顯而易見的。通常情況下,大羊駝的扣籃方式是錯誤,或者球的位置使大羊駝沒有按照真正想要的方式投籃。儘管 prompt 的所有元素都在那裡,但 DALL·E 2 並沒有真正理解它們之間的關係。

DALL·E 2 沒有真正「理解」場景的另一個特徵是偶爾出現的紋理混淆。在下圖中,籃網是由毛皮製成的(想想就覺得很詭異):

DALL·E 2 生成的面孔不夠逼真

DALL·E 2 生成的面孔似乎沒有那麼逼真,有人認為,這是模型為了避免重現在訓練中看到的面孔而故意為之,不然就可能遭遇之前 deepfake 遇到的問題。作者原本以為這僅適用於人類受試者,但顯然,它也適用於大羊駝。

有些結果簡直令人毛骨悚然:

有些結果簡直令人毛骨悚然

DALL·E 2 的其他一些限制

以下是她遇到的其他一些問題:

角度和鏡頭總是被忽略

無論她使用了多少「遠景」或「超遠景」的說法,都很難找到整隻大羊駝都能進入畫面的圖像。

在某些情況下,框架問題被完全忽略:

DALL·E 2 不會拼寫

DALL·E 2 不會拼寫

鑑於 DALL·E 2 很難理解各個成分之間的關係,不會拼寫倒也不足為奇。然而,它還是能夠在正確的上下文中嘗試一些成形的字母:

DALL·E 2 可能會因複雜或措辭不當的 prompt 而喜怒無常

有時,以某些方式添加關鍵詞會導致與預期完全不同的結果。

在這種情況下,prompt 的真正主題(穿著運動衫的大羊駝)被完全忽略了:

即使添加「蓬鬆」一詞也會導致性能顯著下降,並且在多個情況下看起來 DALL·E 2 只是…… 壞了:

在使用 DALL·E 2 時,重要的是要具體說明你想要什麼,而不要過度填充或添加多餘的詞彙。

DALL·E 2 的風格轉換能力令人印象深刻

你需要試試這個!

一旦有了關鍵詞主題,你就能以令人印象深刻的其他藝術風格生成圖像。比如「…… 的抽象畫」:

蒸汽波

蒸汽波:

數字藝術

數字藝術:

宮崎駿動畫電影截圖

宮崎駿動畫電影截圖:

宮崎駿動畫電影截圖

經過 100 多個積分的嘗試(大概 13 美元)和反覆試驗,她的最終圖像如下:

最終版的 prompt 是:「Film still of a llama in a jersey dunking a basketball like Michael Jordan, low angle, show from below, tilted frame, 35°, Dutch angle, extreme long shot, high detail, indoors, dramatic backlighting.」

圖像並不完美,但 DALL·E 2 設法完成了大約 80% 的要求。

嗯…… 怎麼不算成功呢?

參考連結:https://pub.towardsai.net/i-spent-15-in-dall-e-2-credits-creating-this-ai-image-and-heres-what-i-learned-52f352912025

相關文章

新一代梗圖之王,居然是它

新一代梗圖之王,居然是它

新一代梗圖之王,也可以是個 AI。 —— 文|杜晨 編輯|VickyXiao 題圖來源 | u/HeatSoup on Reddit 最近我...