Midjourney V5 與 V4 哪個更好?綜合評測,Prompt 全公開!

最近是不是被這張在網上轉瘋了的情侶照刷爆圈了。

第一眼是不是以為是真人拍攝

第一眼是不是以為是真人拍攝。

但實際是 AI 生成的,來自 Midjourney V5 版本產出的一張 AI 繪畫。

Midjourney V5 已發佈多天,今天將做個全面評測:

  • V5 的驚豔之處:photograpy,CG rendering,HD film style 類生成。
  • Prompt 控制準確度的基本測試。
  • V5 比 V4 更好的地方:在 V5 裡可以準確控制鏡頭語言,光影也更真實自然。
  • V5 相比 V4 倒退的地方:V5 會讓構圖更碎片化、產生更多不必要的細節,成像的銳利和清晰程度下降。
V5 的驚豔之處

V5 的驚豔之處

下面是一些用 V5 生成的照片寫實類 photo realism。

攝影一隻爬行動物的美麗眼睛,蜥蜴的眼睛,藍色和金色的瞳孔,特寫視圖,黑暗清晰的背景,極簡主義,藝術,大氣,傑作,HDR,超細節,500px

水下場景的表現非常不錯,光影和水波反射的處理都非常真實。

水下泳池攝影,水下奔跑的馬的照片,全身馬,明亮,藝術,魔術時間,大氣,傑作,生動的色彩,HDR,超逼真,銳利聚焦,超級細節,500px,8K,壁紙

水下泳池攝影,微笑的嬰兒在水下游泳的驚人照片,高速攝影,HDR,藝術,極簡主義,超現實,魔術時間,日落,金色閃耀,大氣,傑作,8K,壁紙

美術攝影,美麗的眼睛,超逼真的瞳孔,特寫視圖,深色清晰背景,極簡主義,藝術,大氣,傑作,HDR,黃金比例構圖,超詳細,500px

攝影,一個透明的水晶立方體,高高地漂浮在天空, 動盪的大海,北冰洋,日落,魔術時間,HDR,極簡主義,藝術,大氣,未來派,超詳細,8K壁紙,HDR,500px

美術攝影,祈禱之手,超級逼真,特寫視圖,深色清晰背景,極簡主義,藝術,大氣,傑作,HDR,黃金比例構圖,超詳細,500px

黑桃王牌和銀彈的特寫鏡頭,在舊西方沙龍橡木桌上的一杯威士忌旁邊

金屬材質的渲染

金屬材質的渲染

液態金屬,流動 飛濺,深色和金色,絲帶般的光澤,逼真,工作室光線,驚人的紋理,銳利的焦點(上)| 喬治·詹森(下)的作品

黑白膠片風格和電影風格的照片生成

城市景觀

城市景觀

城市景觀

一個穿著大衣的老人走向白雪皚皚的海灘,冬天的海洋,逼真,電影,超詳細

令人驚歎的自然景觀, 教堂

令人驚歎的自然景觀, 教堂

你可以用a scene from the movie ****,配合一個超寬的比例,生成很多電影場景,比如下面五張教父系列。

電影「教父」中的一個場景,黑色電影,自然光,富士膠片,豪華,歷史,4k

街景,小教堂,黑色電影,廣角鏡頭,膠片照明,富士膠片,豪華,電影靜止圖像

人像生成

人像生成

人像生成

編輯風格的照片中特寫鏡頭,一個年輕的黑髮法國女人,坐在大理石桌旁,穿著黑色連衣裙和鑽石項鍊,在裝飾藝術風格的餐廳裡,天鵝絨、黃銅和鏡子裝飾,寶石色調調色盤,西榆樹,枝形吊燈,餐廳,晚上,自然採光,富士膠片,豪華,歷史,4k

肖像,半身,超細緻,高品質
肖像,半身,超細緻,高品質

肖像,半身,超細緻,高品質

支持 image split (下面的生成看起來像是兩張圖,但實際上是一張,在 Prompt 裡使用 image split into 2,就可以得到同一角色 + 同一服飾的在不同視角的兩種生成結果。你也可以嘗試 2 倍 以上的 split,然後再進行高倍 upscale)。

一張近景,一張膝高鏡頭。

一張近景,一張膝高鏡頭
一張近景,一張膝高鏡頭

V5 也支持 3:1 這種超寬比例,或是 1:3 超高比例。

3:1超寬比例
3:1超寬比例

3:1超寬比例

CG 渲染類的生成

CG 渲染類的生成

一隻和貓說話的老人,賽博龐克,電影,超細節,虛幻引擎,自由度,超解析度,百萬像素,電影照明,抗鋸齒,CGI,VFX,SFX,超極簡主義,超逼真,體積,逼真,全綵,寫實,16K,銳利聚焦

人形臉的半機械人機器人/抱著黑貓,賽博龐克,超級細節,虛幻引擎,自由度,超解析度,百萬像素,電影照明,抗鋸齒,CGI,VFX,SFX,超最大化,超現實,體積,逼真,全綵,逼真,16K,清晰聚焦

賽博龐克戰士的半身肖像,超現實,半身,HDR,鮮豔的色彩,電影,超細節,虛幻引擎,自由度,超解析度,百萬像素,電影照明,抗鋸齒,CGI,VFX,SFX,超極簡主義,超逼真,體積,逼真,全綵,16K, 清晰聚焦

插畫風格

未來主義城市景觀,裝飾藝術風格,老爺車
未來主義城市景觀,裝飾藝術風格,老爺車

未來主義城市景觀,裝飾藝術風格,老爺車

爵士樂演奏,藝術,褪色的藍色

爵士樂演奏,藝術,褪色的藍色

爵士樂演奏,藝術,褪色的藍色

一個站在火中樹前的男孩,長長的陰影,夜晚,向量藝術,grphic風格,超詳細(左)冬天,迷你主義者(右)

Prompt 控制準確度的基本測試

Prompt 控制準確度的基本測試

穿白衣服的男人坐在紅椅子上拿著藍色的水杯。最常見的染色溢出問題還是很嚴重。

V4 在上, V5 在下

V4 在上, V5 在下

V4 在上, V5 在下

一個穿著白色西裝的男人坐在紅色椅子上,手裡拿著一個藍色的杯子

「抱貓的機器人」, 這個 Prompt 用 V5 跑了好幾次,每次都是貓頭機器人,新版本中兩個對象貌似出現了比 V4 更嚴重的混淆問題。

V4 在上, V5 在下

V4 在上, V5 在下

抱著虎斑貓的機器人

抱著虎斑貓的機器人

3 個檸檬和 2 個玻璃碗,數量依然不能精確控制。不過 V5 的水彩渲染要遠好於 V4,但油畫風格的渲染都一樣不是很好。

V4 在上, V5 在下

V4 在上, V5 在下

靜物油畫,2個玻璃碗和3個檸檬

靜物油畫,2個玻璃碗和3個檸檬

V4 在上, V5 在下

V4 在上, V5 在下

靜物水彩畫,2個玻璃碗和3個檸檬

靜物水彩畫,2個玻璃碗和3個檸檬

馬依然不能騎宇航員

一匹馬騎在宇航員的背上

一匹馬騎在宇航員的背上

多物體的空間關係也仍然無法精確控制,不過 V5 起碼每一張都生成了一把椅子。

V4 在上, V5 在下

V4 在上, V5 在下

一個球放在盒子裡,盒子放在椅子下面

一個球放在盒子裡,盒子放在椅子下面

V5 相比 V4 的優勢之處

V5 相比 V4 的優勢之處

V5 在鏡頭語言的控制上,相比 V4 實現了非常明顯的進步,光影的渲染也更寫實、自然。AI 感已經變得很弱了,幾乎肉眼難辨。

POV 第一視角

V4在上,V5在下

V4在上,V5在下

三隻貓看著POV鏡頭

三隻貓看著POV鏡頭

俯拍鏡頭overhead shot

V4在上,V5在下

V4在上,V5在下

3只貓看著俯拍鏡頭

3只貓看著俯拍鏡頭

低角度鏡頭

V5有一張做到了非常標準,V4 基本是不太標準。

V4在上,V5在下

V4在上,V5在下

3只貓看著超低角度鏡頭

3只貓看著超低角度鏡頭

高角度鏡頭

V4在上,V5在下

V4在上,V5在下

3只貓看著超高角度鏡頭

3只貓看著超高角度鏡頭

淺景深,V5 比 V4 自然得多。

V4在上,V5在下

V4在上,V5在下

3只貓看著淺景鏡頭

3只貓看著淺景鏡頭

深景深

V4在上,V5在下

V4在上,V5在下

3只貓看著深景鏡頭

3只貓看著深景鏡頭

V4 在生成 bird eye view 的同時還生成了 bird 和 eye。

V4在上,V5在下

V4在上,V5在下

白色沙灘的鳥瞰圖,海浪泡沫

白色沙灘的鳥瞰圖,海浪泡沫

全身像。大部分時候,用 V4 生成 full body 都不是真正的全身像(沒有腳部或者膝蓋以下),V5 表現的更好一些。

V4在上,V5在下

V4在上,V5在下

殭屍新娘的全身肖像

殭屍新娘的全身肖像

半身像。V4 一個很嚴重的問題是每組 4v1 生成的結構構圖都過於接近,且人像太容易出現中心對稱構圖。V5 是增加了每批次 4 個種子的隨機變數,每批結果的構圖會更多樣。

下面的對比可以觀察到這個結果。

V4在上,V5在下

V4在上,V5在下

殭屍新娘的半身肖像

殭屍新娘的半身肖像

側面像 + knee shot

V4在上,V5在下

V4在上,V5在下

殭屍新娘的側視圖肖像,膝蓋拍攝

殭屍新娘的側視圖肖像,膝蓋拍攝

廣角,場景和構圖更多樣

V4在上,V5在下

V4在上,V5在下

騎著馬的牛仔在奔跑,全身,廣角鏡頭

騎著馬的牛仔在奔跑,全身,廣角鏡頭

V5 相比 V4 的不足之處

V5 相比 V4 的不足之處

雖然攝影類風格的生成更寫實和自然,但比較下面放大的殭屍新娘和牛仔騎馬場景,可以發現 V5 的生成都像打了柔光,都籠罩上了一層影樓濾鏡或電影濾鏡。相比V4,雖然 AI 感降低了,但也一定程度上犧牲掉了成像的細節,清晰和銳利程度都明顯下降。

V4在上,V5在下

V4在上,V5在下

V4在上,V5在下
V4在上,V5在下

V4在上,V5在下

V4在上,V5在下

V5 傾向於照片化一切生成結果,而且有一種 「糖水感」。

V4在上,V5在下

V4在上,V5在下

V4在上,V5在下

令人驚歎的未來主義小屋漂浮在海平面上,動盪的大海,傑作

人物,水墨藝術,側視圖

人物,水墨藝術,側視圖

下面兩組都是藝術媒介測試,鉛筆素描和版畫風格的弗蘭肯斯坦,V5 會過度添加細節,也基本丟失了藝術媒介的特徵。所以想用 MJ 生成 fine-art 類作品的 (除了水彩)。

V4在上,V5在下

V4在上,V5在下

弗蘭肯斯坦肖像的鉛筆畫,藝術,詳細

弗蘭肯斯坦肖像的鉛筆畫,藝術,詳細

V4在上,V5在下

V4在上,V5在下

V4在上,V5在下

弗蘭肯斯坦肖像的美術木刻製作,藝術,傑作,詳細

V5 生成構圖更碎片化,同時也有明顯的銳度丟失的傾向。

V5 會傾向於生成過多不必要的細節,對畫面主題的美感和結構都有很負面的影響。

V4在上,V5在下

V4在上,V5在下

V4在上,V5在下

再次生成時,我去掉了 Prompt 裡的 「super-detailed」,情況並沒有得到改善。

以上對比評測都是用同樣 Prompt 在兩個版本里首次生成的結果,儘量避免了人為的 cherry picking。

在生成不同主題和風格的作品時,你是會選擇 V4 還是 V5?希望這個對比評測能對你有所幫助。

參考連結:

https://medium.com/@catmus2048/midjourney-v5-%E6%AF%94-v4-%E6%9B%B4%E5%A5%BD%E5%90%97-%E7%BB%BC%E5%90%88%E8%AF%84%E6%B5%8B-prompt-%E5%85%A8%E5%85%AC%E5%BC%80-bd8a1d909867

相關文章