Mochi Diffusion 的使用邏輯很簡單,下載、安裝、啟動,在左邊欄輸入你的文字描述,可以是語義式,也可以是關(guān)鍵詞堆積,還可以填寫排除關(guān)鍵詞,以更精確的生成你想要的圖片,可以是否為高清、有些模型還可以允許你上傳一張參考圖片,尺寸是 512×512,圖片生成的數(shù)量、迭代步數(shù)、關(guān)鍵詞權(quán)重都可以自定義。
但是模型的選擇很重要,每一個模型都有自己擅長的風(fēng)格和領(lǐng)域,Stable Diffusion 有非常豐富的模型供用戶選擇,如果你不知道怎么構(gòu)建、轉(zhuǎn)換模型,可以直接在 huggingface 下載這些模型,這些模型也是在不斷更新迭代的。
拉到頁面底部,可以看到不少模型。
這些模型下載后都需要解壓縮并放在 Mac 本地這個目錄,你可以像我這樣挑選幾個比較有代表性的模型試試,每一款的主頁都有案例圖可以參考。
點擊模型名稱進入主頁:
每一個模型主頁都有 sample,可以看出這個模型的風(fēng)格,就是動漫的,圖片底部是關(guān)鍵詞
將目光移動到 Files and versions,Apple 芯片選擇目錄里的 split_einsum 目錄,點進去。
然后就能看到這個模型的壓縮包了,點擊右側(cè)的下載箭頭開始下載,一般這類模型都是 2GB 或者更大的,下載速度還可以,但必須掛那啥才行!
下載好模型,就像前面說的解壓縮放置在 Mochi Diffusion 的 Models 目錄即可,在初次運行模型時, 神經(jīng)網(wǎng)絡(luò)引擎可能需要約 2 分鐘編譯緩存,后續(xù)運行速度會顯著提高。一張圖片正常 5 秒就會出來。
以下是我用 stable diffusion base v2.1 的模型生成的一個古典式的德國女人,金發(fā)藍(lán)眼睛,但是得到的圖片顯然不是我想要的,因為我的本意是想要一張典型的德國女人圖片,所以我換了一下模型并更新了關(guān)鍵詞。
但是效果還是不好,這個模型總是生成日本動漫風(fēng)格的歐洲女孩形象,我還加了 no japanese style,還是不行,然后我又換了一個模型 Realistic
這次加了一張參考圖片,谷歌找的,關(guān)鍵詞改成了 a german woman,這回行了,不過這個藍(lán)眼睛也太夸張了,還得繼續(xù)調(diào)教,我看網(wǎng)上別人通過 Stable Diffusion 訓(xùn)練出的模型,那個圖片相當(dāng)?shù)膶憣崳磥砦疫€得多學(xué)習(xí)!
如果你正在研究 AI 畫圖歡迎在評論區(qū)與大家分享經(jīng)驗,在接觸 Stable Diffusion 之前我先用的 MidJourney,但這款產(chǎn)品我感覺并不好用,而且試用版不讓出圖片了。
注意:使用 Mochi Diffusion 需要確認(rèn)以下環(huán)境具備:
在蘋果設(shè)備上運行 Stable Diffusion 和 Core ML + diffusers 生成的圖像。
蘋果在 macOS 13.1 和 iOS 16.2 中發(fā)布了針對 Stable Diffusion 的 Core ML 優(yōu)化,并通過一個代碼庫對部署過程進行了詳細(xì)講解。
在三款蘋果設(shè)備(M1 iPad Pro 8GB、M1 MacBook Pro 16GB、M2 MacBook Air 8GB)上的測試結(jié)果表明,蘋果推出的相關(guān)優(yōu)化基本可以保證最新版 Stable Diffusion(SD 2.0)在半分鐘內(nèi)生成一張分辨率為 512×512 的圖。
對于蘋果的這一舉動,不少人感嘆,一個開源社區(qū)構(gòu)建的模型已經(jīng)優(yōu)秀到可以讓大公司主動采用,確實非常了不起。
另外,大家也開始猜測,未來,蘋果會不會直接把 Stable Diffusion 放到自己的設(shè)備里?
自 2022 年 8 月首次公開發(fā)布以來,Stable Diffusion 已經(jīng)被藝術(shù)家、開發(fā)人員和愛好者等充滿活力的社區(qū)廣泛采用,能夠以最少的文本 prompt 創(chuàng)建前所未有的視覺內(nèi)容。相應(yīng)地,社區(qū)在幾周內(nèi)就圍繞這個核心技術(shù)構(gòu)建了一個包含擴展和工具的龐大生態(tài)系統(tǒng)。Stable Diffusion 已經(jīng)變得個性化,而且可以拓展到英語以外的其他語言,這要歸功于像 Hugging Face diffusers 這樣的開源項目。
除了通過文本 prompt 生成圖像,開發(fā)人員還發(fā)現(xiàn)了 Stable Diffusion 其他創(chuàng)造性的用途,如圖像編輯、修復(fù)、補全、超分辨率、風(fēng)格遷移。隨著 Stable Diffusion 應(yīng)用的增多,要想打造出任何地方的創(chuàng)意人員都能使用的應(yīng)用程序,就需要確保開發(fā)者能夠有效地利用這項技術(shù),這一點至關(guān)重要。
在所有應(yīng)用程序中,模型在何處運行是 Stable Diffusion 的一大關(guān)鍵問題。有很多原因可以解釋為什么在設(shè)備上部署 Stable Diffusion 比基于服務(wù)器的方法更可取。首先,終端用戶的隱私可以受到保護,因為用戶提供的作為模型輸入的任何數(shù)據(jù)都保留在用戶自己的設(shè)備上。
其次,在初次下載之后,用戶不需要連接互聯(lián)網(wǎng)就可以使用該模型。最后,在本地部署此模型能讓開發(fā)人員減少或消除服務(wù)器方面的成本。
用 Stable Diffusion 產(chǎn)出可觀的結(jié)果需要經(jīng)過長時間的迭代,因此在設(shè)備上部署模型的核心挑戰(zhàn)之一在于生成結(jié)果的速率。這需要執(zhí)行一個復(fù)雜的流程,包括 4 個不同的神經(jīng)網(wǎng)絡(luò),總計約 12.75 億個參數(shù)。要了解更多關(guān)于如何優(yōu)化這種大小和復(fù)雜性的模型,以在 Apple Neural Engine 上運行,可以參閱以前的文章:Deploying Transformers on the Apple Neural Engine。
上述段落轉(zhuǎn)自:https://m.thepaper.cn/baijiahao_21047311
]]>