Mochi Diffusion: 在 Mac 上原生運(yùn)行 Stable Diffusion

Mochi Diffusion

Mochi Diffusion 是一款在 Mac 上原生運(yùn)行 Stable Diffusion 的客戶端,內(nèi)置了?Apple 的 Core ML Stable Diffusion 框架,以實(shí)現(xiàn)在搭載 Apple 芯片的 Mac 上用極低的內(nèi)存占用發(fā)揮出最優(yōu)性能。

功能

  • 極致性能和極低內(nèi)存占用 (使用神經(jīng)網(wǎng)絡(luò)引擎時(shí) ~150MB)
  • 在所有搭載 Apple 芯片的 Mac 上充分發(fā)揮神經(jīng)網(wǎng)絡(luò)引擎的優(yōu)勢(shì)
  • 生成圖像時(shí)無需聯(lián)網(wǎng)
  • 圖像轉(zhuǎn)圖像(也被稱為 Image2Image)
  • 在圖像的 EXIF 信息中存儲(chǔ)所有的關(guān)鍵詞(在訪達(dá)的“顯示簡(jiǎn)介”窗口中查看)
  • 使用 RealESRGAN 放大生成的圖像
  • 自動(dòng)保存 & 恢復(fù)圖像
  • 自定義 Stable Diffusion Core ML 模型
  • 無需擔(dān)心損壞的模型
  • 使用 macOS 原生框架 SwiftUI 開發(fā)

Mochi Diffusion 的使用邏輯很簡(jiǎn)單,下載、安裝、啟動(dòng),在左邊欄輸入你的文字描述,可以是語義式,也可以是關(guān)鍵詞堆積,還可以填寫排除關(guān)鍵詞,以更精確的生成你想要的圖片,可以是否為高清、有些模型還可以允許你上傳一張參考圖片,尺寸是 512×512,圖片生成的數(shù)量、迭代步數(shù)、關(guān)鍵詞權(quán)重都可以自定義。

但是模型的選擇很重要,每一個(gè)模型都有自己擅長(zhǎng)的風(fēng)格和領(lǐng)域,Stable Diffusion 有非常豐富的模型供用戶選擇,如果你不知道怎么構(gòu)建、轉(zhuǎn)換模型,可以直接在 huggingface 下載這些模型,這些模型也是在不斷更新迭代的。

進(jìn)入這個(gè)頁面

拉到頁面底部,可以看到不少模型。

這些模型下載后都需要解壓縮并放在 Mac 本地這個(gè)目錄,你可以像我這樣挑選幾個(gè)比較有代表性的模型試試,每一款的主頁都有案例圖可以參考。

點(diǎn)擊模型名稱進(jìn)入主頁:

每一個(gè)模型主頁都有 sample,可以看出這個(gè)模型的風(fēng)格,就是動(dòng)漫的,圖片底部是關(guān)鍵詞

將目光移動(dòng)到 Files and versions,Apple 芯片選擇目錄里的 split_einsum 目錄,點(diǎn)進(jìn)去。

然后就能看到這個(gè)模型的壓縮包了,點(diǎn)擊右側(cè)的下載箭頭開始下載,一般這類模型都是 2GB 或者更大的,下載速度還可以,但必須掛那啥才行!

下載好模型,就像前面說的解壓縮放置在 Mochi Diffusion 的 Models 目錄即可,在初次運(yùn)行模型時(shí), 神經(jīng)網(wǎng)絡(luò)引擎可能需要約 2 分鐘編譯緩存,后續(xù)運(yùn)行速度會(huì)顯著提高。一張圖片正常 5 秒就會(huì)出來。

以下是我用 stable diffusion base v2.1 的模型生成的一個(gè)古典式的德國(guó)女人,金發(fā)藍(lán)眼睛,但是得到的圖片顯然不是我想要的,因?yàn)槲业谋疽馐窍胍粡埖湫偷牡聡?guó)女人圖片,所以我換了一下模型并更新了關(guān)鍵詞。

但是效果還是不好,這個(gè)模型總是生成日本動(dòng)漫風(fēng)格的歐洲女孩形象,我還加了 no japanese style,還是不行,然后我又換了一個(gè)模型 Realistic

這次加了一張參考圖片,谷歌找的,關(guān)鍵詞改成了 a german woman,這回行了,不過這個(gè)藍(lán)眼睛也太夸張了,還得繼續(xù)調(diào)教,我看網(wǎng)上別人通過 Stable Diffusion 訓(xùn)練出的模型,那個(gè)圖片相當(dāng)?shù)膶憣?shí),看來我還得多學(xué)習(xí)!

如果你正在研究 AI 畫圖歡迎在評(píng)論區(qū)與大家分享經(jīng)驗(yàn),在接觸 Stable Diffusion 之前我先用的 MidJourney,但這款產(chǎn)品我感覺并不好用,而且試用版不讓出圖片了。

注意:使用 Mochi Diffusion 需要確認(rèn)以下環(huán)境具備:

  • Apple 芯片的 Mac (M1 及更新)
  • macOS Ventura 13.1+
  • Xcode 14.2 (自行構(gòu)建)

關(guān)于 Stable Diffusion

在蘋果設(shè)備上運(yùn)行 Stable Diffusion 和 Core ML + diffusers 生成的圖像。

蘋果在 macOS 13.1 和 iOS 16.2 中發(fā)布了針對(duì) Stable Diffusion 的 Core ML 優(yōu)化,并通過一個(gè)代碼庫對(duì)部署過程進(jìn)行了詳細(xì)講解。

在三款蘋果設(shè)備(M1 iPad Pro 8GB、M1 MacBook Pro 16GB、M2 MacBook Air 8GB)上的測(cè)試結(jié)果表明,蘋果推出的相關(guān)優(yōu)化基本可以保證最新版 Stable Diffusion(SD 2.0)在半分鐘內(nèi)生成一張分辨率為 512×512 的圖。

對(duì)于蘋果的這一舉動(dòng),不少人感嘆,一個(gè)開源社區(qū)構(gòu)建的模型已經(jīng)優(yōu)秀到可以讓大公司主動(dòng)采用,確實(shí)非常了不起。

另外,大家也開始猜測(cè),未來,蘋果會(huì)不會(huì)直接把 Stable Diffusion 放到自己的設(shè)備里?

為什么要讓 Stable Diffusion 可以在蘋果設(shè)備上運(yùn)行?

自 2022 年 8 月首次公開發(fā)布以來,Stable Diffusion 已經(jīng)被藝術(shù)家、開發(fā)人員和愛好者等充滿活力的社區(qū)廣泛采用,能夠以最少的文本 prompt 創(chuàng)建前所未有的視覺內(nèi)容。相應(yīng)地,社區(qū)在幾周內(nèi)就圍繞這個(gè)核心技術(shù)構(gòu)建了一個(gè)包含擴(kuò)展和工具的龐大生態(tài)系統(tǒng)。Stable Diffusion 已經(jīng)變得個(gè)性化,而且可以拓展到英語以外的其他語言,這要?dú)w功于像 Hugging Face diffusers 這樣的開源項(xiàng)目。

除了通過文本 prompt 生成圖像,開發(fā)人員還發(fā)現(xiàn)了 Stable Diffusion 其他創(chuàng)造性的用途,如圖像編輯、修復(fù)、補(bǔ)全、超分辨率、風(fēng)格遷移。隨著 Stable Diffusion 應(yīng)用的增多,要想打造出任何地方的創(chuàng)意人員都能使用的應(yīng)用程序,就需要確保開發(fā)者能夠有效地利用這項(xiàng)技術(shù),這一點(diǎn)至關(guān)重要。

在所有應(yīng)用程序中,模型在何處運(yùn)行是 Stable Diffusion 的一大關(guān)鍵問題。有很多原因可以解釋為什么在設(shè)備上部署 Stable Diffusion 比基于服務(wù)器的方法更可取。首先,終端用戶的隱私可以受到保護(hù),因?yàn)橛脩籼峁┑淖鳛槟P洼斎氲娜魏螖?shù)據(jù)都保留在用戶自己的設(shè)備上。

其次,在初次下載之后,用戶不需要連接互聯(lián)網(wǎng)就可以使用該模型。最后,在本地部署此模型能讓開發(fā)人員減少或消除服務(wù)器方面的成本。

用 Stable Diffusion 產(chǎn)出可觀的結(jié)果需要經(jīng)過長(zhǎng)時(shí)間的迭代,因此在設(shè)備上部署模型的核心挑戰(zhàn)之一在于生成結(jié)果的速率。這需要執(zhí)行一個(gè)復(fù)雜的流程,包括 4 個(gè)不同的神經(jīng)網(wǎng)絡(luò),總計(jì)約 12.75 億個(gè)參數(shù)。要了解更多關(guān)于如何優(yōu)化這種大小和復(fù)雜性的模型,以在 Apple Neural Engine 上運(yùn)行,可以參閱以前的文章:Deploying Transformers on the Apple Neural Engine。

上述段落轉(zhuǎn)自:https://m.thepaper.cn/baijiahao_21047311

Mochi Diffusion
評(píng)論 1 條