Mochi Diffusion: 在 Mac 上原生運行 Stable Diffusion

Mochi Diffusion

Mochi Diffusion 是一款在 Mac 上原生運行 Stable Diffusion 的客戶端,內置了?Apple 的 Core ML Stable Diffusion 框架,以實現在搭載 Apple 芯片的 Mac 上用極低的內存占用發(fā)揮出最優(yōu)性能。

功能

  • 極致性能和極低內存占用 (使用神經網絡引擎時 ~150MB)
  • 在所有搭載 Apple 芯片的 Mac 上充分發(fā)揮神經網絡引擎的優(yōu)勢
  • 生成圖像時無需聯(lián)網
  • 圖像轉圖像(也被稱為 Image2Image)
  • 在圖像的 EXIF 信息中存儲所有的關鍵詞(在訪達的“顯示簡介”窗口中查看)
  • 使用 RealESRGAN 放大生成的圖像
  • 自動保存 & 恢復圖像
  • 自定義 Stable Diffusion Core ML 模型
  • 無需擔心損壞的模型
  • 使用 macOS 原生框架 SwiftUI 開發(fā)

Mochi Diffusion 的使用邏輯很簡單,下載、安裝、啟動,在左邊欄輸入你的文字描述,可以是語義式,也可以是關鍵詞堆積,還可以填寫排除關鍵詞,以更精確的生成你想要的圖片,可以是否為高清、有些模型還可以允許你上傳一張參考圖片,尺寸是 512×512,圖片生成的數量、迭代步數、關鍵詞權重都可以自定義。

但是模型的選擇很重要,每一個模型都有自己擅長的風格和領域,Stable Diffusion 有非常豐富的模型供用戶選擇,如果你不知道怎么構建、轉換模型,可以直接在 huggingface 下載這些模型,這些模型也是在不斷更新迭代的。

進入這個頁面

拉到頁面底部,可以看到不少模型。

這些模型下載后都需要解壓縮并放在 Mac 本地這個目錄,你可以像我這樣挑選幾個比較有代表性的模型試試,每一款的主頁都有案例圖可以參考。

點擊模型名稱進入主頁:

每一個模型主頁都有 sample,可以看出這個模型的風格,就是動漫的,圖片底部是關鍵詞

將目光移動到 Files and versions,Apple 芯片選擇目錄里的 split_einsum 目錄,點進去。

然后就能看到這個模型的壓縮包了,點擊右側的下載箭頭開始下載,一般這類模型都是 2GB 或者更大的,下載速度還可以,但必須掛那啥才行!

下載好模型,就像前面說的解壓縮放置在 Mochi Diffusion 的 Models 目錄即可,在初次運行模型時, 神經網絡引擎可能需要約 2 分鐘編譯緩存,后續(xù)運行速度會顯著提高。一張圖片正常 5 秒就會出來。

以下是我用 stable diffusion base v2.1 的模型生成的一個古典式的德國女人,金發(fā)藍眼睛,但是得到的圖片顯然不是我想要的,因為我的本意是想要一張典型的德國女人圖片,所以我換了一下模型并更新了關鍵詞。

但是效果還是不好,這個模型總是生成日本動漫風格的歐洲女孩形象,我還加了 no japanese style,還是不行,然后我又換了一個模型 Realistic

這次加了一張參考圖片,谷歌找的,關鍵詞改成了 a german woman,這回行了,不過這個藍眼睛也太夸張了,還得繼續(xù)調教,我看網上別人通過 Stable Diffusion 訓練出的模型,那個圖片相當的寫實,看來我還得多學習!

如果你正在研究 AI 畫圖歡迎在評論區(qū)與大家分享經驗,在接觸 Stable Diffusion 之前我先用的 MidJourney,但這款產品我感覺并不好用,而且試用版不讓出圖片了。

注意:使用 Mochi Diffusion 需要確認以下環(huán)境具備:

  • Apple 芯片的 Mac (M1 及更新)
  • macOS Ventura 13.1+
  • Xcode 14.2 (自行構建)

關于 Stable Diffusion

在蘋果設備上運行 Stable Diffusion 和 Core ML + diffusers 生成的圖像。

蘋果在 macOS 13.1 和 iOS 16.2 中發(fā)布了針對 Stable Diffusion 的 Core ML 優(yōu)化,并通過一個代碼庫對部署過程進行了詳細講解。

在三款蘋果設備(M1 iPad Pro 8GB、M1 MacBook Pro 16GB、M2 MacBook Air 8GB)上的測試結果表明,蘋果推出的相關優(yōu)化基本可以保證最新版 Stable Diffusion(SD 2.0)在半分鐘內生成一張分辨率為 512×512 的圖。

對于蘋果的這一舉動,不少人感嘆,一個開源社區(qū)構建的模型已經優(yōu)秀到可以讓大公司主動采用,確實非常了不起。

另外,大家也開始猜測,未來,蘋果會不會直接把 Stable Diffusion 放到自己的設備里?

為什么要讓 Stable Diffusion 可以在蘋果設備上運行?

自 2022 年 8 月首次公開發(fā)布以來,Stable Diffusion 已經被藝術家、開發(fā)人員和愛好者等充滿活力的社區(qū)廣泛采用,能夠以最少的文本 prompt 創(chuàng)建前所未有的視覺內容。相應地,社區(qū)在幾周內就圍繞這個核心技術構建了一個包含擴展和工具的龐大生態(tài)系統(tǒng)。Stable Diffusion 已經變得個性化,而且可以拓展到英語以外的其他語言,這要歸功于像 Hugging Face diffusers 這樣的開源項目。

除了通過文本 prompt 生成圖像,開發(fā)人員還發(fā)現了 Stable Diffusion 其他創(chuàng)造性的用途,如圖像編輯、修復、補全、超分辨率、風格遷移。隨著 Stable Diffusion 應用的增多,要想打造出任何地方的創(chuàng)意人員都能使用的應用程序,就需要確保開發(fā)者能夠有效地利用這項技術,這一點至關重要。

在所有應用程序中,模型在何處運行是 Stable Diffusion 的一大關鍵問題。有很多原因可以解釋為什么在設備上部署 Stable Diffusion 比基于服務器的方法更可取。首先,終端用戶的隱私可以受到保護,因為用戶提供的作為模型輸入的任何數據都保留在用戶自己的設備上。

其次,在初次下載之后,用戶不需要連接互聯(lián)網就可以使用該模型。最后,在本地部署此模型能讓開發(fā)人員減少或消除服務器方面的成本。

用 Stable Diffusion 產出可觀的結果需要經過長時間的迭代,因此在設備上部署模型的核心挑戰(zhàn)之一在于生成結果的速率。這需要執(zhí)行一個復雜的流程,包括 4 個不同的神經網絡,總計約 12.75 億個參數。要了解更多關于如何優(yōu)化這種大小和復雜性的模型,以在 Apple Neural Engine 上運行,可以參閱以前的文章:Deploying Transformers on the Apple Neural Engine。

上述段落轉自:https://m.thepaper.cn/baijiahao_21047311

Mochi Diffusion
評論 1 條