Mochi Diffusion 的使用邏輯很簡(jiǎn)單,下載、安裝、啟動(dòng),在左邊欄輸入你的文字描述,可以是語(yǔ)義式,也可以是關(guān)鍵詞堆積,還可以填寫(xiě)排除關(guān)鍵詞,以更精確的生成你想要的圖片,可以是否為高清、有些模型還可以允許你上傳一張參考圖片,尺寸是 512×512,圖片生成的數(shù)量、迭代步數(shù)、關(guān)鍵詞權(quán)重都可以自定義。
但是模型的選擇很重要,每一個(gè)模型都有自己擅長(zhǎng)的風(fēng)格和領(lǐng)域,Stable Diffusion 有非常豐富的模型供用戶選擇,如果你不知道怎么構(gòu)建、轉(zhuǎn)換模型,可以直接在 huggingface 下載這些模型,這些模型也是在不斷更新迭代的。
拉到頁(yè)面底部,可以看到不少模型。
這些模型下載后都需要解壓縮并放在 Mac 本地這個(gè)目錄,你可以像我這樣挑選幾個(gè)比較有代表性的模型試試,每一款的主頁(yè)都有案例圖可以參考。
點(diǎn)擊模型名稱進(jìn)入主頁(yè):
每一個(gè)模型主頁(yè)都有 sample,可以看出這個(gè)模型的風(fēng)格,就是動(dòng)漫的,圖片底部是關(guān)鍵詞
將目光移動(dòng)到 Files and versions,Apple 芯片選擇目錄里的 split_einsum 目錄,點(diǎn)進(jìn)去。
然后就能看到這個(gè)模型的壓縮包了,點(diǎn)擊右側(cè)的下載箭頭開(kāi)始下載,一般這類模型都是 2GB 或者更大的,下載速度還可以,但必須掛那啥才行!
下載好模型,就像前面說(shuō)的解壓縮放置在 Mochi Diffusion 的 Models 目錄即可,在初次運(yùn)行模型時(shí), 神經(jīng)網(wǎng)絡(luò)引擎可能需要約 2 分鐘編譯緩存,后續(xù)運(yùn)行速度會(huì)顯著提高。一張圖片正常 5 秒就會(huì)出來(lái)。
以下是我用 stable diffusion base v2.1 的模型生成的一個(gè)古典式的德國(guó)女人,金發(fā)藍(lán)眼睛,但是得到的圖片顯然不是我想要的,因?yàn)槲业谋疽馐窍胍粡埖湫偷牡聡?guó)女人圖片,所以我換了一下模型并更新了關(guān)鍵詞。
但是效果還是不好,這個(gè)模型總是生成日本動(dòng)漫風(fēng)格的歐洲女孩形象,我還加了 no japanese style,還是不行,然后我又換了一個(gè)模型 Realistic
這次加了一張參考圖片,谷歌找的,關(guān)鍵詞改成了 a german woman,這回行了,不過(guò)這個(gè)藍(lán)眼睛也太夸張了,還得繼續(xù)調(diào)教,我看網(wǎng)上別人通過(guò) Stable Diffusion 訓(xùn)練出的模型,那個(gè)圖片相當(dāng)?shù)膶?xiě)實(shí),看來(lái)我還得多學(xué)習(xí)!
如果你正在研究 AI 畫(huà)圖歡迎在評(píng)論區(qū)與大家分享經(jīng)驗(yàn),在接觸 Stable Diffusion 之前我先用的 MidJourney,但這款產(chǎn)品我感覺(jué)并不好用,而且試用版不讓出圖片了。
注意:使用 Mochi Diffusion 需要確認(rèn)以下環(huán)境具備:
在蘋果設(shè)備上運(yùn)行 Stable Diffusion 和 Core ML + diffusers 生成的圖像。
蘋果在 macOS 13.1 和 iOS 16.2 中發(fā)布了針對(duì) Stable Diffusion 的 Core ML 優(yōu)化,并通過(guò)一個(gè)代碼庫(kù)對(duì)部署過(guò)程進(jìn)行了詳細(xì)講解。
在三款蘋果設(shè)備(M1 iPad Pro 8GB、M1 MacBook Pro 16GB、M2 MacBook Air 8GB)上的測(cè)試結(jié)果表明,蘋果推出的相關(guān)優(yōu)化基本可以保證最新版 Stable Diffusion(SD 2.0)在半分鐘內(nèi)生成一張分辨率為 512×512 的圖。
對(duì)于蘋果的這一舉動(dòng),不少人感嘆,一個(gè)開(kāi)源社區(qū)構(gòu)建的模型已經(jīng)優(yōu)秀到可以讓大公司主動(dòng)采用,確實(shí)非常了不起。
另外,大家也開(kāi)始猜測(cè),未來(lái),蘋果會(huì)不會(huì)直接把 Stable Diffusion 放到自己的設(shè)備里?
自 2022 年 8 月首次公開(kāi)發(fā)布以來(lái),Stable Diffusion 已經(jīng)被藝術(shù)家、開(kāi)發(fā)人員和愛(ài)好者等充滿活力的社區(qū)廣泛采用,能夠以最少的文本 prompt 創(chuàng)建前所未有的視覺(jué)內(nèi)容。相應(yīng)地,社區(qū)在幾周內(nèi)就圍繞這個(gè)核心技術(shù)構(gòu)建了一個(gè)包含擴(kuò)展和工具的龐大生態(tài)系統(tǒng)。Stable Diffusion 已經(jīng)變得個(gè)性化,而且可以拓展到英語(yǔ)以外的其他語(yǔ)言,這要?dú)w功于像 Hugging Face diffusers 這樣的開(kāi)源項(xiàng)目。
除了通過(guò)文本 prompt 生成圖像,開(kāi)發(fā)人員還發(fā)現(xiàn)了 Stable Diffusion 其他創(chuàng)造性的用途,如圖像編輯、修復(fù)、補(bǔ)全、超分辨率、風(fēng)格遷移。隨著 Stable Diffusion 應(yīng)用的增多,要想打造出任何地方的創(chuàng)意人員都能使用的應(yīng)用程序,就需要確保開(kāi)發(fā)者能夠有效地利用這項(xiàng)技術(shù),這一點(diǎn)至關(guān)重要。
在所有應(yīng)用程序中,模型在何處運(yùn)行是 Stable Diffusion 的一大關(guān)鍵問(wèn)題。有很多原因可以解釋為什么在設(shè)備上部署 Stable Diffusion 比基于服務(wù)器的方法更可取。首先,終端用戶的隱私可以受到保護(hù),因?yàn)橛脩籼峁┑淖鳛槟P洼斎氲娜魏螖?shù)據(jù)都保留在用戶自己的設(shè)備上。
其次,在初次下載之后,用戶不需要連接互聯(lián)網(wǎng)就可以使用該模型。最后,在本地部署此模型能讓開(kāi)發(fā)人員減少或消除服務(wù)器方面的成本。
用 Stable Diffusion 產(chǎn)出可觀的結(jié)果需要經(jīng)過(guò)長(zhǎng)時(shí)間的迭代,因此在設(shè)備上部署模型的核心挑戰(zhàn)之一在于生成結(jié)果的速率。這需要執(zhí)行一個(gè)復(fù)雜的流程,包括 4 個(gè)不同的神經(jīng)網(wǎng)絡(luò),總計(jì)約 12.75 億個(gè)參數(shù)。要了解更多關(guān)于如何優(yōu)化這種大小和復(fù)雜性的模型,以在 Apple Neural Engine 上運(yùn)行,可以參閱以前的文章:Deploying Transformers on the Apple Neural Engine。
上述段落轉(zhuǎn)自:https://m.thepaper.cn/baijiahao_21047311
]]>這個(gè)周末無(wú)人打擾,我終于可以靜下心來(lái)體驗(yàn)一下近期比較火的人工智能產(chǎn)品 ChatGPT。
從去年 11 月 30 日 ChatGPT 發(fā)布于互聯(lián)網(wǎng)后,其月活用戶數(shù)已經(jīng)積累到1億以上,對(duì)于經(jīng)常刷推的我對(duì)這東西有些抵觸,可能是年齡大了,對(duì)新事物的接受欲望下降了,在我開(kāi)始接觸她的時(shí)候,她已經(jīng)問(wèn)世4個(gè)月了。
ChatGPT 是一個(gè)大型語(yǔ)言模型,由美國(guó) OpenAI 公司開(kāi)發(fā)。它使用深度學(xué)習(xí)技術(shù),通過(guò)對(duì)大量語(yǔ)料庫(kù)的訓(xùn)練,可以生成具有自然語(yǔ)言理解和生成能力的文本。ChatGPT 可以用于各種應(yīng)用,例如智能對(duì)話、機(jī)器翻譯、語(yǔ)音識(shí)別、自然語(yǔ)言生成等等。與傳統(tǒng)的規(guī)則系統(tǒng)不同,它可以通過(guò)學(xué)習(xí)大量的語(yǔ)言數(shù)據(jù),自動(dòng)發(fā)現(xiàn)語(yǔ)言中的模式和規(guī)律,從而實(shí)現(xiàn)更加準(zhǔn)確和自然的語(yǔ)言處理。在對(duì)話方面,ChatGPT 可以像人類一樣進(jìn)行自然、流暢的交流。它可以理解用戶輸入的語(yǔ)句,并基于已有的知識(shí)和上下文生成合適的回復(fù),從而實(shí)現(xiàn)人機(jī)對(duì)話。
ChatGPT 網(wǎng)站默認(rèn)提供了一個(gè)對(duì)話框供用戶與她交流,但她的強(qiáng)大之處還是在于通過(guò) API 與其他產(chǎn)品融合在一起,后面我們會(huì)推薦一些近期比較有代表性的應(yīng)用。
ChatGPT 的使用目前對(duì)于國(guó)內(nèi)用戶來(lái)說(shuō)存在一些障礙,一個(gè)是使用,全程需要代理工具(最好是全局代理),另一個(gè)是注冊(cè),注冊(cè)的時(shí)候就需要全局代理登錄其網(wǎng)站,然后需要輸入手機(jī)號(hào)填寫(xiě)驗(yàn)證碼完成整個(gè)注冊(cè)流程,手機(jī)號(hào)是不支持國(guó)內(nèi)的,連香港,俄羅斯的都不行!
這里我們推薦使用?sms-activate.org?這個(gè)網(wǎng)站來(lái)通過(guò)虛擬號(hào)碼在 ChatGPT 填寫(xiě)驗(yàn)證碼,引用一下該網(wǎng)站寫(xiě)的部分注冊(cè) ChatGPT 步驟:
打開(kāi)接碼平臺(tái) sms-activate.org,注冊(cè)一個(gè)賬號(hào)
然后要充值余額
一次接碼 OpenAI 的驗(yàn)證碼費(fèi)用是大概11盧布,人民幣來(lái)看差不多是1塊錢,不過(guò)只能充美金,就先充直個(gè)1美金錢??梢赃x擇對(duì)你任何方便方式。支付寶也有
充值完成可能需要等一會(huì),就先放著,直接進(jìn)行下一步。
先,你要把你的代理切換到任何合適的地區(qū),我們這里選擇了韓國(guó)。
然后,先復(fù)制下面這段代碼
window.localStorage.removeItem(Object.keys(window.localStorage).find(i=>i.startsWith('@@auth0spajs')))
接著在地址欄里輸入
javascript:
請(qǐng)注意,這里一定要輸入,因?yàn)槟銖?fù)制的話是粘貼不了的。
然后再粘貼我們第一段復(fù)制的內(nèi)容:
然后按下回車鍵,刷新頁(yè)面。如果你的代理沒(méi)問(wèn)題,就可以看到正常工作的注冊(cè)頁(yè)面了。
如果你懶得研究“解決地區(qū)問(wèn)題”這個(gè)問(wèn)題,就直接用代理工具全局模式就行,最好將設(shè)備的語(yǔ)音改成英語(yǔ),設(shè)備地區(qū)改成美國(guó),因?yàn)槲议_(kāi)代理,地區(qū)選擇的是美國(guó),要一致。
在 ChatGPT 完成注冊(cè)(激活郵件鏈接后)最后一個(gè)關(guān)鍵步驟就是輸入手機(jī)號(hào)驗(yàn)證了,這個(gè)時(shí)候輸入國(guó)內(nèi)的號(hào)碼是沒(méi)用的,需要前面提到的?sms-activate.org?來(lái)幫忙。
像上圖一樣選韓國(guó),你的代理服務(wù)就是韓國(guó),如果你用的美國(guó)代理,選擇美國(guó)即可,然后在 sms-activate.org?選擇服務(wù)里找到?OpenAI,然后點(diǎn)擊“美國(guó)”右側(cè)的購(gòu)物車點(diǎn)擊一下就行(前提是已經(jīng)充值,要不不會(huì)跳轉(zhuǎn)到驗(yàn)證碼頁(yè)面),下圖里像印度、巴西這些國(guó)家發(fā)一次驗(yàn)證碼比較便宜,你可以用對(duì)應(yīng)的代理服務(wù)購(gòu)買。
點(diǎn)擊”小黃車”(購(gòu)物車)后:
此時(shí)到 ChatGPT 輸入 sms-activate.org?提供的虛擬號(hào)碼后,等待回復(fù)過(guò)來(lái)的6位驗(yàn)證碼就行了。
完成注冊(cè)后,一番介紹后進(jìn)入默認(rèn)的頁(yè)面,此時(shí)點(diǎn)擊正下方的輸入框就可以與?ChatGPT 聊天了,你可以問(wèn)她任何問(wèn)題,我個(gè)人感覺(jué)她比 Siri、DeepL 更加智能,對(duì)我提出的問(wèn)題回答的很全面,很細(xì)致,可謂是上知天文下知地理,你可以和他聊聊科技的發(fā)展趨勢(shì),流浪地球,歷史名人,文學(xué)作品,旅行計(jì)劃等等所有人類文明能夠認(rèn)識(shí)到的領(lǐng)域。
或者你可以讓他幫你寫(xiě)一篇文章:
ChatGPT 雖然還不能像 Siri 那樣與你進(jìn)行口語(yǔ)間的對(duì)話,但通過(guò)文字對(duì)話你可以感覺(jué)她更接近一個(gè)人類了,對(duì)于上下文邏輯關(guān)聯(lián)處理的幾乎完美,但有些問(wèn)題回答的還是比較官方,感覺(jué)都是從維基百科搬過(guò)來(lái)的呢。
不過(guò)當(dāng)你在糾正她回答錯(cuò)誤的問(wèn)題后,她會(huì)很快回復(fù)一個(gè)正確的問(wèn)題,比如下面這個(gè):
在我眼中的人工智能,我認(rèn)為不是她給我們一個(gè)反饋,一個(gè)執(zhí)行動(dòng)作就是完美了,人工智能需要主動(dòng)與人類互動(dòng),而不是我們有需要找他的時(shí)候才有響應(yīng),而這正是與情感培養(yǎng)這個(gè)領(lǐng)域一樣,必然是人工智能發(fā)展的趨勢(shì)之一。
下面我們來(lái)推薦幾個(gè)近期比較有代表性的周邊應(yīng)用:
最近,PopClip 推出了一個(gè)支持 ChatGPT 的插件,名為“GPT3”。該插件可以讓您使用 ChatGPT 進(jìn)行智能的語(yǔ)言處理操作,例如生成文章、回答問(wèn)題等等。通過(guò)簡(jiǎn)單地選中一段文本,然后單擊“GPT3”按鈕,即可讓 ChatGPT 為您生成合適的內(nèi)容。
在使用這款插件時(shí),需要在 PopClip 中輸入 ChatGPT 的 API Key 才能生效,在這里可以生成自己的 key,
ChatGPT 的 API Key 是付費(fèi)的,只是注冊(cè)的免費(fèi)賬號(hào)提供了 5 美元的使用包,超過(guò)了就需要付費(fèi)了??梢栽?a >這里查看你的 API Key 調(diào)用次數(shù)
這款插件使用 OpenAI 的 GPT-3 模型進(jìn)行自然語(yǔ)言處理,可以產(chǎn)生非常自然和流暢的語(yǔ)言輸出。由于 GPT-3 是目前最先進(jìn)的自然語(yǔ)言處理技術(shù)之一,因此該插件具有非常強(qiáng)大的功能和準(zhǔn)確性。它可以讓您節(jié)省大量時(shí)間和精力,以及獲得更高質(zhì)量的語(yǔ)言輸出。
在實(shí)際使用中,當(dāng)你需要 ChatGPT 幫你羅列一些參考資料的時(shí)候,就像上圖這樣,輸入“問(wèn)題”,然后用 GPT3 插件觸發(fā)即可,一段完美的解釋在幾秒后誕生。
BiliGPT 網(wǎng)站
這是個(gè)集成 ChatGPT 的 WEB App,輸入 B 站視頻鏈接后(需要將 .com 改成 jimmylv.cn)即可自行給出一個(gè)視頻內(nèi)容的文字總結(jié)。當(dāng)然使用這類應(yīng)用的時(shí)候也得輸入 ChatGPT 的 API Key,如果你懶得弄或者自己賬號(hào)的用完了,可以購(gòu)買開(kāi)發(fā)者提供的 API Key。
此外這款應(yīng)用還有?iOS shortcut?版本可以使用。
這款應(yīng)用可以讓用戶快速的利用 ChatGPT 生成一個(gè) Youtube 視頻的譯文摘要,看外文視頻真的是好用到爆炸,從此不用等字幕組,啃生肉也 OK!
這款網(wǎng)頁(yè)插件支持 Chrome、Firefox、Edge 三個(gè)瀏覽器,安裝后在配置頁(yè)面里將 trigger mode 選擇為 Manually,輸入 API Key :
然后你就會(huì)在 Youtube 頁(yè)面右上角上看到視頻的文字摘要,免費(fèi)版的 ChatGPT 是限制分析字符數(shù)量的,最多做到 4097 個(gè)。
這款插件很牛逼(傳送門),是個(gè) Python 腳本,用的是?GPT-3.5 翻譯整個(gè)英文書(shū),epub 格式,輸出中英雙語(yǔ)電子書(shū),使用步驟:(取自小眾軟件)
--model gpt3
?來(lái)使用 gpt3 模型--test
?命令如果大家沒(méi)付費(fèi)可以加上這個(gè)先看看效果(有 limit 稍微有些慢)# 如果你想快速測(cè)一下
python3
make
.py --book_name test_books
/animal_farm
.epub --openai_key ${openai_key} --no_limit --
test
# or do it
python3
make
.py --book_name test_books
/animal_farm
.epub --openai_key ${openai_key}
# or 用 gpt3 模型
export
OPENAI_API_KEY=${your_api_key}
python3
make
.py --book_name test_books
/animal_farm
.epub --model gpt3 --no_limit
這本?Antifragile,從3:20 => 6:30 翻譯完畢,共計(jì)用時(shí)3小時(shí)10分,消耗 619619 tokens,Chatgpt 說(shuō)這本書(shū)英文版18萬(wàn)字。
而基于目前 gpt-3.5-turbo 的定價(jià),這本書(shū)一共需要 (619,619 / 1000) * $0.002 = $1.24
這款服務(wù)支持 JPEG/PNG 格式圖片處理,3000×3000 分辨率以下的圖片處理起來(lái)效果最好,也就是分辨率越差的通過(guò)這款服務(wù)的處理得到的驚喜越大,小編改天要找一些老照片試試效果。
同時(shí)也可以將這款服務(wù)通過(guò)已有的 API接口整合到你自己的產(chǎn)品里。
來(lái)看看樣例:
Smart upscaler 官網(wǎng)]]>
有沒(méi)有發(fā)現(xiàn)全世界優(yōu)秀的互聯(lián)網(wǎng)服務(wù)、軟件、app 都來(lái)自德國(guó)?我那天粗略數(shù)了數(shù),像 Ulysses、DEVONthink 這些大牌都是德國(guó)的,今天要介紹的主角 DeepL 依然是德產(chǎn)貨,近期在 IT 圈被熱議的一款人工智能多國(guó)語(yǔ)言翻譯服務(wù),有 Mac/Win 客戶端,可在以下語(yǔ)種之間,快速的,厲害的,互相翻譯詞句,甚至是整篇文檔。
DeepL 通過(guò)其獨(dú)有的?Linguee 人工翻譯數(shù)據(jù)庫(kù),利用不斷接受到的翻譯文本對(duì)其神經(jīng)網(wǎng)絡(luò)進(jìn)行人工智能訓(xùn)練,以此來(lái)理解人類語(yǔ)音的表達(dá)習(xí)慣,幫助用戶翻譯出更符合本地化,更加有人情味的文字,而不是蒼白機(jī)械的翻譯效果。
就像下面這樣,仔細(xì)讀?DeepL 翻譯出的中-英效果,其英文表達(dá)效果非常的流暢自然,你無(wú)需任何付費(fèi)的人工翻譯就能寫(xiě)出一篇像樣的英文文章。
DeepL 曾做過(guò)一次測(cè)試,挑選了不同領(lǐng)域的 119 篇長(zhǎng)文章交給 DeepL 翻譯器和其競(jìng)爭(zhēng)對(duì)手進(jìn)行翻譯。然后,專業(yè)翻譯人員對(duì)這些譯文進(jìn)行評(píng)估,并選出最好的譯文。譯員們?cè)诓恢朗悄膫€(gè)系統(tǒng)翻譯出哪個(gè)版本的情況下,選擇DeepL翻譯器的人數(shù)是其他系統(tǒng)(谷歌、亞馬遜、微軟 Bing)的四倍,以下是各個(gè)語(yǔ)言之間翻譯的評(píng)選結(jié)果比較:
我們看到這個(gè)測(cè)試結(jié)果后也親自測(cè)試比較了一把,隨意從 Mac玩兒法摘錄一段文字丟到 DeepL 翻譯一下,然后再與谷歌翻譯、有道翻譯的結(jié)果進(jìn)行了對(duì)比。
先從有道翻譯講,第一句話就錯(cuò)了,后面的倒是可以,與谷歌翻譯結(jié)果差不多,但是機(jī)翻味太濃,為了追求語(yǔ)法應(yīng)用得當(dāng),一看就不是人寫(xiě)的,而?DeepL 讀起來(lái)則要明顯符合現(xiàn)實(shí)以英語(yǔ)為母語(yǔ)的人士說(shuō)話,寫(xiě)字的習(xí)慣,因?yàn)槟阋览≌Z(yǔ)系的人說(shuō)話要比中國(guó)人更習(xí)慣用倒裝的形式去表達(dá),也就是先說(shuō)結(jié)果,再說(shuō)經(jīng)過(guò)。
DeepL (Pro)可以處理微軟 Word(.docx)和 PowerPoint(.pptx)文件。文檔中的所有元素,包括正文、標(biāo)題、文字說(shuō)明,甚至腳注,都將被翻譯成你所選擇的語(yǔ)言,同時(shí)保留原始格式。
文檔翻譯器非常直觀,使用起來(lái)非常方便。只需將要翻譯的文件拖到左邊的輸入框中,如下圖所示。
一旦你上傳了你的文件,請(qǐng)選擇要譯入的目標(biāo)語(yǔ)言。然后翻譯將自動(dòng)開(kāi)始;或者將鼠標(biāo)指針懸停在輸入框左下方的“翻譯文檔”按鈕上,選擇要譯入的目標(biāo)語(yǔ)言也行。
使用 DeepL 無(wú)需注冊(cè)賬號(hào),你可以在網(wǎng)頁(yè),客戶端上直接使用,但是如果你想一鍵翻譯完整的文檔則需要訂閱?DeepL Pro,Pro 用戶還可以享受不限次數(shù)的翻譯任務(wù),在操作完翻譯任務(wù)后,數(shù)據(jù)自動(dòng)刪除以及將 DeepL 融入到你自己的開(kāi)發(fā)程序當(dāng)中的權(quán)利。價(jià)格倒是蠻貴的,你可以到這里了解詳細(xì)的價(jià)格表。
DeepL 官方網(wǎng)站]]>