Prizmo:將現(xiàn)實(shí)復(fù)制進(jìn)虛擬的掃描應(yīng)用

Prizmo

在 App Store 眾多的掃描類應(yīng)用中我最為鐘愛(ài)來(lái)自德國(guó)的 Scanbot。但假如你叫我推薦一款有強(qiáng)大 OCR 功能的掃描應(yīng)用的話,我絕不會(huì)對(duì) Prizmo 這款具有「掃描」功能的「OCR」應(yīng)用吝嗇自己的夸贊。

Prizmo 可以說(shuō)是目前整個(gè) App Store 里將 OCR 功能做的最好的應(yīng)用,沒(méi)有之一。至少在我眼里無(wú)人能出其右。作為掃描類應(yīng)用中的一員,Prizmo 的掃描效果其實(shí)并不能算是最佳,充其量只能說(shuō)是勉強(qiáng)夠用。但你有刀槍劍戟,我有斧鉞勾叉,大家各有所長(zhǎng)。Prizmo 的長(zhǎng)就是讓它眾多應(yīng)用中脫穎而出的 OCR 功能。文檔掃描的成像效果好壞與否對(duì)它來(lái)說(shuō)并不是那么的重要,因?yàn)槔盟?OCR 功能,Prizmo 可以生成機(jī)器可識(shí)別的 PDF 文檔(Typewritten PDF)。除了傲視群雄的 OCR 功能,Prizmo 的售價(jià)也挺讓人傲視的,將近 10 刀的售價(jià)幾乎是同類應(yīng)用均價(jià)的兩倍。不過(guò)在你知道 Prizmo 的價(jià)值之后,就會(huì)覺(jué)得這 10 刀花的簡(jiǎn)直就是物超所值。

功能介紹

Prizmo 的用戶界面并沒(méi)有什么太多的亮點(diǎn),中規(guī)中矩的遵循蘋(píng)果的設(shè)計(jì)指導(dǎo),主界面基本上照搬了蘋(píng)果自家的 Newstand 應(yīng)用的書(shū)架設(shè)計(jì)。與其他同類應(yīng)用稍有不同的是,通常其他掃描應(yīng)用一般只有一個(gè)按鍵作為創(chuàng)建掃描文檔的快速入口,而 Prizmo 則擁有三個(gè)按鈕,一共五種模式。

雖然有很多種模式,真正能夠創(chuàng)建掃描文檔的只是中央最大的那個(gè)相機(jī)按鈕。其他的按鍵都只是臨時(shí)借用 OCR 功能實(shí)現(xiàn)某些特定的操作,完成后操作后并不會(huì)在應(yīng)用內(nèi)創(chuàng)建任何的文檔。這些特定的操作包括將文件上的內(nèi)容通過(guò) OCR 提取出來(lái)保存到剪切版中?;蛘咴趦?nèi)置的閱讀器中朗讀文本的內(nèi)容,這點(diǎn)對(duì)于有視力障礙或者眼神不好的老人特別的實(shí)用。值得一提的是如果你不滿意 iOS 系統(tǒng)自帶的那些像機(jī)器人一樣的語(yǔ)音,可以下載由 Acapela 公司提供的第三方語(yǔ)音庫(kù),我稍微試聽(tīng)了下,效果確實(shí)比系統(tǒng)自帶的要更動(dòng)聽(tīng)更接近人聲,尤其是日語(yǔ)的發(fā)音……當(dāng)然好東西是需要付錢(qián)的,一個(gè)語(yǔ)音包售價(jià) 3 刀。還有一個(gè)就是許多具有 OCR 功能的掃描應(yīng)用也都擁有的翻譯功能,國(guó)外買(mǎi)的商品特別是藥品這類東西必須遵循上面的說(shuō)明使用,在看不懂又不知要如何手動(dòng)輸入到手機(jī)情況下,拿出來(lái)應(yīng)急一下還是不錯(cuò)的。

IMG_1111 IMG_1112

盡管以上幾種模式的目的性各不相同,但實(shí)際的操作流程并無(wú)二致,以創(chuàng)建掃描文檔為例介紹一下照相機(jī)界面。前面提過(guò) Prizmo 的設(shè)計(jì)幾乎完全的遵從了蘋(píng)果的設(shè)計(jì)指導(dǎo),照相機(jī)界面也不例外。在系統(tǒng)自帶的相機(jī)應(yīng)用中左右滑動(dòng)可以在全景、Slow Motion 等模式下切換,在 Prizmo 中存在相同操作手勢(shì),左右滑動(dòng)在文本、圖片以及名片三種模式間循環(huán)切換。前面兩種模式單從字面上就可以理解其作用,這里就不再贅述。第三種名片模式就是掃描名片并提取名片上的信息,直接創(chuàng)建為手機(jī)里的聯(lián)系人。其實(shí)在 Prizmo 中這個(gè)功能并不是最為重要的,但很多其他的掃描卻作為主打功能作為賣(mài)點(diǎn)進(jìn)行宣傳。

除了通過(guò)鏡頭創(chuàng)建文檔以及從相冊(cè)中讀取已經(jīng)拍攝好照片作為文檔的頁(yè)面外,Prizmo 還有兩個(gè)比較特別的導(dǎo)入方式。第一種是利用 iOS 8 的 Document Picker 直接從其他支持 Document Provider 的應(yīng)用中抽取文件添加到 Prizmo 中,如果你有購(gòu)買(mǎi) iOS 的 Transmit 的話則可以直接將保存在 FTP 服務(wù)器上的文檔添加到 Prizmo 中。牛 X 之處在于除了可以導(dǎo)入圖片外還可以直接導(dǎo)入 PDF 文件。另外一種則是通過(guò)檢測(cè)剪切板中的數(shù)據(jù)類型,如果存在圖片的話就可以直接將剪切板中的圖片導(dǎo)入到應(yīng)用中,該選項(xiàng)只在有效時(shí)才會(huì)出現(xiàn)。

IMG_1113 IMG_1114

科技與人文 – OCR 與 VoiceOver

對(duì)于一個(gè)視力正常且智商正常的人而言將 iOS 設(shè)備的鏡頭對(duì)準(zhǔn)需要掃描的文件然后輕輕按下拍照按鈕應(yīng)該是件比吃飯還要簡(jiǎn)單的事情。但一個(gè)視力障礙的人,可能需要費(fèi)上不少勁才能完成看似簡(jiǎn)單的動(dòng)作。此時(shí) iOS 系統(tǒng)集成的 VoiceOver 就派上了用場(chǎng),啟用了該功能后 Prizmo 會(huì)發(fā)出語(yǔ)音告訴用戶向左移動(dòng) iOS 設(shè)備還是再向下移動(dòng)一點(diǎn)點(diǎn)來(lái)引導(dǎo)拍攝。即使文件放倒了也沒(méi)有關(guān)系 Prizmo 的 OCR 引擎會(huì)自動(dòng)糾正方向錯(cuò)誤的文本。借助蘋(píng)果提供的 VoiceOver API 和 ExperVision 強(qiáng)大的 OCR 引擎,最后加上 Acapela 優(yōu)美動(dòng)聽(tīng)的語(yǔ)音, Prizmo 讓那些看不見(jiàn)的人們也能像正常人一樣享受閱讀之美,領(lǐng)略科技改變世界。

拍攝完所有的頁(yè)面之后為了更佳的可讀性,你可以為不同的頁(yè)面套加不同的顏色濾鏡。Prizmo 提供了原始、黑白以及顏色三種濾鏡,并且可以手動(dòng)調(diào)整亮度與對(duì)比度參數(shù)。Prizmo 的顏色濾鏡是三個(gè)濾鏡中做的最好的一個(gè),第一次使用的時(shí)有一種初見(jiàn)美女的驚艷。尤其在處理圖文混排的文件時(shí),Prizmo 的算法會(huì)自動(dòng)分辨圖片與文本,將文本進(jìn)行黑白處理,而圖片則保持色彩不變。即保證了文本的易讀,也讓圖片不失本色。

Adjust

在濾鏡功能旁邊有一個(gè)很容易引起歧義的功能 -「Readability」,通過(guò)這個(gè)功能可以讓原本模糊瘦細(xì)的字體變的更加清晰。起初我一直以為調(diào)整這個(gè)選項(xiàng)會(huì)提升掃描文件的成像效果,直到閱讀了官方的幫助文檔才知道這里的「可讀性」并不是指用戶的可讀性,而是指 OCR 引擎的可讀性。也就是說(shuō)在這里無(wú)論你如何調(diào)整都對(duì)導(dǎo)出的 PDF 文件在觀感上沒(méi)有任何的影響,但會(huì)對(duì) OCR 的準(zhǔn)確率造成影響,因?yàn)樗墙o OCR 引擎看的。總結(jié)一下「濾鏡」調(diào)整的效果是給人看的,「Readability」里的效果是給機(jī)器看的。

Readablility

前面的這些步驟都是為了更高的 OCR 識(shí)別率而鋪墊的,多數(shù)情況下我很少去調(diào)整上面介紹的這些參數(shù),因?yàn)?Prizmo 已經(jīng)有一個(gè)預(yù)設(shè)的算法來(lái)優(yōu)化文檔,只在效果不理想時(shí)才需要人為干預(yù)。一切妥當(dāng)之后點(diǎn)擊右上角的「Recognize」對(duì)文檔那進(jìn)行 OCR 識(shí)別,過(guò)程中會(huì)有一個(gè)充滿科技感的掃描動(dòng)畫(huà)。識(shí)別的速度非??焖?,一份 A4 的文件只需要一秒左右就識(shí)別完成了。有個(gè)煩人的地方是 Prizmo 里面幾乎所有的操作都是針對(duì)單獨(dú)的頁(yè)面而沒(méi)有一個(gè)批量處理模式,假如一份文件有很多的頁(yè)面,你需要手動(dòng)的一個(gè)個(gè)去點(diǎn)擊識(shí)別。盡管在導(dǎo)出文件時(shí)有還未 OCR 識(shí)別的頁(yè)面存在時(shí)可以自動(dòng)處理完后導(dǎo)出,但在沒(méi)有預(yù)覽的情況下導(dǎo)出總讓人不是那么的放心。

OCR 引擎識(shí)別完成后會(huì)對(duì)文檔的不同區(qū)域分區(qū)編號(hào)并標(biāo)識(shí)為文本、圖片和數(shù)字三種區(qū)域類型。Prizmo 的自動(dòng)識(shí)別非常準(zhǔn)確幾乎能夠無(wú)誤的區(qū)分文本區(qū)域與圖片區(qū)域。對(duì)標(biāo)識(shí)為圖片類型的區(qū)域,OCR 引擎就會(huì)略過(guò)處理以避免產(chǎn)生一些奇怪的冗余字符。如果對(duì) Prizmo 自動(dòng)分區(qū)不滿意也可以手動(dòng)的調(diào)整分區(qū)位置大小,添加刪減分區(qū)或者改變分區(qū)的類型。Prizmo for iPad 的 OCR 編輯界面設(shè)計(jì)的非常合理,而非像其他應(yīng)用那樣填鴨式的將 iPhone 上的界面直接放大到 iPad 上。相同的界面在 iPhone 上需要三屏才能夠展示的信息在 iPad 上被聚合到同一個(gè)界面下顯示。讓用戶可以一邊調(diào)整區(qū)域一邊對(duì)比 OCR 的識(shí)別結(jié)果與原始文檔是否有出入。在識(shí)別有誤的情況下,可以直接在輸出結(jié)果上人為修正,在編輯的同時(shí) Prizmo 會(huì)自動(dòng)將原始文檔相對(duì)應(yīng)的區(qū)域放大以便用戶比對(duì)。非常的人性化。

IMG_0644

Prizmo 除了使用 iCloud 用作同步文檔外并沒(méi)有集成任何第三方的云服務(wù),所以不能像其他掃描應(yīng)用那樣可以直接將文檔上傳到云端后分享給別人,而需要先將文檔導(dǎo)出后通過(guò)系統(tǒng)集成的分享列表(Share Sheets)選擇分享的目的地。如果說(shuō)前面介紹的這些功能能夠讓 Prizmo 與其它同類應(yīng)用拉開(kāi)距離,那么下面要介紹的「導(dǎo)出」功能可能要把同類應(yīng)用甩開(kāi)幾條街了。也是因?yàn)檫@個(gè)功能才有了開(kāi)篇的這個(gè)標(biāo)題「將現(xiàn)實(shí)復(fù)制進(jìn)虛擬的文檔掃描應(yīng)用」。

Prizmo 可以將 OCR 識(shí)別后的文檔導(dǎo)出為三種文件類型,第一種是純文本的 Txt 文件;其次是很多具有 OCR 功能的掃描應(yīng)用包括 Scanbot 所采用的在導(dǎo)出的 PDF 文件中附上 OCR 數(shù)據(jù);最后一種,Przimo 會(huì)將原始文檔中的文本(Image)替換為電腦生成的字打文字(Typewritten),并讓生成的文檔與原始文檔保持一致的排版,就像把已經(jīng)打印成紙張的實(shí)體文件又逆向工程的生成了原始的數(shù)字文件。

OCR_Page TypeWritten-page

iOS 8 新功能與自動(dòng)化

在蘋(píng)果發(fā)布 iOS 8 不久后 Creaceed 就隨即更新了針對(duì)全新系統(tǒng)優(yōu)化的 Prizmo 4,也因此多次被 App Store 的編輯團(tuán)隊(duì)所推薦。在新的大版本更新中除了對(duì)以往的功能與界面進(jìn)行優(yōu)化外還引入了許多 iOS 8 的全新系統(tǒng)特性。比如可以在不離開(kāi)相冊(cè)應(yīng)用對(duì)已經(jīng)拍攝的文件照片套加濾鏡以及裁剪邊緣的 Extension。在眾多新增的特性中我個(gè)人最喜歡的是對(duì) Handoff 的支持,這樣我可以在 iPhone 上拍攝完文檔后無(wú)縫的切換到屏幕更大更適于編輯的 iPad 或者 Mac 上對(duì)同一文檔進(jìn)一步處理,避免在 iPhone 上來(lái)回的切換界面。

在 iOS 自動(dòng)化方面 Prizmo 應(yīng)該是眾多掃描應(yīng)用中做的最好的一款,幾乎所有的操作都能夠通過(guò) URL Scheme 執(zhí)行。對(duì) X-callback-URL 協(xié)議的支持也非常的良好,所以你可以將任何應(yīng)用中的文本發(fā)送到 Prizmo 中朗讀,反之你也可以將 Prizmo 的識(shí)別結(jié)果傳輸?shù)饺我鈶?yīng)用中。我用 Prizmo 做的最經(jīng)常的一件事情是充話費(fèi),偶爾也會(huì)將快遞的單號(hào)掃描后存放到 Clear 中備用,雖然有點(diǎn)大材小用的嫌疑但確實(shí)很方便。具體的流程是在 Launch Center Pro 中添加一個(gè) Action 讓 Prizmo 開(kāi)啟單行識(shí)別拍照模式,對(duì)準(zhǔn)充值卡的序列號(hào),識(shí)別完成后跳轉(zhuǎn)到短信界面將序列號(hào)發(fā)送到運(yùn)營(yíng)商指定的短信號(hào)碼完成充值。

如果想將 OCR 識(shí)別結(jié)果傳輸?shù)讲恢С旨羟邪逭{(diào)用的應(yīng)用中的話可以通過(guò)調(diào)整destinationpasteboardNametextParameterName這個(gè)三個(gè)參數(shù)來(lái)實(shí)現(xiàn)相同的操作。以將快遞單號(hào)保存到 Clear 為例:

prizmo://x-callback-url/captureText?language=en&destination=url&textParameterName=taskName&x-success={{clearapp://task/create?listName={{Notes}}&listPosition=&taskName=}}

在這段 URL Scheme 中我將destination的值設(shè)置為url,這是提前告訴 Prizmo 將 OCR 的識(shí)別結(jié)果傳輸?shù)胶竺娴?URL,如果后面的應(yīng)用支持調(diào)用剪切板的話可以將destination的值設(shè)置為pasteboard。然后將textParameterName的值設(shè)置為與 Clear 創(chuàng)建任務(wù)的參數(shù)一致即taskName。假設(shè) Clear 創(chuàng)建任務(wù)的參數(shù)為CreatTask,那么textParameterName的值也應(yīng)該設(shè)置為CreatTask簡(jiǎn)而言之就是「textParameterName」的值應(yīng)該是目標(biāo)應(yīng)用創(chuàng)建文本的參數(shù)名,這樣就可以直接將 OCR 結(jié)果傳輸?shù)侥繕?biāo)應(yīng)用中。除此以外 Prizmo 其他的 URL Shceme 相對(duì)就比較好理解,有興趣進(jìn)一步了解 Prizmo 的話可以參考 Creaceed 在 Github 上的官方文檔

IMG_1115 IMG_1116

Prizmo 背后的團(tuán)隊(duì)

Creaceed

Prizmo 的開(kāi)發(fā)商是來(lái)自于比利時(shí)的 Creadceed 公司。在誰(shuí)也不知道會(huì)是什么樣結(jié)果的情況下,兩位聯(lián)合創(chuàng)始人放棄了在大學(xué)研究員以及銀行金融系統(tǒng)里的舒適工作于 2008 年創(chuàng)立了該公司。

Creaceed 是一個(gè)由 Creativity 以及意為「前進(jìn)」的拉丁語(yǔ) Cedere 所組成的衍生詞。公司的 Logo 也很有意思是一顆種子,前半部由大顆粒像素構(gòu)成,很好的傳達(dá)了公司所從事的行業(yè),恰巧的事種子 Seed 與 Ceed 發(fā)音也很相似。Prizmo 的話相對(duì)比較好猜想就是棱鏡 Prism + OCR。

Raphael Sebbe 作為公司的創(chuàng)始人兼 CEO,也是公司的主要開(kāi)發(fā)人員之一,特別熱衷于任何涉及到圖形圖像的技術(shù),當(dāng)然也包括 3D 圖形渲染以及圖像分析識(shí)別。最初的時(shí)候他想著如何能夠?qū)⑦@些自己擅長(zhǎng)的技術(shù)組合在一起開(kāi)發(fā)出一款不僅擁有最新科技并兼具實(shí)用性的應(yīng)用,Prizmo 就由此誕生。

在溝通的過(guò)程中他推薦了一些他最常用的應(yīng)用,分別如下:

  • Tweetbot 這個(gè)就毋需多言了,他說(shuō)他也在等著 iPad 版本更新。
  • Pocket 稍后讀應(yīng)用。
  • BTSync 本地同步應(yīng)用。類似于局域網(wǎng)的 Dropbox,我個(gè)人也挺喜歡這個(gè)應(yīng)用用來(lái)同步圖片什么的非常方便,畢竟內(nèi)網(wǎng)要比外網(wǎng)快上許多。
  • PDF Pro 目前 App Store 里能夠找到最好的 PDF 應(yīng)用了。
  • Mindnode 非常漂亮的思維導(dǎo)圖應(yīng)用。我自己本人也在使用。
  • Maps.me 離線地圖。旅行時(shí)沒(méi)有網(wǎng)絡(luò)的情況下非常實(shí)用,價(jià)格也不貴才 5 刀。

Mac 下最常用的應(yīng)用有 Airmail、Pocket、Sketch、Textmate、Espresso。還有一些專業(yè)性的應(yīng)用因?yàn)閷?duì)大家沒(méi)有什么參考價(jià)值就不一一介紹了。

最后

與其將 Prizmo 稱之為一款具有 OCR 功能的掃描應(yīng)用,我更愿意稱其為具有掃描功能的 OCR 應(yīng)用。Prizmo 像是一款從桌面搬到移動(dòng)平臺(tái)上的應(yīng)用,它注定了不像其他的掃描應(yīng)用那樣以快取勝,但在功能上它有足夠的資本讓其他應(yīng)用只能望其項(xiàng)背。iPhone 因?yàn)槠聊坏南拗圃谌菁{這款桌面級(jí)應(yīng)用時(shí)顯得有點(diǎn)捉襟見(jiàn)肘,在 iPad 上則顯得更加地游刃有余。

看來(lái)這里如果你躍躍欲試的想買(mǎi)來(lái)試一下的話,下面這個(gè)消息對(duì)你來(lái)說(shuō)可能就是晴天霹靂了。Prizmo 不支持對(duì)中文的 OCR 處理,至少短期內(nèi)是不會(huì)有的。Prizmo 中集成了兩個(gè) OCR 引擎,一個(gè)前面提到是由 Expervision 所提供的,另外一個(gè)則是開(kāi)源的 Tesseract。前者負(fù)責(zé)像英語(yǔ)這些語(yǔ)言的解析,后者的話則是用來(lái)解析像韓文這類非拉丁字母的語(yǔ)言,因?yàn)?Tesseract 對(duì)中文的識(shí)別率不是非常的理想所以并未對(duì)中文以及日文的解析功能進(jìn)行整合。

Prizmo
評(píng)論 1 條
  • lotus

    ABBYY 表示壓力不大,中文照樣 OCR

    2014-11-09 17:57 回復(fù)