白描這款工具識別字符速度快,我經(jīng)常使用它進行中文文檔的采集,一次付費 40 元可以解除所有使用次數(shù)的限制,還享有多設備間的會員認證,性價比最高。
上課拍老師的 PPT 識別文字存筆記、拍照翻譯文字、圖片文字提取、公司文件轉(zhuǎn)錄、紙質(zhì)書閱讀筆記摘錄、截圖文字內(nèi)容提取、身份證識別、購物小票識別,紙質(zhì)文件電子化合成 PDF 存檔等等
這款工具擁有一個高精度 OCR 識別引擎,識別準確度隨著自動學習越來越高,識別速度快;另外可以放心的是,圖片上傳經(jīng)過加密處理,無需擔心隱私,在識別文字時支持批量識別,最多可上傳 50 張圖片。
在首頁對系統(tǒng)相冊瀏覽的界面的頂部安排了 wifi 傳輸和從 iOS file.app 選擇圖片、文字翻譯的快速入口。
點擊底部工具欄中間的相機按鈕進入掃描識別模式,可以選擇文檔的屬性,比如彩色、黑白、灰階等等,OCR 識別分為文件掃描、拍照識別、身份證掃描三種模式,常用的就是第一種,將文檔放在鏡頭下,讓整個目標段落在鏡頭掃描范圍內(nèi)即可進行 OCR 識別。
OCR 前最后一步可以對文檔進行裁剪,將不相關內(nèi)容去掉,這樣可以增加識別的準確率。白描支持中文、英語、日語、韓語、法語、德語、俄語、西班牙語等大多數(shù)語言的 OCR 識別。
OCR 完成后點擊右下角的「查看文字」即可看到生成的文字啦,此時可以選擇導出成 DOCX/TXT格式的文檔,也可以直接進行打印。
官方說軟件支持識別結(jié)果自動分段,但是實際情況是很少能遇到和原文一致的分段設計,希望這一點可以優(yōu)化一下,對于 OCR 識別的文字可以打開「校對」,在不離開編輯區(qū)域的情況下方便對照著原文修改。另外軟件還內(nèi)置了翻譯模塊,可以就地將文字翻譯成你需要的目標語言,白描目前已經(jīng)支持:
簡體中文、日語、英語、韓語、法語、西班牙語、阿拉伯語、俄語、德語、葡萄牙語、意大利語、繁體中文、粵語、文言文、泰語、希臘語、波蘭語、荷蘭語、保加利亞語、愛沙尼亞語、丹麥語、芬蘭語、捷克語、羅馬尼亞語、斯洛文尼亞語、瑞典語、匈牙利語、越南語的互譯;
在 OCR 識別前后你都可以將掃描件圖片的單張、多張直接生成 PDF 文件:
白描的 OCR 功能支持普通的橫排文字排版,也支持豎排排版、圖片形式的 Excel 表格、手寫文字、包括中文在內(nèi)的英、德、法、日、韓共6國語言。
我覺得這個功能非???,如果你懶得從0開始設計表格,可以拿參考表格掃描出來后直接導入到 Excel.app 用,實在是省去了大量重復勞動的時間啊!
總的來說,白描這款 OCR 識別軟件性價比很高,價格不貴就能實現(xiàn)生活工作中的大部分場景需求,5 星推薦!
]]>我們習慣了導航欄全部集中在上方的“Office”設計,實際上閱讀文檔自上而下觀看時,經(jīng)常會被打擾,而左右兩邊的空間往往沒有利用到。
當這款軟件出現(xiàn)在我面前時,讓我覺得產(chǎn)品經(jīng)理深刻理解了用戶的想法:
利用左右兩方空間,空出上方導航條,全民顯示時,最大利用顯示窗口,同時左右兩側(cè)按鈕設計也是根據(jù)用戶行為習慣進行布局。
閱讀十分流暢,文件打開速度極快。同時閱讀時頁碼頁面自動隱藏顯示,只在滑動時頁碼頁面才出現(xiàn),支持上一頁/下一頁/回到首、末頁選項。
在大文件中進行搜索時,有清晰的進度條標明搜索進度,且搜索速度較快。在頁面管理中可以輕松地旋轉(zhuǎn)、刪除頁面,并且有著快速批量選擇頁面的功能,從而方便地生成一份新的 PDF 文件。
標注功能也十分全面,包括高亮、下劃線、刪除線、文字框、便簽與添加圖章等,對習慣于在電腦進行文檔閱讀、批注的用戶十分的友好。
對于 PDF 來說,很多人還不知道 PDF 是可以進行少量編輯的。而想要完成編輯工作,需要借助PDF編輯工具來進行操作。
這款軟件的編輯功能十分的強大,它將每一段文字用一個文本框框選,用戶可以在文本框中添加、刪除或編輯文字。除此以外,編輯功能還可以讓用戶給 PDF 文檔添加圖像、水印、背景、鏈接等其他操作。
值得一提的是,此軟件支持表單功能,可以很好的提取 PDF 文件里的表單內(nèi)容,將重要數(shù)據(jù)信息提取出變成表格。
部分情況下,我們遇到的文檔并不是易于編輯的文本文檔,而是掃描文檔,這給信息獲取造成了極大的不便。而我們的主角的 OCR(光學字符識別)功能極其強大。借助了 ABBYY 公司的 ABBYY? FineReader? Engine 11 ? 2013 識別技術,軟件可以識別簡繁、英、法、德、意、日、韓等26種語言,且效果相當不錯。經(jīng)過 OCR 后,不少掃描版的書籍文檔會變的更加的清晰易讀,并且可以進行搜索,標注與摘錄會變的更加方便。
表單創(chuàng)建與數(shù)據(jù)提取
PDF 表單是很多數(shù)字化工作中經(jīng)常出現(xiàn)的一種方式。PDF 表單功能包括表單識別、表單填寫、提取數(shù)據(jù)、導出/導入數(shù)據(jù)、自建交互式表單等等。與其強大的 OCR 識別技術與批量處理配合,可以迅速的將多份紙質(zhì)表單轉(zhuǎn)換成 PDF 表單,減少面對實體表單時的工作量。不僅如此,它還支持將表單中的信息批量提取出來,一鍵生成更加直觀的 Excel 表格,將所有的信息自動匯總到 Excel 中。
對于 PDF 來說,它的接受度并沒有更加通用的文件格式,例如.doc或.jpg 這么高。軟件支持多格式文件轉(zhuǎn)換,可以將文件轉(zhuǎn)換成 Word、Excel、PPT、圖片、HTML 等各種常見或不常見的格式。并且支持將掃描文檔轉(zhuǎn)換的同時進行 OCR,轉(zhuǎn)換結(jié)束后可以直接獲得一份可編輯的目標文件,簡化了工作流程。
憑借著上述兩個功能,無論是電子的還是掃描后的表單,都可以將任何表單中的數(shù)據(jù)提取出來,自動轉(zhuǎn)換成 Excel 表單,減少了低效的手動錄入,將工作效率提升一個臺階。不僅如此,發(fā)票、快遞單等,按照同樣的操作,都不在話下。對于不少沒有數(shù)據(jù)錄入工作人員的公司來說,這一個功能可以大大提高整個工作的效率。
當打開一份近800頁的文件時,在頁面管理中,與使用 PDF Expert 時單擊右鍵會出現(xiàn)的風火輪相比,萬興PDF專家使用起來還是會更加讓人舒心。
萬興PDF專家在標注這個功能上表現(xiàn)得十分出色,各樣工具齊全。PDF Expert 自帶的圖章在長時間的更新后依舊沒有加入中文圖章,在使用習慣上仍是前者會更加貼近國人。
在對文件的措辭進行細致的修改時,搜索功能是非常重要的一點。PDF Expert 在體積較大的文件中搜索時會占用大量的處理器資源,并且導致電腦溫度升高。相反,萬興PDF專家在對同一個文件進行搜索時,不僅所需的時間極短,且處理器占用更小??梢哉f,萬興PDF專家是一把輕量切功能齊全的瑞士軍刀。
格式轉(zhuǎn)換與 OCR,這兩樣堪稱是萬興PDF專家的終極大殺器的功能,在 PDF Expert 上直接缺席。倘若平常只是針對內(nèi)容較少、數(shù)量較少的 PDF 文件進行簡單的操作,那么 PDF Expert 足矣,但若是為了大幅提升工作效率,那么萬興PDF專家在這一點上完勝 PDF Expert。
在工作上,對材料的加密一定是必不可少的,萬興PDF專家提供了真正的水印功能,而非 PDF Expert 所宣傳的用簡易圖章生成的“水印”。水印有三種形式可選,分別是文字、圖片、PDF;對于日常的工作而言,文字形式的水印已經(jīng)能滿足大多數(shù)人的需求。
密文則是萬興PDF專家重視隱私的另一個體現(xiàn)。其密文功能可以單選出需要隱藏的文字,也可以直接將整一個頁面直接涂黑,又或者是匹配一定條件的文字,對所有符合條件的文字進行遮蓋。并且,萬興PDF專家從用戶點進密文功能的那一刻起就一直在提示用戶密文功能需要二次確認,避免了一不小心遮蓋了卻無法撤回的情況的出現(xiàn)。
可以說,萬興PDF專家在不少地方有著它亮眼的表現(xiàn),尤其是其內(nèi)置的 OCR 文本識別技術,在面對大量掃描文件時可謂是福音。再配合上其優(yōu)秀的閱讀體驗,無論是正在工作的人還是學生,這款軟件都是處理、閱讀 PDF 文件的好幫手,再輔以各種優(yōu)秀的輔助功能,萬興PDF專家當真是提升工作、學習效率的加速器。
萬興PDF專家官網(wǎng)]]>
我們都知道 Apple 為其設備提供了良好的無障礙支持和工具,視障者可以使用 VoiceOver(旁白)流暢的操作電腦,甚至可以寫代碼做 App。但這些工具能否發(fā)揮效果很大程度上取決于開發(fā)者是否針對無障礙進行了適配。由于大眾對無障礙的認知還比較欠缺,很多軟件其實并沒有為盲人優(yōu)化使用體驗,尤其在那些熱衷于自己造輪子的軟件中,無障礙很容易成為一個問題。
iOS 14 為視障者提供了有限的 OCR 識別功能,但在 macOS 上這還是一個空白。尤其是一些 macOS 軟件由于構(gòu)建方式不同,完全沒有使用系統(tǒng)提供的 UI 元素,這使得他們無法被 VoiceOver 識別,常見的比如游戲中那些使用圖片作為按鈕的區(qū)域等。尤其對于有音樂影視相關愛好的視障者來說,這一問題更是經(jīng)常遇到,一些插件幾乎是完全無法使用的。魚魚讀屏就是為了解決這個存在很久的問題。
魚魚讀屏使用 OCR 服務來識別屏幕上出現(xiàn)的文本,將識別到的內(nèi)容對應到屏幕的相應位置上,使得你可以在其中進行導航并完成點擊。在魚魚讀屏中,所有快捷鍵都使用修飾鍵 Command + Shift + Option,在本文之后提到這一組合時,我會直接使用 CSO 來表示。
使用非常簡單,在開始使用時,首先按下 CSO + C 來截取整個屏幕或者按下 CSO + V 來截取顯示在最前面獲取到焦點的窗口。你將會聽到「正在上傳,請稍候。」「識別完畢,發(fā)現(xiàn)了XX個項目?!勾藭r程序已經(jīng)識別完你的屏幕截圖并將其轉(zhuǎn)換為一個可以導航的表格。這個表格不會顯示在屏幕上,而是直接通過按鍵和語音來交互的。
接下來你可以使用 CSO + T 和 CSO + Y 來在項目之間進行移動。列表會按照項目在屏幕上的位置縱向排序,按 CSO + G 和 CSO + H 可以在列之間直接移動。在移動的過程中,鼠標也會被移動到你正在閱讀的文本上,方便你與周圍的非視障者進行交流。
找到需要點擊的按鈕后,按下 CSO + U 即可點擊項目,按下 CSO + I 可以右鍵點擊項目。因為在閱讀過程中鼠標就被移動了,所以也可以手動操作鼠標直接點擊。
每次畫面產(chǎn)生變化時,需要重新進行一次識別來刷新結(jié)果列表。記不住快捷鍵也沒關系,所有的快捷鍵都有列在菜單欄圖標的菜單中可以隨時查看。
根據(jù)實際的使用情況,魚魚讀屏設計了一些優(yōu)化使用體驗的方法。
為了能夠提高 OCR 識別結(jié)果的可用性,我設計了一些可選的過濾器。如把只包含標點符號的這種無效內(nèi)容刪除,把只包含數(shù)字的無效內(nèi)容刪除等。這主要是為了解決 OCR 服務會把一些圖標識別為文字的問題,比如小三角被讀成 0 之類的。如果不刪掉就會出現(xiàn) 「零零零零零零零」的尷尬局面。這些過濾器可以在偏好設置中自己選擇開關。
另外 OCR 提供了微軟谷歌和百度三家的識別服務可以選擇,您可以選擇最適合您的服務來使用,默認軟件會使用微軟的引擎識別。其中谷歌的識別率是理論上最好的,如果有條件比較推薦選擇使用。
此外程序還針對中文用戶一直會遇到的語音問題做了處理。由于在中文狀態(tài)下 VoiceOver 會使用中文的語音閱讀英文,發(fā)音非常的 Chinglish,很多時候你完全不知道他在說啥。魚魚讀屏在閱讀過程中遇到純英語的字符串,會主動選擇英語語音來朗讀,就不會出現(xiàn)以上的問題了。由于 macOS 的語言識別準確度很差,所以目前我會把所有的語言都解釋為中文或英文,針對其他語言的適配方案還在開發(fā)中。
由于軟件才剛發(fā)布不久,可能會出現(xiàn)各種各樣的問題,如果有任何疑問,可以通過偏好設置關于選項卡中的「聯(lián)系開發(fā)者」發(fā)送郵件。
「因為工作之余喜歡玩一玩電腦編曲,會經(jīng)常使用到一些軟音源和效果插件。然而這些音源和插件很多情況下是無法通過旁白進行操作的,所以在平時,我只能通過明眼人幫忙點擊,或是自己通過各種辦法胡亂摸索。因此,當我剛拿到這款軟件時,便懷著無比激動的心情打開了平時無法操作的一款軟音源。當我按照魚魚讀屏的操作說明,用熱鍵開始瀏覽返回的結(jié)果時,驚喜的發(fā)現(xiàn),讀屏能完美的朗讀到音源的參數(shù)信息,雖然這樣還無法使用音源的全部功能,但相比之前那種胡亂摸索的操作而言,已經(jīng)方便很多很多了。而且,魚魚讀屏有個很貼心的功能,就是當我們?yōu)g覽OCR返回的結(jié)果時,鼠標指針會跟隨我們的瀏覽過程,隨時聚焦于我們當下瀏覽到的項目,這樣當我們與明眼人進行交流的過程中,明眼人通過鼠標能夠很明確的看到我們的瀏覽過程。從而能夠效率更高的給以幫助?!?/p>
全文: GitHub
「旁白用戶現(xiàn)在可以用它操作很多之前操作不了的第三方應用了。在現(xiàn)階段蘋果還沒有推出 macOS 的屏幕識別功能的情況下,這是最完美的解決方案,也是全世界唯一一款此類工具。推薦所有的 macOS 視障用戶下載?!?/p>
這位朋友制作了一個語音演示,可以點此下載音頻文件:GitHub
我開始做這個 App 其實是因為 @賈祎涵 找我詢問關于我另一款 App 無障礙優(yōu)化的問題。在聊天的時候提到現(xiàn)在 macOS 上有很多 VoiceOver 完全沒法讀的 App,只能用 OCR 之類的東西來解決,但是卻從來沒有開發(fā)者給 Mac 用戶做這樣的工具。他找了很多開發(fā)者都沒有人愿意做。一方面原因是因為 Mac 開發(fā)本身很麻煩,另一方面也是因為這種會把鼠標挪來挪去的玩意過審難度很大。我一開始也不確定能不能做,直到過審前我都不確定這玩意能不能成。不管怎么樣現(xiàn)在成功上架了,但是需要改進的地方還有很多,希望各位盲人朋友多來試試,給我提供反饋。
本文轉(zhuǎn)發(fā)自魚魚讀屏開發(fā)者原創(chuàng)文章。
]]>我們先來看一下 PDF Reader 的界面設計,非常的簡潔直觀,頂部的工具欄有文字配合引導,如果你有使用PDF 軟件的經(jīng)歷,那么這款軟件沒有任何上手難度。
在工具欄上觸發(fā)右鍵菜單,進入工具欄自定義界面,可以按照自己的需求去定義工具欄的布局,「分享」與「工具」的右側(cè)部分均可以自定義,想去掉哪些現(xiàn)有的工具欄選項,直接將其拖動出來即可完成去除工作,如果想加入哪個工具,直接拖動到工具欄即可。
PDF Reader 支持多 tab 頁管理 PDF 文檔,同時在左側(cè)設計了可隱藏的左邊欄,里面提供了縮略圖、注釋、書簽、大綱、OCR 結(jié)果顯示功能。
閱讀 PDF 我們就不詳細贅述了,這是一個 PDF 軟件最最最基本的功能,此軟件支持雙屏閱讀,有多種底色背景色可以選擇,還支持自動滾動頁面、幻燈片瀏覽等功能。
這款軟件支持通過剪貼板、圖片、文件、網(wǎng)頁多種途徑新建一個初始的 PDF 文檔。
PDF Reader支持簽名創(chuàng)建,你可以通過 trackpad 直接手寫添加你自己的簽名、也可以用鍵盤輸入+自定義字體風格、引入外部圖片的形式添加簽名。
所有保存的簽名都可以在「我的簽名」里隨時調(diào)用:
表格的插入,你可以選擇多種配色的表格樣式、定義單元格的寬度、高度,對頁眉、側(cè)邊欄、頁腳的占用行、列數(shù)量進行自定義,甚至連表格邊框的顏色、寬度以及背景色都可以自定義。
軟件也提供了交互式表單,這也是一款 PDF 軟件必備技能,你可以插入常見的單選按鈕、復選框、文本域、下拉菜單、列表框、按鈕元素,這些選項完全可以打造出一個成熟,實用的交互式表單內(nèi)容。
軟件支持對 PDF 內(nèi)容進行字符級別的編輯,如果你對性能有要求,可以考慮將 PDF 文檔先轉(zhuǎn)換為 Word 標準格式 DOCX,這樣在本地編輯內(nèi)容速度更快,對系統(tǒng)資源占用少一些。
頁面控制提供了插入、添加、替換、提取、拆分、旋轉(zhuǎn)單復制/粘貼/刪除等動作。
頁眉、頁腳的插入可選擇日期格式、邊距的設定,字體大小、顏色以及不防位置。經(jīng)過實際測試,頁眉頁腳插入的效果特別的清晰美觀,在自定義內(nèi)容的時候可以在后面跟上當前頁碼以及日期的信息。
這款軟件在安全防護方面做得也很周到,提供 PDF 水印,從根源保護用戶版權(quán)不受侵犯,水印可以是文字也可以是外部文件,你可以設置字號、顏色、透明度、旋轉(zhuǎn)角度、任意位置等等,但是建議如果能添加平鋪形式的水印就更完美了。
有些涉秘的 PDF 文檔需要設置密碼保護,PDF Reader 當然也能做到的,你可以針對開啟文檔、打印文檔、復制文檔分別設置密碼來做到保密防護,同時可以對文檔進行描述。
PDF Reader提供了豐富的格式轉(zhuǎn)換功能, 比如說:
這款軟件內(nèi)置了OCR 文字識別引擎,你可以將識別后的文本內(nèi)容導出為新的 PDF 文檔,也可以轉(zhuǎn)換為可搜索的 PDF 文檔,或者是純文本文檔。
在閱讀、處理 PDF 時,也可以即時對當前頁面或者任意頁面進行 OCR 文字識別,識別的結(jié)果可以直接在隱藏式的左邊欄上閱讀或復制,非常方便。
軟件支持本地目錄里的 PDF 文檔,快速建立自己的 PDF 文檔庫。
你也可以用 TAG 標簽系統(tǒng)對這些文檔進行管理,但目前似乎并沒有提供直接的TAG 標簽添加按鈕或者入口,最便利為文檔添加標簽的方法就是將文檔拖動到左邊欄 TAG 標簽列表里,或者是在文檔右鍵-文件信息里手動添加標簽。
最后我們來講一下軟件的導出功能,這部分還是很有創(chuàng)意的,你可以將 PDF 頁面整理好后導出成一個大型海報,當然你必須對自己的頁面進行精心的社交才行,你可以選擇對頁面是平鋪還是拆分,要根據(jù)你的內(nèi)容作出選擇。
紙張大小、每張紙顯示的頁數(shù)等信息都可以設計,或者是可以將 PDF 里的單頁挑選出來制作成可打印的小冊子版式。
大家可以從 PDF Reader 產(chǎn)品官網(wǎng)下載 Mac 版體驗試用,七天的免費體驗所有功能的權(quán)限很有誠意,現(xiàn)在我們聯(lián)合開發(fā)商為大家?guī)砹烁@?/p>
凡直接在產(chǎn)品官網(wǎng)購買 PDF Reader Mac 序列碼的同學,只要在結(jié)帳頁輸入兌換碼WAERFA10,即可享 9 折優(yōu)惠,無論購買標準版或?qū)I(yè)版皆適用(該兌換碼僅限在 PDF Reader 產(chǎn)品官網(wǎng)購買,恕無法合并優(yōu)惠)
額外優(yōu)惠:提供教育折扣與批量授權(quán)(請詳官網(wǎng)說明);了解PDF Reader標準版和專業(yè)版的區(qū)別,請參考此處?;點擊此處前往PDF Reader商城。
]]>掃描全能王(后面簡稱“全能王”)這款產(chǎn)品的用戶群并不是專為特別精通 iOS 的極客宅男所設計的,它覆蓋的用戶群是所有對文檔無紙化處理有需求的全球用戶,其實仔細回憶一下,你會發(fā)現(xiàn)身邊許多朋友、同事,特別是年齡稍大的用戶對紙質(zhì)文檔的電子化操作基本上是“文盲”級的水平,而如果你利用全能王這種掃描 app 幫助他們解決文檔的掃描、文字提取,會立刻讓你在他們面前得到新增的印象分哦。
全能王的核心功能就是文檔掃描,身邊的人經(jīng)常給你發(fā)過的“電子化”文檔無非就是“平拍”的照片,體積那么大,如果拍的光線不好,你還得放大才能看清楚,而你使用全能王發(fā)出去的文檔氣質(zhì)就不一樣,全能王可以將照片中的陰暗光線,噪點統(tǒng)統(tǒng)去掉,只留下跟原生編寫 PDF 一樣質(zhì)感的掃描文檔,而且你還可以對文檔的畫質(zhì)進行增亮、銳化、黑白等特效處理。
除了能媲美“千元級”的掃描功能,全能王最讓我喜歡的就是各種無紙化文檔的制作功能了,你可以用它來做:
所有掃描下來的文檔,全能王都能對其進行延伸操作,比如對文檔進行:
以上的功能會有一些是高級會員才能享用的服務,各位在使用 app 時可以獲得提示,當然,免費版用戶可以對這些功能進行次數(shù)限制的體驗操作。
全能王的 OCR 內(nèi)核技術我不知道是不是自家的,但我感覺性能很強大,穩(wěn)定,對于印刷體字體的識別、提取基本上準備率在 95% 以上,在 OCR 操作中你可以對細節(jié)、亮對比度進行適當調(diào)整,識別技術分“本地快速識別”或者“云端精準識別”,經(jīng)過實測,云端識別的準確率會更高,但是普通版僅僅可以用 10 次,升級高級版才可以無限制使用,如果你對 OCR 有重度使用需求,建議升級高級版。
識別還可以分整頁識別,局部識別兩種,這個很好理解吧?
識別出來的文字可以進行多國語言翻譯,導出 word 文檔,還可以與原文進行校對,真的非常貼心。
全能王的目錄組織能力也很強,可以是網(wǎng)格圖標式的,也可以是列表形式,而且可以根據(jù)各種條件進行排序,所有的文檔可上傳到 Box、Dropbox 云服務商。
全能王擁有強大的文檔操作擴展能力,一個紙質(zhì)文檔被掃描后,你可以邀請其他人添加評論選擇 AirPrint,發(fā)送傳真,上傳到各種云空間,保存到本地相冊,生成 PDF 預覽,發(fā)郵件,拼圖等等,而且最令我印象深刻的是可以拍攝一個紙質(zhì)表格,然后 OCR 識別后自動生成電子 Excel 表,簡直太神奇了。
升級高級帳戶的話用戶可以使用前面提到的諸多功能,比如:
掃描全能王高級帳戶有兩種訂購方式可供選擇,官方價格:
從我們這里購買的話:
按月訂購:21.90 元/月
按周訂購:16.50 元/周
按年訂購:175 元/年
這樣一比較的,看出來比官方價格合適許多吧?配合我們的專屬優(yōu)惠券你在購買年卡高級會員時還能再減 5 元呢。
[maxbutton id=”127″ ]
總的來說,掃描全能王是移動無紙化辦公的首選應用,我站五星推薦!
]]>大家平時有沒有遇到過這樣的尷尬,電腦(手機)里的圖片里有一個電話號碼、一個郵箱地址,或是一份內(nèi)涵段子需要分享給朋友,但還是得背下來手動敲打進去,甚至需要來回切換窗口來能完成。這時有一款性能優(yōu)良的 OCR 軟件就能幫你解決這個麻煩,這次我們推薦的是?iText。
[maxbutton id=”119″ ]
iText 是一款能從圖片中快速識別文字的 OCR 工具,屬于開發(fā)者 Jason 的 “i” 系列軟件中的一員,我們之前介紹過 Klib,iPic,iHosts 等產(chǎn)品。
iText 在 macOS 中識別圖片中文本的方式分為 Mac 上截屏識別 or 圖片導入識別。先來看第一種方式:
在 Menubar 上選擇「截圖識字」或是按下 ??1
快捷鍵,就能在 Mac 屏幕的任意位置截取文字圖片,然后剩下的事由 iText 完成即可,過一會兒文本識別內(nèi)容會自動從屏幕正中央彈出來,左側(cè)還有截取的原始圖片可供用戶對比,識別出的文本已自動轉(zhuǎn)入系統(tǒng)剪貼板,直接在目標位置粘貼即可。
第二種方式:
圖片導入方式是將已有圖片直接拖入到 iText 位于 Menubar 的圖標上去,交互設計與 iPic 的上傳圖片一樣,圖標轉(zhuǎn)一圈后自動彈出文本提取結(jié)果。通過筆者的多次「溫柔式」和「喪心病狂式」測試,iText 基本上能夠識別所有顯示清晰的圖片文字,但對于字體過小,圖片中光線不佳的情況也無能為力。
比如我們?nèi)粘I钪杏龅降暮喍涛淖?、網(wǎng)頁中的新聞故事都能完美識別,遇到一些特殊字符,特別是像程序代碼、手寫體中文的識別效果就不會理想。目前這款軟件對自動識別段落、中文環(huán)境下的全角標點符號、中文與英文字母、數(shù)字間的空格、英文首字母大寫等情況都進行了優(yōu)化識別。
按照作者的解讀,iText 并沒有采用離線識別庫,采用了在線 OCR 識別服務,這種服務很多大廠都有做,作者挑選了騰訊作為網(wǎng)內(nèi) OCR,Google 作為網(wǎng)外 OCR 的組合識別搭配。
對于數(shù)量較多的文本識別,你可以將識別后的窗口拖到圖片附近進行比對,或是開啟?iText 識別結(jié)果窗口的雙欄模式進行比對。(使用快捷鍵 ??R
快速調(diào)出結(jié)果窗口)
iText 目前可從 Mac App Store 免費下載,免費版每月可免費識別 20 次,訂閱 iText 高級版不限制識別次數(shù),分按月和按年付費,目前特惠價格分別為 7 元、68元,這要比官方價格分別優(yōu)惠 1 元和 10 元。
[maxbutton id=”119″ ]
]]>Prizmo 可以說是目前整個 App Store 里將 OCR 功能做的最好的應用,沒有之一。至少在我眼里無人能出其右。作為掃描類應用中的一員,Prizmo 的掃描效果其實并不能算是最佳,充其量只能說是勉強夠用。但你有刀槍劍戟,我有斧鉞勾叉,大家各有所長。Prizmo 的長就是讓它眾多應用中脫穎而出的 OCR 功能。文檔掃描的成像效果好壞與否對它來說并不是那么的重要,因為利用它的 OCR 功能,Prizmo 可以生成機器可識別的 PDF 文檔(Typewritten PDF)。除了傲視群雄的 OCR 功能,Prizmo 的售價也挺讓人傲視的,將近 10 刀的售價幾乎是同類應用均價的兩倍。不過在你知道 Prizmo 的價值之后,就會覺得這 10 刀花的簡直就是物超所值。
Prizmo 的用戶界面并沒有什么太多的亮點,中規(guī)中矩的遵循蘋果的設計指導,主界面基本上照搬了蘋果自家的 Newstand 應用的書架設計。與其他同類應用稍有不同的是,通常其他掃描應用一般只有一個按鍵作為創(chuàng)建掃描文檔的快速入口,而 Prizmo 則擁有三個按鈕,一共五種模式。
雖然有很多種模式,真正能夠創(chuàng)建掃描文檔的只是中央最大的那個相機按鈕。其他的按鍵都只是臨時借用 OCR 功能實現(xiàn)某些特定的操作,完成后操作后并不會在應用內(nèi)創(chuàng)建任何的文檔。這些特定的操作包括將文件上的內(nèi)容通過 OCR 提取出來保存到剪切版中。或者在內(nèi)置的閱讀器中朗讀文本的內(nèi)容,這點對于有視力障礙或者眼神不好的老人特別的實用。值得一提的是如果你不滿意 iOS 系統(tǒng)自帶的那些像機器人一樣的語音,可以下載由 Acapela 公司提供的第三方語音庫,我稍微試聽了下,效果確實比系統(tǒng)自帶的要更動聽更接近人聲,尤其是日語的發(fā)音……當然好東西是需要付錢的,一個語音包售價 3 刀。還有一個就是許多具有 OCR 功能的掃描應用也都擁有的翻譯功能,國外買的商品特別是藥品這類東西必須遵循上面的說明使用,在看不懂又不知要如何手動輸入到手機情況下,拿出來應急一下還是不錯的。
盡管以上幾種模式的目的性各不相同,但實際的操作流程并無二致,以創(chuàng)建掃描文檔為例介紹一下照相機界面。前面提過 Prizmo 的設計幾乎完全的遵從了蘋果的設計指導,照相機界面也不例外。在系統(tǒng)自帶的相機應用中左右滑動可以在全景、Slow Motion 等模式下切換,在 Prizmo 中存在相同操作手勢,左右滑動在文本、圖片以及名片三種模式間循環(huán)切換。前面兩種模式單從字面上就可以理解其作用,這里就不再贅述。第三種名片模式就是掃描名片并提取名片上的信息,直接創(chuàng)建為手機里的聯(lián)系人。其實在 Prizmo 中這個功能并不是最為重要的,但很多其他的掃描卻作為主打功能作為賣點進行宣傳。
除了通過鏡頭創(chuàng)建文檔以及從相冊中讀取已經(jīng)拍攝好照片作為文檔的頁面外,Prizmo 還有兩個比較特別的導入方式。第一種是利用 iOS 8 的 Document Picker 直接從其他支持 Document Provider 的應用中抽取文件添加到 Prizmo 中,如果你有購買 iOS 的 Transmit 的話則可以直接將保存在 FTP 服務器上的文檔添加到 Prizmo 中。牛 X 之處在于除了可以導入圖片外還可以直接導入 PDF 文件。另外一種則是通過檢測剪切板中的數(shù)據(jù)類型,如果存在圖片的話就可以直接將剪切板中的圖片導入到應用中,該選項只在有效時才會出現(xiàn)。
對于一個視力正常且智商正常的人而言將 iOS 設備的鏡頭對準需要掃描的文件然后輕輕按下拍照按鈕應該是件比吃飯還要簡單的事情。但一個視力障礙的人,可能需要費上不少勁才能完成看似簡單的動作。此時 iOS 系統(tǒng)集成的 VoiceOver 就派上了用場,啟用了該功能后 Prizmo 會發(fā)出語音告訴用戶向左移動 iOS 設備還是再向下移動一點點來引導拍攝。即使文件放倒了也沒有關系 Prizmo 的 OCR 引擎會自動糾正方向錯誤的文本。借助蘋果提供的 VoiceOver API 和 ExperVision 強大的 OCR 引擎,最后加上 Acapela 優(yōu)美動聽的語音, Prizmo 讓那些看不見的人們也能像正常人一樣享受閱讀之美,領略科技改變世界。
拍攝完所有的頁面之后為了更佳的可讀性,你可以為不同的頁面套加不同的顏色濾鏡。Prizmo 提供了原始、黑白以及顏色三種濾鏡,并且可以手動調(diào)整亮度與對比度參數(shù)。Prizmo 的顏色濾鏡是三個濾鏡中做的最好的一個,第一次使用的時有一種初見美女的驚艷。尤其在處理圖文混排的文件時,Prizmo 的算法會自動分辨圖片與文本,將文本進行黑白處理,而圖片則保持色彩不變。即保證了文本的易讀,也讓圖片不失本色。
在濾鏡功能旁邊有一個很容易引起歧義的功能 -「Readability」,通過這個功能可以讓原本模糊瘦細的字體變的更加清晰。起初我一直以為調(diào)整這個選項會提升掃描文件的成像效果,直到閱讀了官方的幫助文檔才知道這里的「可讀性」并不是指用戶的可讀性,而是指 OCR 引擎的可讀性。也就是說在這里無論你如何調(diào)整都對導出的 PDF 文件在觀感上沒有任何的影響,但會對 OCR 的準確率造成影響,因為它是給 OCR 引擎看的??偨Y(jié)一下「濾鏡」調(diào)整的效果是給人看的,「Readability」里的效果是給機器看的。
前面的這些步驟都是為了更高的 OCR 識別率而鋪墊的,多數(shù)情況下我很少去調(diào)整上面介紹的這些參數(shù),因為 Prizmo 已經(jīng)有一個預設的算法來優(yōu)化文檔,只在效果不理想時才需要人為干預。一切妥當之后點擊右上角的「Recognize」對文檔那進行 OCR 識別,過程中會有一個充滿科技感的掃描動畫。識別的速度非??焖?,一份 A4 的文件只需要一秒左右就識別完成了。有個煩人的地方是 Prizmo 里面幾乎所有的操作都是針對單獨的頁面而沒有一個批量處理模式,假如一份文件有很多的頁面,你需要手動的一個個去點擊識別。盡管在導出文件時有還未 OCR 識別的頁面存在時可以自動處理完后導出,但在沒有預覽的情況下導出總讓人不是那么的放心。
OCR 引擎識別完成后會對文檔的不同區(qū)域分區(qū)編號并標識為文本、圖片和數(shù)字三種區(qū)域類型。Prizmo 的自動識別非常準確幾乎能夠無誤的區(qū)分文本區(qū)域與圖片區(qū)域。對標識為圖片類型的區(qū)域,OCR 引擎就會略過處理以避免產(chǎn)生一些奇怪的冗余字符。如果對 Prizmo 自動分區(qū)不滿意也可以手動的調(diào)整分區(qū)位置大小,添加刪減分區(qū)或者改變分區(qū)的類型。Prizmo for iPad 的 OCR 編輯界面設計的非常合理,而非像其他應用那樣填鴨式的將 iPhone 上的界面直接放大到 iPad 上。相同的界面在 iPhone 上需要三屏才能夠展示的信息在 iPad 上被聚合到同一個界面下顯示。讓用戶可以一邊調(diào)整區(qū)域一邊對比 OCR 的識別結(jié)果與原始文檔是否有出入。在識別有誤的情況下,可以直接在輸出結(jié)果上人為修正,在編輯的同時 Prizmo 會自動將原始文檔相對應的區(qū)域放大以便用戶比對。非常的人性化。
Prizmo 除了使用 iCloud 用作同步文檔外并沒有集成任何第三方的云服務,所以不能像其他掃描應用那樣可以直接將文檔上傳到云端后分享給別人,而需要先將文檔導出后通過系統(tǒng)集成的分享列表(Share Sheets)選擇分享的目的地。如果說前面介紹的這些功能能夠讓 Prizmo 與其它同類應用拉開距離,那么下面要介紹的「導出」功能可能要把同類應用甩開幾條街了。也是因為這個功能才有了開篇的這個標題「將現(xiàn)實復制進虛擬的文檔掃描應用」。
Prizmo 可以將 OCR 識別后的文檔導出為三種文件類型,第一種是純文本的 Txt 文件;其次是很多具有 OCR 功能的掃描應用包括 Scanbot 所采用的在導出的 PDF 文件中附上 OCR 數(shù)據(jù);最后一種,Przimo 會將原始文檔中的文本(Image)替換為電腦生成的字打文字(Typewritten),并讓生成的文檔與原始文檔保持一致的排版,就像把已經(jīng)打印成紙張的實體文件又逆向工程的生成了原始的數(shù)字文件。
在蘋果發(fā)布 iOS 8 不久后 Creaceed 就隨即更新了針對全新系統(tǒng)優(yōu)化的 Prizmo 4,也因此多次被 App Store 的編輯團隊所推薦。在新的大版本更新中除了對以往的功能與界面進行優(yōu)化外還引入了許多 iOS 8 的全新系統(tǒng)特性。比如可以在不離開相冊應用對已經(jīng)拍攝的文件照片套加濾鏡以及裁剪邊緣的 Extension。在眾多新增的特性中我個人最喜歡的是對 Handoff 的支持,這樣我可以在 iPhone 上拍攝完文檔后無縫的切換到屏幕更大更適于編輯的 iPad 或者 Mac 上對同一文檔進一步處理,避免在 iPhone 上來回的切換界面。
在 iOS 自動化方面 Prizmo 應該是眾多掃描應用中做的最好的一款,幾乎所有的操作都能夠通過 URL Scheme 執(zhí)行。對 X-callback-URL 協(xié)議的支持也非常的良好,所以你可以將任何應用中的文本發(fā)送到 Prizmo 中朗讀,反之你也可以將 Prizmo 的識別結(jié)果傳輸?shù)饺我鈶弥?。我?Prizmo 做的最經(jīng)常的一件事情是充話費,偶爾也會將快遞的單號掃描后存放到 Clear 中備用,雖然有點大材小用的嫌疑但確實很方便。具體的流程是在 Launch Center Pro 中添加一個 Action 讓 Prizmo 開啟單行識別拍照模式,對準充值卡的序列號,識別完成后跳轉(zhuǎn)到短信界面將序列號發(fā)送到運營商指定的短信號碼完成充值。
如果想將 OCR 識別結(jié)果傳輸?shù)讲恢С旨羟邪逭{(diào)用的應用中的話可以通過調(diào)整destination
、pasteboardName
和textParameterName
這個三個參數(shù)來實現(xiàn)相同的操作。以將快遞單號保存到 Clear 為例:
prizmo://x-callback-url/captureText?language=en&destination=url&textParameterName=taskName&x-success={{clearapp://task/create?listName={{Notes}}&listPosition=&taskName=}}
在這段 URL Scheme 中我將destination
的值設置為url
,這是提前告訴 Prizmo 將 OCR 的識別結(jié)果傳輸?shù)胶竺娴?URL,如果后面的應用支持調(diào)用剪切板的話可以將destination
的值設置為pasteboard
。然后將textParameterName
的值設置為與 Clear 創(chuàng)建任務的參數(shù)一致即taskName
。假設 Clear 創(chuàng)建任務的參數(shù)為CreatTask
,那么textParameterName
的值也應該設置為CreatTask
。簡而言之就是「textParameterName」的值應該是目標應用創(chuàng)建文本的參數(shù)名,這樣就可以直接將 OCR 結(jié)果傳輸?shù)侥繕藨弥小?/strong>除此以外 Prizmo 其他的 URL Shceme 相對就比較好理解,有興趣進一步了解 Prizmo 的話可以參考 Creaceed 在 Github 上的官方文檔。
Prizmo 的開發(fā)商是來自于比利時的 Creadceed 公司。在誰也不知道會是什么樣結(jié)果的情況下,兩位聯(lián)合創(chuàng)始人放棄了在大學研究員以及銀行金融系統(tǒng)里的舒適工作于 2008 年創(chuàng)立了該公司。
Creaceed 是一個由 Creativity 以及意為「前進」的拉丁語 Cedere 所組成的衍生詞。公司的 Logo 也很有意思是一顆種子,前半部由大顆粒像素構(gòu)成,很好的傳達了公司所從事的行業(yè),恰巧的事種子 Seed 與 Ceed 發(fā)音也很相似。Prizmo 的話相對比較好猜想就是棱鏡 Prism + OCR。
Raphael Sebbe 作為公司的創(chuàng)始人兼 CEO,也是公司的主要開發(fā)人員之一,特別熱衷于任何涉及到圖形圖像的技術,當然也包括 3D 圖形渲染以及圖像分析識別。最初的時候他想著如何能夠?qū)⑦@些自己擅長的技術組合在一起開發(fā)出一款不僅擁有最新科技并兼具實用性的應用,Prizmo 就由此誕生。
在溝通的過程中他推薦了一些他最常用的應用,分別如下:
Mac 下最常用的應用有 Airmail、Pocket、Sketch、Textmate、Espresso。還有一些專業(yè)性的應用因為對大家沒有什么參考價值就不一一介紹了。
與其將 Prizmo 稱之為一款具有 OCR 功能的掃描應用,我更愿意稱其為具有掃描功能的 OCR 應用。Prizmo 像是一款從桌面搬到移動平臺上的應用,它注定了不像其他的掃描應用那樣以快取勝,但在功能上它有足夠的資本讓其他應用只能望其項背。iPhone 因為屏幕的限制在容納這款桌面級應用時顯得有點捉襟見肘,在 iPad 上則顯得更加地游刃有余。
看來這里如果你躍躍欲試的想買來試一下的話,下面這個消息對你來說可能就是晴天霹靂了。Prizmo 不支持對中文的 OCR 處理,至少短期內(nèi)是不會有的。Prizmo 中集成了兩個 OCR 引擎,一個前面提到是由 Expervision 所提供的,另外一個則是開源的 Tesseract。前者負責像英語這些語言的解析,后者的話則是用來解析像韓文這類非拉丁字母的語言,因為 Tesseract 對中文的識別率不是非常的理想所以并未對中文以及日文的解析功能進行整合。
]]>