【 創科廣場】Adobe推內容擷取API 釋放PDF更多內容

2021-08-20 09:19

全球不少文件系統都是利用PDF文件交換,從文件擷取內容(Data Capturing),才能輸入系統,往往也是不少系統整合最大挑戰之一,尤其近年RPA(機械人流程自動化),自動處理報價表和帳單。

從PDF擷取內容,往往必須靠光學字元辨識(OCR)工具,掃描PDF文件並找出內容,甚至是表格內容,表格上不同位置的數據,OCR有不少限制,也未必可完全準確擷取文件內容和屬性,有時要以不同工具,甚至靠人手核對。

市場上PDF文件可通過不同系統生成,例如是ERP系統,從Word或Excel和其他文件轉存而成,甚至從影像掃描產生,部分系統只產生供人類閱讀的PDF,從未預計最終要與機器溝通,以至PDF從個別系統生成後,結構並不容易供電腦辨認,如果辨認表格,就更加麻煩。

以編程生成動態數據

雖然RPA工具可通過人工智能,決定文件上某個位置數據;市場上領先工具ABBYY,亦可準確辨認不同PDF,但往往不能解決全部問題;開發人員動用多種工具,才取出PDF所有數據。

系統辨認PDF,往往要先搞清楚從那個系統產生,如果開發人員可以有更好的應用程式界面,就可以快速擷取內容、圖片、位置,甚至位置和表格,市場上有不少雲端的工具,以擷取PDF內容;例如是PDF.co(https://pdf.co/),並整合到不同工具或系統,從PDF提取內容已成為一門大行業。

Adobe是PDF的開發廠商,推出了Adobe PDF Extract API和Adobe Document Generation API兩個應用程式界面,有助解決PDF文件內容交換難題,協助擷取更多PDF文件內容,以編程方式生成具動態數據的檔案。

雲端為基礎API

PDF幾乎成為可攜化文件的統一標準,而以雲端為基礎API,可協助開發人員加速開發。Adobe已開發PDF文件30年,其Adobe電子檔案服務、以雲端為基礎API和SDK,已經可讓開發人員開發方案。

Adobe估算,每年約有2.5萬億個新創建PDF檔案。Adobe PDF Extract API 乃建基於Liquid Mode,也是以雲端為基礎的API,同時分析來自掃描和原生PDF的結構,再提取文字、表格數據、圖像等所有PDF元素,了解相對位置、跨欄和分頁的閱讀順序。

據Adobe公布,PDF Extract API的優勢,在於可提取所有的PDF元素,不少API僅限提取某一種類型元素。此外,許多供應商也有指定平台;Adobe所有API,包括PDF Extract API則可使用任何現代編程語言或者平台,並準確地提取數據以用於機器學習模型、分析、製作索引或儲存,整合RPA和自然語言處理(Natural Language Processing,NLP)等下游流程自動化,重新發布適用於多個媒體的PDF內容。

而Adobe Document Generation API則可讓開發人員快速設計自訂Microsoft Word範本,以及生成具動態數據Word和PDF檔。

Document Generation API還包括了與Adobe Sign作整合、開箱即用工具,隨時可在檔案中使用電子簽名,以產生發票和報價等文件。Document Generation API還可與適用於Microsoft Power Automate的 Adobe PDF Tools連接器一起使用,Power Platform能自動化預備發票、協議等檔案流程。

關鍵字

最新回應

關鍵字
You are currently at: std.stheadline.com
Skip This Ads
close ad
close ad