PDFlib TET
產品編號:1636
當前版本:v2.3
開 發(fā) 商:PDFlib
產品類型:獨立控件
產品功能:PDF處理
開發(fā)平臺:
其他特性:Web Form / Windows Form
產品源碼:不提供源碼
PDFlib TET(文本內容提取工具包)是一款可以從任意PDF文檔格式中可靠地提取文本信息的軟件。它不僅可以作為一種庫/控件,還可以一種命令行工具。該工具包可以使得PDF格式的文本內容轉換成Unicode(統(tǒng)一的字符編碼標準)字符串,并附加詳細的字形和字體信息。一旦擁有了TET,你就可以從PDF文檔中的文本獲取相應的Unicode字符值,以及它在頁面的位置。
PDFlib TET 特征:
除了低水平的文字獲取功能外,TET還包含有文本內容分析算法——鑒別單詞邊界,去除冗余和重復文本(比如文字陰影和字體加粗)。使用輔助的PCOS接口,你就可以從PDF格式文本獲取任意格式的對象,比如元數據,超文本等。