pdfminer3k-解析pdf · PHP/Python/前端/Linux 等等學習筆記

[TOC] ## pdfminer3k-解析pdf ``` import logging from urllib.request import urlopen logging.Logger.propagate = False logging.getLogger().setLevel(logging.ERROR) from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfparser import PDFParser, PDFDocument fp = open('template/pdftest.pdf', 'rb') # 在線 # fp = urlopen('http://www.tencent.com/zh-cn/articles/8003251479983154.pdf') # 創建一個與文檔關聯的解析器 parser = PDFParser(fp) # PDF文檔對象 doc = PDFDocument() # 鏈接解析器和文檔對象 parser.set_document(doc) doc.set_parser(parser) # 初始化文檔 doc.initialize("") # 創建DPF資源管理器 resource = PDFResourceManager() # 參數分析器 laparam = LAParams() # 聚合器 device = PDFPageAggregator(resource, laparams=laparam) # 創建頁面解析器 interpreter = PDFPageInterpreter(resource, device) # 使用文檔對象從pdf中讀取內容 for page in doc.get_pages(): # 使用頁面解析器 interpreter.process_page(page) layout = device.get_result() # 使用聚合器獲取內容 for out in layout: # 判斷是否有get_text屬性 if hasattr(out, 'get_text'): print(out.get_text()) if __name__ == '__main__': pass ```