婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > python解析PDF程序代碼

python解析PDF程序代碼

熱門標簽:無錫客服外呼系統一般多少錢 百度地圖標注位置怎么修改 洪澤縣地圖標注 地圖標注視頻廣告 北京電信外呼系統靠譜嗎 高德地圖標注是免費的嗎 梅州外呼業務系統 老人電話機器人 大連crm外呼系統

說在前面

和word的文本相比PDF更類似于一張張圖片,圖上放著一個個文字。對其的解析是將圖片上的文字提取到text文件中,方便之后的分析。

添加依賴

在python的環境中安裝PDFminer3k,不要裝錯了,一開始我裝的是PDFminer,結果有幾個包不能用
pip install pdfminer3k

源程序代碼

#!/usr/bin/env python3
# -*- coding:utf-8 -*-
# pip3 install pdfminer3k

import os
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBoxHorizontal
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowed
from pdfminer.pdfdevice import PDFDevice


def read_pdf(pdf_name, result_name):
    # 以二進制讀模式打開
    fp = open(pdf_name, 'rb')
    # 用文件對象來創建一個pdf文檔分析器
    parser = PDFParser(fp)
    # 創建一個pdf文檔
    doc = PDFDocument()
    # 連接分析器 與文檔對象
    parser.set_document(doc)
    doc.set_parser(parser)
    # 提供初始密碼,如果沒有密碼 就創建一個空的字符串
    doc.initialize('')
    # 檢測文檔是否提供txt轉換,不提供就拋出異常
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    # 創建PDf 資源管理器 來管理共享資源
    rsrcmgr = PDFResourceManager()
    # 創建一個PDF設備對象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    # 創建一個PDF解釋器對象
    interpreter = PDFPageInterpreter(rsrcmgr, device)

    with open(result_name, "w", encoding="u8") as fd_out:
        # 循環遍歷列表,每次處理一個page的內容
        for i, page in enumerate(doc.get_pages(), 1):
            index = "===========《第{}頁》===========".format(i)
            print(index)
            fd_out.write(index + "\n")
            interpreter.process_page(page)
            # 接受該頁面的LTPage對象
            layout = device.get_result()
            for x in layout:
                # 這里layout是一個LTPage對象 里面存放著 這個page解析出的各種對象 一般包括LTTextBox,
                # LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文本就獲得對象的text屬性
                if not isinstance(x, LTTextBoxHorizontal):
                    continue
                results = x.get_text()
                print(results)
                fd_out.write(results)

if __name__ == '__main__':

    # 獲取讀取文件夾
    filePath = '../PDFfile'
    #遍歷文件夾
    for i,j,k in os.walk(filePath):
        for m in k:
            # 格式化輸出的名稱和地址
            result = '../TextFile/' + m[:-4] + '.txt'
            # 格式化源文件路徑
            fileName = i + '/' + m
            # 調用函數解析
            read_pdf(fileName, result)

參考以下代碼內容:python 讀取pdf文本內容

#!/usr/bin/env python3
#-*- coding:utf-8 -*-
# pip3 install pdfminer3k
  
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBoxHorizontal
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowed
from pdfminer.pdfdevice import PDFDevice
 
def read_pdf(pdf_name, result_name):
    # 以二進制讀模式打開
    fp = open(pdf_name, 'rb')
    # 用文件對象來創建一個pdf文檔分析器
    parser = PDFParser(fp)
    # 創建一個pdf文檔
    doc = PDFDocument()
    # 連接分析器 與文檔對象
    parser.set_document(doc)
    doc.set_parser(parser)
    # 提供初始密碼,如果沒有密碼 就創建一個空的字符串
    doc.initialize('')
    # 檢測文檔是否提供txt轉換,不提供就拋出異常
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    # 創建PDf 資源管理器 來管理共享資源
    rsrcmgr = PDFResourceManager()
    # 創建一個PDF設備對象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    # 創建一個PDF解釋器對象
    interpreter = PDFPageInterpreter(rsrcmgr, device)
     
    with open(result_name,"w",encoding="u8") as fd_out:
        # 循環遍歷列表,每次處理一個page的內容
        for i,page in enumerate(doc.get_pages(),1):
            index = "===========《第{}頁》===========".format(i)
            print(index)
            fd_out.write(index + "\n")
            interpreter.process_page(page)
            # 接受該頁面的LTPage對象
            layout = device.get_result()
            for x in layout:
                # 這里layout是一個LTPage對象 里面存放著 這個page解析出的各種對象 一般包括LTTextBox,
                # LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文本就獲得對象的text屬性
                if not isinstance(x, LTTextBoxHorizontal):
                    continue
                results = x.get_text()
                print(results)
                fd_out.write(results)   
                       
if __name__ == '__main__':
    pdf_name = 'test.pdf'
    result = 'test.txt'
    read_pdf(pdf_name, result)

以上就是python解析PDF的詳細內容,更多關于python解析PDF的資料請關注腳本之家其它相關文章!

您可能感興趣的文章:
  • python實現csdn全部博文下載并轉PDF
  • Python合并多張圖片成PDF
  • Python提取PDF指定內容并生成新文件
  • 詳解用Python把PDF轉為Word方法總結
  • python操作mysql、excel、pdf的示例
  • python pdfkit 中文亂碼問題的解決方案
  • python 三種方法提取pdf中的圖片
  • Python實現給PDF添加水印的方法
  • Python讀取pdf表格寫入excel的方法
  • Python 多張圖片合并成一個pdf的參考示例

標簽:吉林 怒江 長春 岳陽 洛陽 安慶 泉州 清遠

巨人網絡通訊聲明:本文標題《python解析PDF程序代碼》,本文關鍵詞  python,解析,PDF,程序,代碼,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python解析PDF程序代碼》相關的同類信息!
  • 本頁收集關于python解析PDF程序代碼的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    国产精品乱码一区二三区小蝌蚪| 99精品视频在线免费观看| 亚洲狠狠丁香婷婷综合久久久| 国产农村妇女毛片精品久久麻豆| 精品电影一区二区三区| 精品国产乱码久久久久久影片| 精品91自产拍在线观看一区| 欧美大黄免费观看| 国产欧美一区二区精品性色超碰| 国产情人综合久久777777| 国产精品第13页| 一区二区三区日韩在线观看| 亚洲国产综合视频在线观看| 蜜臀av一区二区在线免费观看| 久久精品72免费观看| 国产精品一卡二卡在线观看| 99国产精品久| 制服丝袜亚洲网站| 久久久高清一区二区三区| 日韩毛片精品高清免费| 亚洲福利视频三区| 国产一区二区三区四区五区入口| 国产91综合一区在线观看| 91国产免费观看| 精品免费99久久| 日韩美女视频一区二区| 久久精品国产免费看久久精品| 成人免费看视频| 91精品午夜视频| 亚洲丝袜精品丝袜在线| 精品一区二区在线观看| 在线观看成人免费视频| 久久美女艺术照精彩视频福利播放 | 亚洲一区二区三区自拍| 蜜臀久久久99精品久久久久久| 国产91精品久久久久久久网曝门| 欧美午夜精品一区二区三区| www国产成人免费观看视频 深夜成人网| 久久久www成人免费毛片麻豆| 一区二区三区欧美在线观看| 免费在线观看一区二区三区| 99久免费精品视频在线观看| 欧美成人乱码一区二区三区| 亚洲午夜久久久久久久久电影院| 丰满白嫩尤物一区二区| 日韩欧美一区二区视频| 亚洲综合一区二区精品导航| 成人免费电影视频| 精品国产伦一区二区三区免费| 一区二区三区免费在线观看| 成人h动漫精品一区二区| 精品少妇一区二区三区免费观看| 亚洲一区二区三区不卡国产欧美| 成人黄色电影在线| 久久久精品国产免大香伊| 日本伊人午夜精品| 欧美日韩国产综合视频在线观看| 亚洲欧美激情小说另类| 成人黄色免费短视频| 中文字幕+乱码+中文字幕一区| 捆绑调教美女网站视频一区| 91精选在线观看| 日韩国产高清影视| 4438成人网| 日韩中文字幕区一区有砖一区 | 九九精品一区二区| 日韩午夜在线影院| 秋霞国产午夜精品免费视频| 4438x亚洲最大成人网| 午夜精彩视频在线观看不卡| 欧美日本在线播放| 午夜不卡av免费| 欧美精品18+| 麻豆精品国产传媒mv男同| 3d成人动漫网站| 免费成人av在线播放| 欧美成人r级一区二区三区| 视频一区二区三区在线| 欧美日韩亚洲不卡| 日韩不卡一区二区三区| 日韩美女在线视频| 国产在线视频一区二区三区| 欧美激情一区二区三区| 成人理论电影网| 亚洲激情av在线| 欧美久久久久久久久久| 久久成人免费日本黄色| 久久精品在这里| 色综合天天天天做夜夜夜夜做| 亚洲精品高清视频在线观看| 欧美久久一区二区| 精品亚洲国产成人av制服丝袜| 欧美国产日韩精品免费观看| 色综合久久久久久久| 日韩国产一二三区| 国产精品私人影院| 欧美特级限制片免费在线观看| 日韩高清不卡一区二区三区| 久久久一区二区| 91久久一区二区| 韩国欧美国产一区| 亚洲毛片av在线| 26uuu久久天堂性欧美| 国产91丝袜在线播放0| 777亚洲妇女| 成人在线一区二区三区| 一区二区三区在线观看动漫| 欧美三级日韩在线| 亚洲尤物视频在线| 国产欧美视频在线观看| 国产成人免费在线视频| 一区二区三区四区精品在线视频 | 亚洲裸体xxx| 欧美一区二区精美| 欧美亚洲日本国产| 国产一区二区三区综合| 亚洲伦理在线免费看| 国产欧美一区二区三区沐欲| 7777精品伊人久久久大香线蕉经典版下载 | 99久久精品国产毛片| 麻豆成人免费电影| 一区二区在线观看不卡| 国产亚洲精品超碰| 欧美一区二区三区免费大片| 色哟哟欧美精品| 成人一二三区视频| 国产美女久久久久| 免费在线观看日韩欧美| 亚洲电影第三页| 亚洲精品国产第一综合99久久| 国产亚洲综合在线| 精品国产一区二区三区久久影院| 欧美视频一区二区| 在线精品视频一区二区三四| 91在线观看高清| 成人午夜碰碰视频| 丁香亚洲综合激情啪啪综合| 国产精品综合av一区二区国产馆| 日日夜夜免费精品| 日韩激情一二三区| 日韩福利视频导航| 日本亚洲最大的色成网站www| 亚洲国产视频直播| 偷窥少妇高潮呻吟av久久免费| 亚洲精品成人在线| 亚洲一线二线三线视频| 亚洲午夜成aⅴ人片| 亚洲成人1区2区| 日韩影视精彩在线| 美国三级日本三级久久99| 久久精品国产99| 国产一区日韩二区欧美三区| 国产乱淫av一区二区三区| 国产精品综合视频| 成人av资源在线观看| 91视频.com| 在线亚洲+欧美+日本专区| 欧美日韩在线免费视频| 91精品国产综合久久久久久久久久| 欧美一区二区三区的| 日韩美女一区二区三区| 国产天堂亚洲国产碰碰| 中文字幕亚洲视频| 亚洲与欧洲av电影| 免费成人深夜小野草| 风间由美性色一区二区三区| 成a人片亚洲日本久久| 91福利区一区二区三区| 欧美大片免费久久精品三p | 欧美日韩在线一区二区| 欧美一级片免费看| 国产欧美久久久精品影院| 一区二区视频在线看| 石原莉奈一区二区三区在线观看| 免费精品视频在线| 成人午夜激情影院| 欧美日本在线视频| 国产欧美日韩在线视频| 亚洲一区在线观看视频| 激情综合色综合久久综合| 91在线视频在线| 日韩免费观看高清完整版| 亚洲视频在线观看一区| 青青国产91久久久久久| 成人综合激情网| 日韩一本二本av| 亚洲欧美日韩人成在线播放| 激情综合网激情| 欧美日韩在线直播| 国产精品福利在线播放| 奇米影视一区二区三区小说| 91视频一区二区三区| 欧美精品一区二区三区四区 | 亚洲二区在线视频| 国产精品白丝av| 欧美一区二区三区影视| 亚洲色图欧洲色图婷婷| 国产一区二区美女| 欧美一区二区三区小说| 亚洲乱码国产乱码精品精可以看 |