在之前的文章之中小編已經給大家介紹過了python將pdf文件之中表格取出來的方法,但是表格數據取出來之后如果不保存在程序關閉之后就會被銷毀 。所以下面會來詳細介紹一下,python如何批量提取PDF表格數據并轉為Excel文件保存的方法,一起往下看看吧 。
【Python如何批量提取PDF表格數據轉為Excel?Python怎么將PDF表格保存為Excel文件】

1.因為是要批量提取pdf文件,所以需要導入的模塊為os、glob、pdfplumber這三個,其中glob模塊的作用則是能夠用來實現指定pdf文件的查找操作 。模塊導入文件之后定義一個變量,此變量需要接收字符串類型的文件路徑,該文件路徑需要有多個pdf文件存在,代碼如下:
import osimport globimport pdfplumberimport pandas as pdpath = r'/Users/wangwangyuqing/Desktop/pdf'2.然后使用創建for循環結構,此循環迭代遍歷的對象就是通過join()方法加上文件路徑和pdf后綴,找到的該文件路徑內所有pdf文件 。然后用這個文件路徑去調用提取表格并轉為Excel文件的函數,代碼如下:
for f in glob.glob(os.path.join(path, "*.pdf")): res = save_pdf_to_excel(f)3.然后就是整個程序的關鍵核心代碼了,定義函數并接收pdf文件路徑作為參數 。函數之中首先調用open()方法將pdf文件打開,然后獲取到它所有的頁碼,再循環這個頁碼對象并且調用extract方法來獲取這些頁碼之中的表格數據 。
表格數據獲取到之后使用pandas第三方庫將其轉為表格格式的Dataframe類型對象,然后去調用to_excle()方法就可以將這個表格數據保存到Excel之中了,詳細代碼示例如下所示:
def save_pdf_to_excel(path): pdf = pdfplumber.open(path) pages = pdf.pages tables = [] for each in pages: table = each.extract_table() tables.extend(table) data = pd.DataFrame(tables[1:], columns=tables[0]) file_name = path.split('/')[-1].split('.')[0] + '.xlsx' data.to_excel("/Useop/data/{}".format(file_name), index=False)以上就是關于“Python如何批量提取PDF表格數據轉為Excel?Python怎么將PDF表格保存為Excel文件”的全部內容了,希望對你有所幫助 。
猜你喜歡
- Python打印日志信息怎么做?Python如何手動輸出日志信息
- 怎么查看Python已經安裝的庫?Python所有已安裝庫如何導出
- 蘿卜怎么存放 蘿卜如何儲藏才能不康
- 生的梭子蟹怎么處理 梭子蟹如何清洗
- 如何做蘿卜干酸豆角泡菜 怎么制作出來的好吃
- 如何做蕎麥饅頭又軟又好吃 怎么做出又軟又好吃的蕎麥饅頭
- 如何做好吃的自制冰淇淋 好吃的自制冰淇淋怎么做
- 第一株雜交水稻是如何誕生的 我國雜交水稻什么時候問世
- 如何去除鐵門上的雙面膠
- 板栗如何做好吃 板栗做法介紹
