新聞中心
本篇內(nèi)容主要講解“Python GUI編程怎么制作一個文檔圖片提取軟件”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“Python GUI編程怎么制作一個文檔圖片提取軟件”吧!
公司主營業(yè)務:網(wǎng)站設(shè)計、網(wǎng)站建設(shè)、移動網(wǎng)站開發(fā)等業(yè)務。幫助企業(yè)客戶真正實現(xiàn)互聯(lián)網(wǎng)宣傳,提高企業(yè)的競爭能力。成都創(chuàng)新互聯(lián)是一支青春激揚、勤奮敬業(yè)、活力青春激揚、勤奮敬業(yè)、活力澎湃、和諧高效的團隊。公司秉承以“開放、自由、嚴謹、自律”為核心的企業(yè)文化,感謝他們對我們的高要求,感謝他們從不同領(lǐng)域給我們帶來的挑戰(zhàn),讓我們激情的團隊有機會用頭腦與智慧不斷的給客戶帶來驚喜。成都創(chuàng)新互聯(lián)推出臨西免費做網(wǎng)站回饋大家。
本文將進一步講解如何用Python提取PDF與Word中圖片,并結(jié)合之前講解過的GUI框架PysimpleGUI,做一個多文件圖片提取軟件,效果如下:
本文主要將分為以下部分講解:
PDF,Word,Excel文件圖片提取
構(gòu)造圖片提取器GUI框架
整合代碼并打包
主要涉及的Python模塊有:
PIL
PySimpleGUI
re
win32
os
zipfile
fitz
準備工作
首先使用pip安裝相關(guān)依賴模塊
pip install pillow #這是對模塊PTL的安裝 pip install pypiwin32 #這是對win32的安裝 pip install os pip install zipfile pip install PyMuPDF #這是引用fitz對PDF操作的包 pip install PySimpleGui
一,提取各文件內(nèi)嵌圖片
在之前的文章有講過,讀取Excel有兩種方法。一種是將后綴名改成.zip格式進行提取,一種是通過Pillow模塊對Excel進行圖片復制與保存。而在我們這次3種文件格式的圖片提取當中,Excel提取圖片方法和之前一樣。
Word中圖片提取方法和通過.zip提取方法類似,PDF提取圖片方法要用到新的模塊。由于Excel中提取圖片的兩種方法在之前的文章講過,故這里只講解PDF和Word中的提取方法。
1.1提取Word圖片思路
和以前一樣,我們先看代碼再講解
path = values["lujing"] count = 1 for file in os.listdir(path): new_file = file.replace(".docx",".zip") os.rename(os.path.join(path,file),os.path.join(path,new_file)) count+=1 number = 0 craterDir = values["lujing"] + '/' # 存放zip文件的文件夾路徑 saveDir = values["lujing"] + '/' # 存放圖片的路徑 list_dir = os.listdir(craterDir) # 獲取所有的zip文件名 for i in range(len(list_dir)): if 'zip' not in list_dir[i]: list_dir[i] = '' while '' in list_dir: list_dir.remove('') for zip_name in list_dir: # 默認模式r,讀 azip = zipfile.ZipFile(craterDir + zip_name) # 返回所有文件夾和文件 namelist = (azip.namelist()) for idx in range(0,len(namelist)): if namelist[idx][:11] == 'word/media/':#圖片是在這個路徑下 img_name = saveDir + str(number)+'.jpg' f = azip.open(namelist[idx]) img = Image.open(f) img = img.convert("RGB") img.save(img_name,"JPEG") number += 1 azip.close() #關(guān)閉文件,必須有,釋放內(nèi)存
這里的代碼和GUI中通過.zip方式提取Excel圖片的代碼思路是一樣的。
“
path = values["lujing"]這里是讀取GUI中鍵為**“ lujing” **的值,也即文件存儲位置,用于os模塊讀取與操作。
new_file = file.replace(".docx",".zip")是替換后綴名,如果是Excel的話,就把.docx改成.xlsx或xls。
craterDir = values["lujing"] + '/' 這是存放zip文件的文件夾路徑,注意此處重新到的鍵為“ lujing”的值后要在后面添加/。
saveDir = values["lujing"] + '/' 這是存放圖片的路徑,同理,和上面一樣加個/號。
”
最后說一下與Excel提取比例,最大的不同是下面的代碼
if namelist[idx][:11] == 'word/media/':細心的讀者可以發(fā)現(xiàn),與Excel提取比例,中括號里面的值改了。
很好理解,我們可以打印名稱列表[idx],可以發(fā)現(xiàn)在索引0到10是'word/media/'所在位置。而在Excel中是前9位。
感興趣的讀者可以翻看之前的文章,那里有對這段代碼的詳細解析,這里不多做介紹。
1.2提取PDF圖片思路
和之前的excel提取圖片一樣,在一個pdf中加入4張圖片,我們將它壓縮為zip文件
讀取后
相關(guān)代碼如下:
def pdf2pic(path, pic_path): doc = fitz.open(path) nums = doc._getXrefLength() imgcount = 0 for i in range(1, nums): text = doc._getXrefString(i) if ('Width 2550' in text) and ('Height 3300' in text) or ('thumbnail' in text): continue checkXO = r"/Type(?= */XObject)" checkIM = r"/Subtype(?= */Image)" isXObject = re.search(checkXO, text) isImage = re.search(checkIM, text) if not isXObject or not isImage: continue imgcount += 1 pix = fitz.Pixmap(doc, i) img_name = "img{}.png".format(imgcount) if pix.n < 5: try: pix.writePNG(os.path.join(pic_path, img_name)) pix = None except: pix0 = fitz.Pixmap(fitz.csRGB, pix) pix0.writePNG(os.path.join(pic_path, img_name)) pix0 = None if __name__ == '__main__': path = values["lujing"]+ '/' + values["wenjian"] pic_path = values["lujing"] pdf2pic(path, pic_path)
先說一下這段代碼的思路吧,由于PDF不能像Excel和Word一樣改后綴名進行提取,故這里運用python的一個模塊PyMuPDF,過程如下
閱讀PDF并遍歷每一頁
篩選無用的元素并用正則表達式獲取圖片
生成并保存圖片
fitz.open(path)是打開PDF文件夾,這里的路徑是需要在GUI界面中獲取用戶的文件放置路徑于文件名的。
for i in range(1, nums): text = doc._getXrefString(i)
這是我們的第一步重新并存歷,將重新引入到的字符串內(nèi)容放入到文本中
if ('Width 2550' in text) and ('Height 3300' in text) or ('thumbnail' in text): continue
由于PDF每頁的背景就是一張圖片,故我們可以通過寬高來尋找這些背景圖片并用continue把他們剔除。
checkXO = r"/Type(?= */XObject)" checkIM = r"/Subtype(?= */Image)" isXObject = re.search(checkXO, text) isImage = re.search(checkIM, text) if not isXObject or not isImage: continue
我們通過實驗發(fā)現(xiàn)圖片所對應的字符串在checkxo與checkIM這兩個中。故用正則表達式在文本中進行索引提取,用到了re模塊的搜索函數(shù)。如果不是這兩個字符串就用繼續(xù)剔除。
pix = fitz.Pixmap(doc, i) img_name = "img{}.png".format(imgcount) if pix.n < 5: try: pix.writePNG(os.path.join(pic_path, img_name)) pix = None except: pix0 = fitz.Pixmap(fitz.csRGB, pix) pix0.writePNG(os.path.join(pic_path, img_name)) pix0 = None
這是最后一步生成與保存圖片
“
pix = fitz.Pixmap(doc, i)是生成圖像語句,doc代表PDF文件,i代表遍歷每個圖片對象的索引值。
img_name = "img{}.png".format(imgcount)是設(shè)置圖像名語句,用提取到的圖片的序列號作為命名格式。
”
如果pix.n <5,可以直接存為PNG,否則將進行RGB變換在保存。
由于代碼采用的是def函數(shù)編寫模式,故最后還要一個函數(shù)的初始化:if __name__ == '__main__':
至此,3種文件格式(Excel,Word,PDF)圖片提取方法已全部講解,接下來就是重中之重GUI生成了。
二,GUI框架建造
先看完整代碼:
import PySimpleGUI as sg sg.ChangeLookAndFeel('GreenTan') #更換主題 menu_def = [['&使用說明', ['&注意']]] layout = [ [sg.Menu(menu_def, tearoff=True)], [sg.Frame(layout=[ [sg.Radio('Excel1', "RADIO1",size=(10,1),key="Excel1"), sg.Radio('Word', "RADIO1",default=True,key="Word")], [sg.Radio('Excel2', "RADIO1", enable_events=True, size=(10,1),key="Excel2"), sg.Radio('PDF', "RADIO1",key="PDF")]], title='選項',title_color='red', relief=sg.RELIEF_SUNKEN, tooltip='Use these to set flags')], [sg.Text('文件位置', size=(8, 1), auto_size_text=False, justification='right'), sg.InputText(enable_events=True,key="lujing"), sg.FolderBrowse()], [sg.Text('文件名字', size=(8, 1), justification='right'), sg.InputText(enable_events=True,key="wenjian")], [sg.Submit(tooltip='文件'), sg.Cancel()]] window = sg.Window('圖片提取器', layout, default_element_size=(40, 1), grab_anywhere=False) while True: event, values = window.read() if event == "Submit": if values["Excel2"] == True: ''' 事件綁定 ''' sg.Popup("提取成功") if values["Excel1"] == True: ''' 事件綁定 ''' sg.Popup("提取成功") if values["Word"] == True: ''' 事件綁定 ''' sg.Popup("提取成功") if values["PDF"] == True: ''' 事件綁定 ''' sg.Popup("提取成功") if event == "Cancel" or event == sg.WIN_CLOSED: break if event == "注意": sg.Popup("作用講解:", "Excel1 :解析選定位置中所有的Excel文件,無需在文件名處填寫", "Excel2 :解析選定位置中單個指定的Excel文件,需在文件名處填寫", "Word : 解析選定位置中單個指定的docx結(jié)尾的文件,無需在文件名處填寫", "PDF : 解析選定位置中單個指定的PDF文件,需在文件名處填寫") window.close()
效果呈現(xiàn):
代碼解析:做PySimpleGUI還是原來那個步驟:
導入 創(chuàng)建一些小部件創(chuàng)建窗口創(chuàng)建事件循環(huán)
當然,做GUI之前就是先想清楚自己的圖形交互頁面長什么樣,像我就是現(xiàn)在紙上畫一個大概,這樣更有益于制作頁面。
初步先引用模塊
第二步添加元素(小部件)到容器(layout)中,這里先介紹一下用到到的部件:
“
Menu:顧名思義,這是菜單欄,每個GUI都必帶一個菜單欄來提示用戶該如何做,我們這里用了menu_def這個布局來完成菜單的設(shè)置。
Frame:這個跟layout布局完全相同,工作方式也一樣,他們都是容器元素。可以看到“選項”那里是一個指示器的正方形,里面有四個選項,作用就是這個。注意,&這個符號的作用是創(chuàng)建相同類型的菜單,這里只有注意事項這一個菜單,故可以不用管,讀者如果想添加同樣的菜單的話必須添加一個&。tearoff=True這個參數(shù)是菜單欄中每個子選項上面加虛線。
Radio:單選按鈕。我們只可以在同樣的id上選擇一個選項。id就是指代碼中的“ ra-dio1 ”。其中每個無線電函數(shù)的第一個參數(shù)是文本內(nèi)容,這里就是我們要進行提取的4個文件格式。而“ size”就是位置,每行的第一個設(shè)置同樣的參數(shù)(10,1)。最后就是我們進行事件幫忙的綁定鍵,其中“ enable_events”可以不寫因為我們只是調(diào)用它而不用去對它產(chǎn)生事件。
Text:之前有講是不能改的正文內(nèi)容。同樣這里設(shè)置的位置參數(shù)(8,1),justification='right'有點類似我們平常用的單詞那個向右指向。
InputText:需要用戶輸入的正文內(nèi)容。這里有兩個需要我們填充的地方:文件位置和文件名。這里需要設(shè)置鍵,因為在后面事件綁定中我們需要調(diào)用文件存儲路徑和文件名,在文中上半部分有提到過。
FolderBrowse:簡易的打開文件路徑操作,不用你去復制路徑。
Submit:確定按鈕,這里綁定為執(zhí)行提取文檔圖片事件
Cancel:退出主程序按鈕。
”
第三步就是創(chuàng)建窗戶來容納這些元素布置。
第四步創(chuàng)建事件循環(huán),可以看到代碼,都是一樣的套路:當用戶點擊提交按鈕時系統(tǒng)將進行判斷你按的是該單選按鈕,長長的進行相對應的事件執(zhí)行。當你點擊cancel或者×時,就是退出主程序。當你按菜單中的注意時,就會彈出一個指示告訴你這個系統(tǒng)怎么用。
在事件循環(huán)中,我們用values[]的布爾值來判斷我們選的是哪個單選按鈕,有讀者疑問為什么不用event=,因為我們在第一個if當中用了eventso第二個if當中需要換一個判斷方法。
至此,GUI部分就搞定了!景點的讀者可以繼續(xù)在上面添加功能。
三,打包
我們將完整代碼整合在一起,后安裝pyinstaller模塊
pip install pyinstaller
如果你的上述項目代碼文件命名為:photo.py。那么你要用以下命令進行打包
pyinstaller photo.py
最后打包成功之后,你會在py文件所在的文件夾看到一個dist的子文件夾。進去之后,找到pachong.exe文件并運行它即可。
注意,文件夾里附帶了很多文件,您可以刪除它。當然,如果嫌麻煩就直接從photo.py文件用Python執(zhí)行。
到此,相信大家對“Python GUI編程怎么制作一個文檔圖片提取軟件”有了更深的了解,不妨來實際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進入相關(guān)頻道進行查詢,關(guān)注我們,繼續(xù)學習!
名稱欄目:PythonGUI編程怎么制作一個文檔圖片提取軟件
當前URL:http://www.ef60e0e.cn/article/jjgjcs.html