Overview
안녕하세요. 오늘은 PDF파일의 페이지들을 이미지로 변환하는 파이썬 스크립트를 만들어 보도록하겠습니다.
Install Package
우선 필요한 파이썬 패키지를 설치하도록 하겠습니다. 여기서 필요한 패키지는 pdf2image
라는 패키지에요.
pip install pdf2image
그런데 pdf2image패키지는 poppler라는 라이브러리를 이용해서 돌아가는 패키지거든요. 운영체제에 poppler를 설치하셔야 pdf2image를 사용하실 수 있습니다. 저는 맥을 쓰고 있어서 brew를 통해서 설치합니다. 설치시간이 많이 걸리니까 한참 기다리셔야해요.
brew install poppler
참고로, poppler는 gcc라이브러리를 참조하므로 혹시 맥에 gcc가 이미 설치되어 있지 않다면 gcc를 먼저 설치하신 후에 poppler를 설치해주시기 바랍니다. 맥북에 XCode가 없으면 gcc설치가 안되니까 XCode를 우선적으로 설치하셔야합니다. XCode는 LaunchPad의 Apps에서 설치하실 수 있습니다.
brew install gcc
Windows운영체제를 사용하시는 분들은 최신 Poppler 패키지를 다운로드하고 bin\
디렉토리를 PATH 환경 변수에 추가합니다.
Linux운영체제를 사용하시는 분들은 아래와 같이 apt-get라이브러리 매니저를 사용하여 라이브러리를 설치합니다.
sudo apt-get update
sudo apt-get install -y poppler-utils
하지만 최신버젼의 MacOS를 설치한 분들은 이런 잡다한 문제가 일어나지는 않을거에요.
poppler가 성공적으로 설치가 되었으면 pdf_to_images.py라는 이름으로 파일을 하나 만들어 주세요.
from pdf2image import convert_from_path
pdf_path = 'input.pdf'
output_folder = 'output'
images = convert_from_path(pdf_path)
for i, image in enumerate(images):
image.save(f'{output_folder}/page_{i+1}.png', 'PNG')
그리고 이미지를 추출할 PDF파일을 만들어 input.pdf로 저장합니다. 그리고 output이라는 폴더를 만들어주세요. 그 뒤에 아래와 같이 스크립트를 실행합니다.
python pdf_to_images.py
실행이 완료되면 PDF파일 안의 모든 페이지들이 이미지로 변환되어 output폴더에 저장이됩니다.