[Python] pdf 파일 텍스트 추출하기, pdfquery 일부분만 읽어올 때 해결 방법
파이썬 pdf 파일 텍스트 추출하기 오늘은 python pdfquery, pdfreader 패키지로 pdf 파일을 읽어 텍스트를 추출하는 방법을 알아보도록 하겠습니다.저는 식품안전나라에서 다운로드 받은 아래 ‘1-11_엽산.pdf’ 파일의 텍스트를 추출해보려고 합니다. 1. pdfquery로 pdf 텍스트 추출하기 위의 코드를 통해서 1-11_엽산.pdf 파일을 읽어올 수 있어요. 읽어 온 text를 출력해보면 아래와 같은 결과를 얻을 수 있습니다. 잘 읽어온 것 처럼 보이지만 … Read more