PDF

PDF OCR, Searchable

Weneedu 2020. 3. 27. 14:15

00 PDF의 종류는 두 가지; 이미지 vs Text

 

00.01 "OCR을 입힌다"

알PDF로 OCR을 돌리면, 자기가 인식한 결과로 PDF를 덮어 버린다. OCR이 정확하지 않으므로 엉뚱한 텍스트가 PDF에 표시된다. 즉 OCR 결과를 입힌다.

그런데 원래 PDF이미지를 유지한채 투명한 OCR을 덮어 씌울 수는 없을까? OCR이 부정확해도 이미지는 그대로 이므로 보는데는 문제가 없을 것이다. 검색은 부정확할 수 있겠지만.

 

01 Web Search결과

1/ "https://m.blog.naver.com/PostView.nhn?blogId=retiaocr&logNo=221321484322&proxyReferer=http%3A%2F%2Fwww.google.com%2F

① ABBY의 FineReader, 시험판 ② ReTIA 로즈 문서인식 사이트, online, 하루 10회 회당 3장

2/"https://m.blog.naver.com/PostView.nhn?blogId=nespdf&logNo=221427405373&proxyReferer=http%3A%2F%2Fwww.google.com%2F"

① NesPDF, 30일 무료, 절대 기업이나 기관에서는 설치하지 마세요. 아이피 추적해서 합의금 요구합니다.

3/ "https://easyscreenocr.com/?lang=ko"

- EasyScreenOCR, 설치가능한 프로그램

- 화면을 영역을 캡쳐하면, 해당 부분을 텍스트로 인식

4/ "https://www.quora.com/How-do-you-convert-a-PDF-to-a-searchable-PDF-for-free"

- Use Google OCR

-  Use online free ocr tools

5/ "https://m.blog.naver.com/PostView.nhn?blogId=retiaocr&logNo=220986330841&proxyReferer=http%3A%2F%2Fwww.google.com%2F"

ABBYY FineReader 14기능소개, 시험판 30일 사용, 최대100페이지