개발환경은 구글 코랩을 이용하여 진행하였습니다.


Letitbe

위의 가사사진에서 tesseract를 이용하여 텍스트를 추출해보도록 하겠습니다.


  • tesseract를 colab환경에 설치해줍니다.
    !sudo apt install tesseract-ocr
    !pip install pytesseract
    


  • 필요한 모듈들을 import 해줍니다.
    import cv2
    import os
    import pytesseract
    from pytesseract import Output
    from PIL import Image
    


  • 이미지를 받아온 후, grayscale로 변환하고 tesseract를 이용해 결과값을 출력하였습니다.
image_name = "[이미지의 경로]" #이미지는 content에 넣어줘야 함
image = cv2.imread(image_name) #grayscale로 변환
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) 
result = pytesseract.image_to_string(gray, lang="eng")

print(result)


스크린샷 2022-03-28 오후 7 58 38

  • 결과값이 위와 같이 출력되었습니다. 다음번에는 영어(eng)가 아닌 한글(kor)추출에도 도전해보겠습니다.

카테고리:

업데이트:

댓글남기기