JS-OCR은 광학 문자 인식 (OCR, Optical Character Recognition)은 서류부터 사진과 동영상의 문자(Text Data)를 간편하고 빠르게 디지털 데이터로 전환하는 것입니다. 영상의 경우 의미 있는 정보나 가치를 찾아내기 위해 영상 내 자막 또는 텍스트를 추출하여 데이터로 확보하는 기술을 제공합니다.
OCR 기술은 인공지능기술 중 ‘컴퓨터 비전 기술’에 해당합니다. 텍스트 감지(Text Detection)와 텍스트 인식(Text Recognition)으로 구성되어 있습니다. 텍스트 감지는 이미지상에서 글자가 있는 영역을 찾고 텍스트 인식은 찾은 영역을 바탕으로 글자를 분별합니다.
JS-OCR을 통해 이미지와 문서처리업무를 자동화하여 문서 관리 프로세스의 효율성을 높이고 비용 절감을 할 수 있습니다.
[ JS-Image R 서비스 진행 절차 ]
인식해야 할 데이터에 맞게 학습 데이터를 직접 생성하여 모델 학습을 통해 높은 한글 인식률을 제공합니다.
고객의 요청 시 텍스트인식을 위한 합성 데이터를 왜곡된 텍스트, 배경, 손 글씨, 폰트 등과 직접 선택하여 원하는 수만큼 생성할 수 있습니다.
고객의 요구 형태에 필요한 특정 이미지의 정확도와 인식률을 향상하기 위해서 학습 데이터를 추가 생성하여 특화된 글자인식 모델을 제공합니다.
모델은 생성된 이미지로 폰트 등 이미지의 특징을 학습하여 인식률을 높일 수 있습니다.
현재 구축된 JS-OCR은 영상에서도 자막과 텍스트 영역을 인식하는 성능을 제공하고 있습니다.
문자 인식 서비스는 문서 이미지와 자연스러운 자연 이미지의 글자를 인식하는 글자 문자 모델을 제공합니다. 또한 한글, 영어, 숫자, 특수문자 등을 인식할 수 있습니다. 요청 시 추가로 다른 언어를 학습하여 제공할 수 있습니다.
이미지를 전처리 후 글자의 위치를 검출하여 검출한 위치에서 글자를 인식합니다. 인식한 글자의 오류를 검출한 후 후처리(대치(Substitution), 실종(Missing), 추가(Insertion), 조합(Combination), 분해(Decomposition)를 제공합니다.
글자인식은 사전에 학습된 모델을 통해 이미지를 텍스트 정보로 변환합니다. 이 과정에서 사용되는 학습 모델은 텍스트 감지(Text Detection)와
텍스트 인식(Text Recognition)으로 구분할 수 있습니다.
텍스트 감지는 이미지에서 글자영역과 글자가 아닌 부분을 구별합니다. Craft(Character-Region Awareness For Text detection) 알고리즘을 기반으로 각 문자 영역(Region score)과 문자 간의 선호도(Affinity score)를 탐색하여 텍스트 영역을 효과적으로 감지합니다. 특히 왜곡된 텍스트 감지에 높은 정확도를 가집니다. 텍스트의 경계 상자는 문자 영역 및 선호도 점수를 임계값으로 설정한 후 이진 맵에서 최소 경계 사각형을 찾아냅니다.
텍스트인식은 텍스트 감지에서 추출한 텍스트 부분을 인식합니다. 변환(Transformation), 특징 추출(Feature extraction), 시퀸스 모델링(Sequence modeling)과 예측(Prediction)의 4단계 작업으로 구성되어 있습니다.
변환단계(Transformation stage)에서 데이터의 보간 및 평활화를 위해 이미지 속 문자가 기울어진 경우 바로잡아 주고 특징 추출(Feature extraction stage)단계에서 글꼴, 색상, 크기, 배경 등의 특징을 억제합니다. 이전 모델에서 추출된 특징은 시퀸스 정보로 변환되고 시퀸스 모델링(Sequence modeling stage)단계에서는 특징 맵의 각 열은 시퀸스 구조로 됩니다.
마지막 예측단계(Prediction stage)에서는 각 열의 문자를 예측하고 반복되는 문자와 공백을 제거하여 전체 문자 시퀸스를 가변 길이의 문자 스트림으로 개선합니다.
[ JS-OCR 서비스 적용분야 ]