전세계적으로 6,800개의 언어 및 방언이 사용되고 있지만 이 중에서 600개의 언어만 문자로 기록됩니다.

Vision Objects는 현재 정확도 측면에서 다른 모든 제품을 압도하며 그 가치가 입증된 필체 샘플 모음을 기반으로 완벽한 산업 공정을 통해 새로운 언어를 계속해서 개발하고 있습니다.

Vision Object는 다음과 같이 세계에서 가장 널리 사용되는 언어를 지원하고 있습니다.

 

MyScript 필체 인식 기술의 핵심

다양한 종류의 필체

Vision Objects 기술은 세계에서 가장 널리 사용되는 언어인 아랍어, 중국어, 키릴어, 데바나가리어, 그리스어, 히브리어, 일본어, 한국어, 라틴어, 타밀어 및 태국어를 사용하는 모든 유형의 필체 스타일을 인식합니다.

필체를 인식하려면 먼저 문자, 단어, 문장으로 분할해야 합니다. 필체 스타일에 따라 분할 방식이 다릅니다. 식별할 수 있는 필체 유형에는 세 가지가 있습니다.

MyScript supported handwriting styles

  • 분리된 문자: 각 문자가 상자로 표시된 필드에 하나씩 작성되고 연속된 문자의 분할이 명시적으로 이뤄집니다. 이 방식은 정확한 인식이 중요한 서식 처리에 자주 사용됩니다.
  • 활자체 문자: 글자가 서로 닿지 않고 연속된 두 문자 사이에 펜이 끊어집니다. 분할이 암시적으로 수행되며 소프트웨어의 계산이 필요합니다.
  • 필기체: 인식하기 가장 어려운 유형입니다. 신뢰할 수 있고 정확한 인식을 위해서는 DataFormats, 어휘 및 언어 모델의 추가적인 사용이 필요합니다.

자연스러운 필체는 활자체와 필기체가 혼합된 형태로서 일부 글자는 서로 연결되어 있고 일부 글자는 분리되어 있습니다.

XXX

Natural handwriting

중국어와 같은 일부 언어에서 자연스러운 필체는 표준화된 필체와 비교하여 완전히 다른 형태를 보입니다. 이처럼 다양한 필체를 처리하는 것이 MyScript 인식기의 실제 과제입니다.

Chinese cursive_ Vision Objects_MyScript

중국어 "흘림체"
표준 문자(왼쪽) 및 흘림체 문자(오른쪽)

 

언어별 특수성

인식기는 다양한 언어별 특수성을 고려합니다.

  • 문자: 일부 언어(예: 영어, 그리스어, 키릴어)는 알파벳을 기반으로 하고 다른 언어(예: 중국어 또는 일본어)는 표의 기호를 기반으로 합니다.
  • 쓰는 방향: 언어별로 문자를 쓰는 방향이 달라질 수 있습니다(예: 왼쪽에서 오른쪽 방향, 오른쪽에서 왼쪽 방향).


필기 변화

필체 인식에 있어 가장 어려운 점은 글자의 기울기 및 모양을 포함하여 개인별 필체 스타일을 적절히 처리하는 것입니다.

또한, 필체는 국가마다 서로 다릅니다. 예를 들어, 영어는 많은 국가(영국, 미국, 캐나다 등)에서 사용되지만 어휘와 필체는 국가마다 모두 다릅니다.

필기 텍스트 분석

언어의 복잡한 특성을 관리하기 위해 MyScript는 다양한 언어적 정보를 고려합니다.

  • 어휘: 인식 가능한 범위를 좁혀 정확성을 높입니다.
  • DataFormats: 특정 정보에 대해 예상되는 형식을 기술합니다(예: 전화 번호, 전자 메일 주소 등).
  • 언어 모델: 인식 엔진에 "언어적인 지능"을 제공합니다. 일반적인 언어의 형태 및 각 단어가 함께 표시될 가능성을 통계적으로 기술합니다.

MyScript 지원 언어

다양한 필체를 올바르게 처리하기 위해 Vision Objects는 각 언어 및 국가마다 수 천명 이상이 작성한 필체 샘플을 수집하고 있습니다. 이러한 필체 샘플은 MyScript 필체 인식 엔진의 성능을 강화하는 데 사용됩니다.

각 응용 프로그램에 가장 효율적인 인식률을 제공하기 위해 Vision Objects는 다음 두 가지 유형의 언어 자원을 제공합니다.

  • MyScript Lingo: 자연스러운 필체 및 필기체를 인식하고, 언어 모델 및 DataFormats을 통합하여 자유 텍스트를 인식할 수 있게 해주는 30개 언어 팩 모음입니다. MyScript Lingo는 서식 처리, 노트 작성 및 텍스트 입력이 필요한 기타 응용 프로그램에 이상적입니다.
  • MyScript Letra: 80개 이상의 언어에 대해 리소스를 제공하고, 분리된 문자 및 활자체까지 인식할 수 있습니다. MyScript Lingo보다 적은 메모리 공간을 사용하는 고급 언어 리소스 또는 언어 모델은 제공하지 않습니다. MyScript Letra는 특히 임베디드 장치에 적합합니다.

각 언어 팩에는 고유한 리소스 그룹이 포함됩니다. 이러한 리소스 그룹은 MyScript Builder 소프트웨어 개발 키트의 다른 부분에서 문자 인식 처리를 위해 사용됩니다.