Skip to content

SmileGome/Search

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

66 Commits
 
 
 
 
 
 
 
 

Repository files navigation

MathMatch : 수식 인식 및 검색 서비스

  • 입력하기 번거로운 수식을 OCR기능으로 입력하고, 수식의 개념을 검색할 수 있는 서비스 개발
  • OCR 기능과 검색 기능을 하나로 엮은 데모 완성을 통해 서비스화 가능성 확보
  • 스마일 게이트 희망스튜디오 퓨처랩 AI 부문 2기 지원 프로젝트

Latex OCR 구조도

Latex Search 구조도


Latex Search

본 repo는 수식 검색 모델을 위한 것입니다.

DPR 모델

DPR 모델은 BERT인코더로 Query와 Passage를 인코딩하고 이들의 dot product값이 positive sample일 경우 커지도록 학습하는 것입니다.

저희는 위키피디아의 수식 데이터를 크롤링하였고, 한 도큐먼트 내에 등장하는 수식들을 positive sample로 처리하였습니다.

코드 설명

dataset.py

수식 데이터를 query, positive sample, negative sample 형태로 만드는 모듈

train.py

DPR모델을 학습하는 모듈

tokenizer.py

수식 맞춤형 토크나이저를 만드는 모듈

inference.py

입력된 수식을 임베딩화하고 이를 리턴하는 모듈

embedding.py

elasticDB에 저장할 임베딩을 만드는 모듈

Team GOME

강지우 곽지윤 김윤혜

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published