A.I.R.

Adaptive Intelligence Research

Lab’s Behavior

Introduction

The vision of the Adaptive Intelligence Research (AIR) Group at Changwon National University is a ‘Making the Great! Making the New!’.

Our work ranges from basic research in computational linguistics to key applications in human language technology, and covers areas such as statistical machine translation, opinion mining, and probabilistic parsing and tagging.

A distinguishing feature of the AIR Group is our effective combination of sophisticated and deep linguistic modeling and data analysis with innovative probabilistic and machine learning approaches to NLP. Our research has resulted in state-of-the-art technology for robust, broad-coverage natural-language processing in many languages. These technologies include our part-of-speech tagger for Korean, English, and Chinese; a universal named entity spotter for Korean; a high-performance probabilistic parser for Korean.

Professor

프로필사진

Jeong-Won Cha.
[CV]

His research interests are natural language processing, machine learning, information retrieval.

Research Scientist

Ph.D. students

신창욱

Interests

Dialog Management

CV_[PDF]

프로필사진

박다솔

Interests

Text Classification

CV_[PDF]

Master students

프로필사진

김정무

Interests

Machine Reading Comprehension

CV_[PDF]

Undergraduate students

프로필사진

성수진

Interests

Natural Language Understanding

CV_[PDF]

프로필사진

강병곤

Interests

Natural Language Understanding

CV_[PDF]

Alumini

프로필사진

이현우

2009. 2. 석사졸업

Naver 자연어처리팀

 

프로필사진

배민영

2010. 2. 석사졸업

쌍용정보통신

 

프로필사진

안유미

2010. 2. 학부 졸업

롯데정보통신

 

프로필사진

성병기

2012. 2. 학부 졸업

Naver 자연어처리팀

 

프로필사진

서가은

2013. 2. 학부 졸업

카카오

 

프로필사진

곽창섭

2013. 2. 석사 졸업

한국전기연구원

졸업논문_[PDF]

프로필사진

오진영

2013. 8. 박사 졸업

KT 융합기술연구원

졸업논문_[PDF]

프로필사진

홍진표

2013. 8. 박사 졸업

Naver Labs

졸업논문_[PDF]

프로필사진

배원식

2013. 8. 박사 졸업

Naver 자연어처리팀

졸업논문_[PDF]

프로필사진

김주근

2014. 2. 석사 졸업

Naver 자연어처리팀

졸업논문_[PDF]

프로필사진

김지욱

2014. 8. 석사 졸업

LG전자 모바일 사업부

졸업논문_[PDF]

프로필사진

김중한

2015. 8. 석사 졸업

경남 테크노파크

졸업논문_[PDF]

프로필사진

최윤수

2016. 2. 석사 졸업

KT 융합기술연구원

졸업논문_[PDF]

프로필사진

박태호

2018. 8. 박사 수료

KT 융합기술연구원

CV_[PDF]

Group Photo

그룹사진

2012.10.18

 

그룹사진

2013.2.15

2013년 전기 졸업식

그룹사진

2014.2.11

샌프란시스코 피어 39

그룹사진

2015.2.4

일본 유후인

그룹사진

2015. 3. 5

 

그룹사진

2015.4.18

창원 세븐스프링스

그룹사진

2017. 2.28

중국 청도

그룹사진

2017.9.1

서울 양재 BHC

Research

Goal Oriented Dialogue Modeling

목적 지향 대화 모델링(Goal Oriented Dialogue Modeling)은 주어진 발화 기록과 지식베이스(Knowledge Base)를 이용해 사용자의 요구를 이해하고 그에 적절한 행위(Action)와 응답 발화(Response)를 생성해 냄을 목표한다. 따라서 이전 발화 기록과 사용자 입력 발화로부터 적절한 자질을 추출하고 그에 기반해 응답을 작성하는 연구가 주를 이루고 있다.

대화는 주제에 따라 크게 일상 대화와 목적 디향 대화로 구분할 수 있다. 일상 대화는 뚜렷한 목적이 주어지지 않고 사용자와 시스템이 자유롭게 대화를 수행하는 것이다. 이에 넓은 도메인에 대한 다양한 주제(Topic)에 대한 이해를 필요로 한다. 반면 목적 지향 대화는 해결해야 하는 목적이 주어져 있기에, 대화 주제가 그 목적에 한정된다.

Dataset Statistics

Human-Machine Dialogue Dataset(starred(*) are approximated)
Name Type Topic Avg # of turns Total # of dialogues Total # of words Description Download
Let’s Go! Spoken Bus Schedules 171,128 Bus ride information link
DSTC1  Spoken  Bus schedules  13.56 15,000  3.7M  Bus ride infromation  link
DSTC2   Spoken  Restaurants 7.88  3,000  432K  Restaurant booking system link
DSTC3   Spoken   Tourist Info 8.27  2,265  403K Information for tourists link
 CMU Corpus   Spoken  Travel 11.67  15,481  2M*  Travel planning and booking link
 ATIS Pilot Corpus   Spoken  Travel  25.40  41  11.4K*  Travel planning and booking link
 Ritel Corpus   Spoken  Unrestricted / Diverse Topics 9.30*  582  60K  Annotated open-domain QA link
 DIALOG Mathematical Proofs   Spoken  Mathematics 12.00  66  8.7K* Humans interact with computer  link
 MATCH Corpus   Spoken  Appointment Scheduling 14.00  447  69K* Scheduling appointment  link 
 Maluuba Frames Chat, QA & Recommendation   Travel & Vacation Booking 15.00  1,369  –  Semantic frames labeled and actions taken on a knowledge base link 
Key-Value Retrieval Dataset Chat, QA Calendar, Weather, POI Navigation 5.25  3,031  –  Intent, slots and KB annotated link

Image Captioning

Image Captioning은 주어진 이미지에 대한 가장 적절한 텍스트 설명을 구하는 문제이다. 텍스트 설명은 한 문장으로 이미지에서 알 수 있는 내용을 포함해야 한다. 설명이 묘사하는 것은 단순히 이미지에 나타나는 객체만이 아니라 객체 간의 관계도 포함될 수 있다.

Dataset Statistics

Name Download # of Image # of Sentences Avg. Sentences per Image
Pascal1K link 1,000 5,000 5
VLT2K link 2,424 7,272 3
Flickr8K link 8,108 40,540 5
Flickr30K link 31,783 158,915 5
Abstract Scenes link 10,000 60,000 6
IAPR-TC12 link 20,000 31007 1.55
MS COCO link 164,062 820,310 5

Video Captioning

Video Captioning은 입력 비디오 클립의 내용의 설명문을 생성하는 문제이다. 영상은 다수의 이미지와 함께 객체의 움직임, 음성 정보 등을 가지고 있다. 따라서 이미지 캡션이 주로 단일 이미지에 나타나는 객체의 상태를 표현하였다면 비디오 캡션은 상황의 변화, 객체의 행동의 묘사를 표현할 수 있다.

Dataset Statistics

Name Download Domain

#of

classes

#of

Videos

Avg. Length

of clips(sec)

# of

Clips

# of

Sentences

MSVD link Open(YTube) 281 1970 10 1970 70028
MPII Cooking link Cooking 65 44 600 5609
YouCook link

Cooking(YTube)

6 88 2688
TACoS link Cooking 26 127 360 7206 18227
TACoS-MLevel link Cooking 1 185 360 14105 52593
MPII-MD link Movie 94 3.9 68337 68375
M-VAD link Movie 92 6.2 48986 55904
MSR-VTT link Open 20 7180 20 10000 2000000
Charades link Human 157 9848 30 27847

VTW(UG Viedo)

link Open(YTube) 18100 90 44613

Visual QA

Visual QA(Visual Question Answering)은 이미지와 그와 관련된 질문을 제공하고 답을 구하는 문제이다. 이미지에 나타난 시각적 요소와 입력된 질의의 언어적 요소를 동시에 이해하며 추론해야하기 때문에 이는 실제 문제와 좀 더 근접하다. 질문은 예/아니오, 보기 중 선택, 빈칸 채우기, 단어, 구 등의 형식을 가질 수 있다. 이미지에 질문이 추가되며 정답이 특정되기 때문에 이미지에 대한 가장 적절한 설명을 구하는 것이 목적인 이미지 캡셔닝에 비해 정답으로 인정받을 수 있는 범위가 제한적이다.

Dataset Statistics

Name Download # of Image # of Question Avg. Questions per Image Avg. answer length Q/A generation
DAQUAR link 1,449 12,468 8.60 1.20 Human
Visual7W link 47,300 327,939 6.93 2.00 Human
Visual Madlibs link 10,738 360,001 34 2.80 Human
COCO-QA link 117,684 117,684 1.00 1.00 Automatic
VQA(COCO) link 204,721 614,163 3.00 1.10 Human
VQA(Abstract) link 50,000 150,000 3.00 1.10 Human

Metrics used for Text Generation Evaluation

이미지 캡셔닝과 비디오 캡셔닝, 비쥬얼 QA는 시스템으로 하여금 문장(캡션)을 생성하도록 요구한다. 작성된 시스템의 결과와 정답 문장을 비교하여 그 시스템의 성능을 측정한다. 이 때에 사용될 수 있는 평가 방법으로 다음과 같은 지표들이 제안된 바 있다.

  Designed For Methodology
BLEU 기계 번역 n-gram precision
ROUGE 문서 요약 n-gram recall
METEOR 기계 번역 n-gram with synonym similarity
CIDEr 이미지 캡셔닝 TF-IDF weighted n-gram similarity
SPICE 이미지 캡셔닝 Scene-graph synonym matching
WMD 문서 유사도 Earth mover distance on Word2Vec

Software

  • Espresso POS Tagger [demo(Korean), demo(English), demo(Chinese)]
  • Espresso POS Tagger with automatic word segmentation (beta) [demo]
  • Espresso 2: United Korean Language Understanding Engine [demo]
  • AMANDA: Air lab MANipulation Dialog Agent [준비중]
  • Beoltong [site]
  • Korean Sentiment Analysis Corpus[준비중]
  • Plagiarism Detector COOC[준비중]
  • Semantic Class Search[준비중]
  • Khann[준비중, Introduction, Description, Download, FAQ]

Publication

Manuscrips

2018

  1. 박다솔, 차정원, 퍼지 범주 표현과 준지도 심층 신경망을 이용한 트위터 혐오 발언 문장 탐지, 한국 정보과학회 논문지 [pdf]
  2. 성수진, 신창욱, 박성재, 차정원, CNN Sequence-to-Sequence를 이용한 대화 시스템 생성, 한글 및 한국어 정보처리 학술대회(HCLT2018) [pdf]
  3. 신창욱, 차정원, 대화에서 멀티태스크 학습을 이용한 감정 및 화행 분류, 한글 및 한국어 정보처리 학술대회(HCLT2018) [pdf]
  4. 김정무, 신창욱, 차정원, Q-Net:질문 유형을 추가한 기계 독해, 한글 및 한국어 정보처리 학술대회(HCLT2018) [pdf]
  5. 성수진, 박성재, 정인규, 차정원, Multi-Task Learning에서 공유 공간과 성능과의 관계 탐구, 한글 및 한국어 정보처리 학술대회(HCLT2018) [pdf]
  6. 하은주, 오진영, 차정원, 국어 감정분석을 위한 말뭉치 구축 가이드라인 및 말뭉치 구축 도구, 한글 및 한국어 정보처리 학술대회(HCLT2018) [pdf]
  7. 오진영, 차정원, Ontofitting: 의미 표현을 위한 벡터 조정, 한글 및 한국어 정보처리 학술대회(HCLT2018) [pdf]
  8. Su-Jin Seong, Seong-Jae Park, Tae-Ho Park, Chang-Uk Shin, Da-Sol Park, Jeong-MooKim, Jeong-Won Cha, Epidemic Respiratory Disease Prediction Using Ensemble Method, International Conference on Future Information & Communication Engineering(ICFICE)
  9. 박태호, 차정원, 세종 형태의미분석 말뭉치와 세종의미사전의 용언 의미번호 불일치 문제 해결, 한국정보과학회 논문지
  10. Chang-Uk Shin, Jeong-Won Cha, End-to-End Task Dependent Recurrent Entity Network for Goal-Oriented Dialog Learning, Computer Speech & Language [doi]

2017

  1. Jung-Yeul Park, Jeong-Won Cha, Mija Kim, Open Language Resources for Korean – Best practices and discussion for Korean language processing, Language Resources and Evaluation(LRE) [pdf]
  2. 박다솔, 신창욱, 신영태, 차정원, 준지도 학습 심층 신경망을 이용한 트위터 혐오 발언 문장 탐지, 한국 소프트웨어 종합 학술대회(KSC) [pdf]
  3. 성수진, 박성재, 차정원, 일별 굴 생산량의 예측 가능성에 관한 연구, 한국 소프트웨어 종합 학술대회(KSC) [pdf]
  4. 신창욱, 차정원, Dynamic Memory Network를 이용한 End-to-End 레스토랑 예약 대화 시스템, 한국 소프트웨어 종합 학술대회(KSC) [pdf]
  5. Chang-Uk Shin, Jeong-Won Cha, Learning Dynamic Memory Networks with Two Views, Dialog System Technology Challenges(DSTC) [pdf]
  6. Jung-Yeul Park, Loic Dugast, Jeen-Pyo Hong, Chang-Uk Shin and Jeong-Won Cha, Building a Better Bitext for Structurally Different Languages through Self-training, IJCNLP 2017 Workshop on Curation and Application of Parallel and Comparable Corpora(Cupral) [pdf]
  7. 박성재, 차정원, LSTM을 이용한 한국어 이미지 캡션 생성, 한글 및 한국어 정보처리 학술대회(HCLT2017) [pdf]
  8. 신창욱, 차정원, MTRNN을 이용한 한국어 대화 모델 생성, 한글 및 한국어 정보처리 학술대회(HCLT2017) [pdf]
  9. 박다솔, 차정원, 워드 임베딩과 유의어를 활용한 단어 의미 범주 할당, 한국정보과학회 논문지 [pdf]
  10. 박태호, 차정원, 형태 의미 정보를 이용한 한국어 의미역 결정, 한국 컴퓨터 종합학술대회(KCC) [pdf]
  11. 신창욱, 차정원, skip-thought 벡터를 이용한 한국어 의미 표현, 한국 컴퓨터 종합학술대회(KCC) [pdf]
  12. 박성재, 차정원, CNN을 이용한 대화와 같은 짧은 문장에서 개체명 인식, 한국 컴퓨터 종합학술대회(KCC) [pdf]
  13. Da-Sol Park and Jeong-Won Cha, Extension of Semantic Lexicon Using Word Embeddings and Synonyms, INFORMATION-An International Interdisciplinary Journal [pdf]
  14. Tae-Ho Park and Jeong-Won Cha, Feature verification for Korean Semantic Role Labeling, INFORMATION-An International Interdisciplinary Journal [pdf]

2016

  1. 박태호, 신창욱, 박성재, 박다솔, 신영태, 차정원, 한국어 의미 분석을 위한 세종의미망 확장, 정보과학회 동계학술대회 [pdf]
  2. Jung-Yeul Park, Jeen-Pyo Hong and Jeong-Won Cha, Korean Language Resources for Everyone, Pacific Asia Conference on Language, Information and Computation(PACLIC) [pdf]
  3. 박다솔, 차정원, 워드 임베딩을 이용한 세종 전자사전 확장, 제28회 한글 및 한국어 정보처리 학술대회(HCLT2016) [pdf]
  4. 박태호, 차정원, CRF를 이용한 복수 의미역 문제 해결, 제28회 한글 및 한국어 정보처리 학술대회(HCLT2016) [pdf]
  5. 박태호, 차정원, Korean Semantic Role Labeling Using CRFs, IICCC2016 [pdf]
  6. 박태호, 차정원, CRFs 기반의 한국어 의미역 부착 성능 향상을 위한 자질 선택, 한국정보과학회지[pdf]
  7. 박태호, 신창욱, 박성재, 박다솔, 차정원, Rough Set을 이용한 형태소 품사 태깅 코퍼스 오류 정량화, 한국 컴퓨터 종합학술대회 논문집(KCC16) [pdf]
  8. 신창욱, 차정원, Improving Korean dependency parsing performance using predicate-argument features, APIC-IST2016 [pdf]
  9. 최윤수, 차정원, Word Embedding 자질을 이용한 한국어 개체명 인식 및 분류, 한국정보과학회 논문지 [pdf]
  10. 박태호, 차정원, 커널 Ripple-Down Rule을 이용한 태깅 말뭉치 오류 자동 수정, 한국정보과학회 논문지 [pdf]

2015

  1. 신창욱, 차정원, CRFs를 이용한 구문분석기의 오류 분석 및 자질 추천, 정보과학회 동계학술대회 [pdf]
  2. 최윤수, 차정원, Word Embeddings 자질을 이용한 한국어 개체명 인식 및 분류, 정보과학회 동계학술대회 [pdf]
  3. 박태호, 차정원, CRFs 기반의 한국어 의미역 결정, 한글 및 한국어 정보처리 학술대회(HCLT2015) [pdf]
  4. 신창욱, 박성재, 차정원, Khann 2 : 경험기반 고효율 한국어 품사태깅 도구, 한국 컴퓨터 종합학술대회 논문집(KCC15) [pdf]
  5. 김중한, 최윤수, 박태호, 개체명 부착 말뭉치에서 자동 오류 수정, 한국 컴퓨터 종합학술대회 논문집(KCC15) [pdf]

Patents

  • 차정원, 서가은, 모바일 기기에서 사물이 카메라 화면의 적절한 위치에 있는지 판단하는 방법, (등록번호 제 10-1384784 호)
  • 정희석, 박영희, 차정원, 사용자 정보에 따른 스토리 생성 장치 및 방법, P2011-0029154 (출원일자: 2011-03-31), P2011-0055102, 2011.06.08
  • Hee-Seok Jeong,  Young-Hee Park,  Jeong-Won Cha, APPARATUS AND METHOD FOR GENERATING STORY ACCORDING TO USER INFORMATION, SP11185-US
  • 김래현, 한요섭, 조현철, 차정원, ASSESSMENT OF A USER REPUTATION AND A CONTENT RELIABILITY
  • 김래현, 한요섭, 차정원, 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법, (등록번호  제 10-1105798 호)
  • 김래현, 한요섭, 차정원, 조현철, 리사, 소셜 네트워크를 통한 사용자 신뢰도 평가 방법 및 이를 통한 컨텐츠 신뢰도 평가 시스템 및 방법 (등록번호 제 10-2010-0025930 호), 2010. 03.23
  • 차정원, 이종구, 문서 표절 탐색 방법 및 장치{Method and apparatus for detecting document plagiarism}, (등록번호 제 10-0999488-00-00 호)
  • 이근배, 이원일, 차정원. 음절 정규화 표현사전을 이용한 미등록어 분석방법 및 미등록어를 포함한 문장의 형태소 분석 방법, (등록번호 제 0320348), 2001.12.27

Technology transfer

  • TheIMC, Espresso:한국어품사태거, 2014
  • TheIMC, Espresso:한국개체명인식기, 2016
  • 한국전자부품연구원, Espresso:한국어품사태거, 2015
  • 한국전자부품연구원, Espresso:한국어개체명인식기, 2016
  • KT, Espresso:한국어형태소태거, 2015
  • KT, Espresso:한국어구문분석기, 2016
  • SKT, Espresso:한국어구문분석기, SRL, Co-reference resolution, 2016