주요어: 의미역, 격틀, 논항, 부가어, 언어 자료 컨소시엄, LDC 한국어 프롭뱅크, 한국 전자통신연구원 의미역 부착 지침
국립국어원 2019-01-11
11-1371028-000766-01
발 간 등 록 번 호
xx역 xx xx xx 및 xx 구축
사업 책임자 이 x x
x x 문
국립국어xx 귀하
국립국어원과 체결한 xx용역 계약에 따라 ‘xx역 xx xx xx 및 xx 구축’ 에 관한 xx 보고서를 작성하여 xx합니다.
■ 사업 기간: 2019년 6월 19일~ 2019년 12월 20일
2019년 12월 20일
사업 책임자: xxx (경희대학교 한국어학과 xx)
사업 수행자: 경희대학교 산학협력단 사업 책임자: xxx
사업 참여자: xxx, xxx, xxx, xxx,
xxx, xxx, xxx, xxx, xxx, xxx, xxx, xxx, xxxx, xxx, xxx, xxx, xxx, xxx, xxx, xxx, xxx
<사업 수행자> 경희대학교 산학협력단
사업 책임자 | xxx(xxx 한국어학과 xx) | |
사업 참여자 | 공동 연구원 | xxx(xx여대 한국어문학부 xx) |
xxx(서울대 국어국문학과 xx) | ||
xxx(xx방송통신대 국어국문학과 연구원) | ||
신서인(한림대 xx학부 국어국xxx공 xx) | ||
xxx(고려대 언어학과 xx) | ||
xxx(인천대 국어국문학과 강사) | ||
xxx(울산대 국어국문학부 객xxx) | ||
xxx(한남대 국어국문창작학과 xx) | ||
xx 보조원 | xxx(xx방송통신대 대학원 문예창작콘텐츠학과 강사) | |
xxx(한림대 xx자유교xxx 강사) | ||
xxx(한림대 국어국문학과 박사xx 수료) | ||
xxx(한림대 xx자유교xxx 강사) | ||
xxxx(서울대 국어국문학과 박사xx 수료) | ||
xxx(서울대 국어국문학과 박사xx 수료) | ||
xxx(서울대 국어국문학과 석사xx) | ||
xxx(경희대 국제xxx어xxx과 박사xx) | ||
xxx(경희대 국제xxx어xxx과 박사xx) | ||
xxx(경희대 국제xxx어xxx과 박사xx) | ||
xxx(가천대 한국어교육센터 강사) | ||
xxx(경희대 국제xxx어xxx과 석사xx) | ||
보조원 | xxx(고려대 영어교육과 학부xx) |
<국문 xx>
xx역 xx xx xx 및 xx 구축
xx 언어를 제대로 처리하고 이해하는 인공지능 시스템을 개발하기 위해서는 여러 층 위의 언어 xx에 xx xx가 부착된 xx의 언어 자료가 필요하다. x x xx역 xx 도 xx의 중요한 층위인데, xx역 xx가 부착된 xx의 자료(즉 xx역 분석 말뭉치) 를 구축하기 위해서는 xx역 및 격틀에 xx 기반 xx 및 지침이 필요하다. 이에 본 xx에서는 첫째, xx역 분석 xx 한국어의 200만 어절 문어 말뭉치 내 고빈도 술어 6,397개(상위표제어[lemma] 6,419개, 표제어[rel] 11,777개)를 xx으로 하여 우리말샘과 세종 전자사전의 xx 번호를 xx으로 격틀 구조를 xx하였다. 둘째, 한국어의 특성에 맞는 xx역 목록을 작성하고 6,355개 술어의 격틀별 xx 문장에 적용하였다. 이때 번호 형 xx역, xxx xx역, 서술형 xx역 등 다양한 xx으로 xx역을 xx하였다. 마 지막으로, LDC의 한국어 프롭뱅크(KPB)를 준거x x xx 술어 격틀 xx의 문제점을 파악한 후, 파악된 문제점을 바탕으로 xx 술어의 격틀 xx, 예문의 xx역 부착과 관 련한 향후 과제를 제시하였다.
xx 언어에 xx 언어 공학적 처리를 위한 기반 xx 과제 중 중요한 것을 언급하면 다음과 같다. 첫째, 모든 부가어의 xx역 표지의 기존 목록을 xx‧xx하고 분석 지침 및 다양한 예문을 마련하는 작업을 xx할 필요가 있다. 둘째, 절 사이의 xx xx에 x x xx가 별도로 필요하다. 절 xx를 확정하기 위해서는 연결 어미뿐 아니라 연결 어 미 상당 xx에 xx xx가 필요하다. 셋째, xx역 분석을 위해서는 절 내의 xx 술어 를 파악하는 xx가 필요하다. 절 내의 xx 술어를 무엇으로 파악할 것인지 결정하기 위해서는 xx xx xx 및 의존 명사를 포함한 xx xx 상당 xx에 xx 연xx 필 요하다. 넷째, 개별 xx뿐 아니라 연어 xxx나 xx 표현 등의 논항 구조와 xx역에 xx xx도 필요하다. 다섯째, xx의 어형이 동음이의어이거나 다의어인 xx가 있으므 로 서술어에 xx xx‧xx 분석을 정교화하는 xx가 필요하다. 여섯째, 술어성 명사의 논항 구조가 실현한 명사구의 xx역 xx가 필요하다. 일곱째, 사전에 등재되어 있지 않 은 술어가 등장하였을 때 논항 구조 및 xx역을 파악하기 위한 xx가 필요하다. 여덟 째, 동격명사구, 환언표현, 명사구 상당어 등이 쓰인 문장에 xx 언어 공학적인 처리 방 안 xx가 필요하다.
주요어: xx역, 격틀, 논항, 부가어, 언어 자료 컨소시엄, LDC 한국어 프롭뱅크, xx 전자통xxx원 xx역 부착 지침
차 례
제1장 서론
1.1. xx의 필요성 및 목적 2
1.2. xx 범위 2
제2장 한국어 xx역 xx xx 기존 xx
2.1. 언어 자료 컨소시엄의 한국어 프롭뱅크 격틀 xx 5
2.2. xx전자통xxx원 xx역 부착 지침 9
2.2.1. xx역 xx 및 태깅의 기본 원칙 검토 10
2.2.2. xx xx역 태깅 가이드라인 검토 14
2.2.3. 부가 xx역 태깅 가이드라인 검토 15
2.2.4. 태깅 원칙 검토 16
2.2.5. 논항 xx xx 검토 18
제3장 xx역 xx xx 지침
3.1. xx역 xx xx 기존 자료 xx‧xx 지침 21
3.1.1. 문서 xx 및 프로그램 21
3.1.2. 대원칙 22
3.1.3. 구조 및 xx별 xx 23
3.2. xx 술어 xx역 xx xx 지침 43
3.3. 부가(어)역 작업 지침 50
3.3.1. ArgM-ADV(부사적 어구) 51
차 례
3.3.2. ArgM-CAU(발생 이유/xx) 51
3.3.3. ArgM-CND(조건) 52
3.3.4. ArgM-DIR(방향) 53
3.3.5. ArgM-EXT(범위) 54
3.3.6. ArgM-INS(xx) 55
3.3.7. ArgM-LOC(장소) 55
3.3.8. ArgM-MNR(방법) 56
3.3.9. ArgM-PRD(xx 서술) 58
3.3.10. ArgM-PRP(목적) 58
3.3.11. ArgM-TMP(시간) 59
3.3.12. ArgM-NEG(xx) 60
3.3.13. ArgM-COM(공동) 61
3.3.14. ArgM-PSR(소유자) 61
3.4. 국립국어원 xx역 xx xx xx xxx 61
제4장 xx xx 내역
4.1. xx xx xx 75
4.2. xx 진행상의 문제점 및 해결 사항 77
제5장 결론
5.1. xx 결과 요약 83
5.2. 향후 과제 및 xx 83
차 례
참고 xx 85
<Abstract> 91
[부록] xx xx 총목록 93
제 1 장
서 론
1.1. xx의 필요성 및 목적
xx 인공지능 xx의 비약적 발전에 따라 xx 언어로서의 한국어를 기계적으로 처리하는 xx가 활발해지고 있다. 한국어의 기계적 처리의 여러 단계 중 ‘xx역 결정(Semantic Role Labeling, SRL)’은 형태소 분석과 구문 분석 단계를 거친 뒤에 이루어진다.
자동 xx역 레이블 부착 xx를 개발하기 위해 xx에는 xx학습, 특히 딥 러닝 을 xxx는 것이 xx이다. 그런데 딥 러닝의 신경망 학습을 위해서는 xx의 학습 자료인 xx역 분석 말뭉치가 필요하다. xx의 xx역 분석 말뭉치를 체계적으로 구 축하기 위해서는 다음 사항에 xx xx와 지침이 xx 마련되어 있어야 한다.
∙ xx역 목록
∙ xx역 레이블 판단 xx
∙ 각 xx의 격틀 xx
∙ 격틀에 포함된 논항의 xx역 xx xx
한국어를 제대로 처리하고 이해하는 인공지능 시스템을 개발하기 위해서는 여러 층 위의 언어 xx에 xx 표지가 부착된 xx의 데이터 세트가 필요하며 이 가운데 의 미역 xx도 xx의 중요한 층위이다. xx역 xx가 부착된 xx의 데이터 세트(즉 xx역 분석 말뭉치)를 구축하기 위해서는 xx역 및 격틀에 xx xx 및 격틀과 의 미역 xx 지침이 기반이 되어야 한다.
본 xx 사업은 그러한 기반을 마련하고 xx 언어로서의 한국어 술어의 격틀x x 술하고 예문의 논항 및 부가어에 xx역을 부착하는 것을 목적으로 한다.
1.2. xx 범위
본 xx의 범위는 다음과 같다.
⚪ xx역 분석 xx 200만 어절 문어 말뭉치 내 고빈도 술어(6,700개 이상)를 xx 으로 하여 우리말샘의 xx 번호를 xx(세종 전자사전의 번호도 부착)으로 격틀 구조를 xx한다.
⚪ 격틀 구조 xx 및 xx역 레이블 부착에 관한 기존 성과(xx전자통xxx원 xx역 부착 지침, 언어 자료 컨소시엄의 한국어 프롭뱅크)를 정밀 검토하고 충 실하게 적용한다.
⚪ 한국어의 특성에 맞는 xx역의 목록을 추가적으로 작성한다. xx역 목록은 논 항과 비논항(부가어)를 구별하여 작성한다.
⚪ 각 xx역의 xx 및 적용 xx에 대하여 상세한 지침을 작성한다.
⚪ 격틀별 xx 문장에 xx xx역 xx을 부착한다.
⚪ 한국어 프롭뱅크를 준거x x xx 술어 격틀 xx의 문제점을 발굴하고 xx 술어의 격틀, 예문의 xx역 부착과 관련한 향후 과제를 제시한다.
⚪ 기존 xx역의 xx‧xx xx이 필요한 부분에 대해서는 xxx환성(backward compatibility)을 위해 xx 내역표를 제공한다.
제 2 장
한국어 xx역 xx xx 기존 xx
2.1. 언어 자료 컨소시엄의 한국어 프롭뱅크 격틀 xx
펜실베이니아 xx(University of Pennsylvania)은 8~90년대에서 2000년대 중반까지 전산언어학 분야의 세계적인 중심지로서 xxx 드높았다. 특히 xx xx(Xxxxxx Xxxxxx) xx의 연구실은 두각을 나타냈으며 당시 팔머 xx의 지도학생으로 xx하 였던 xx 가운데 상당수는 xx까지도 국제적으로 전산언어학 분야에서 xxx x x을 보이고 있는데 대표적인 사람이 xxx xx(University of Washington)의 Xxx Xxx xx이다. 당시 xx xx는 특히 영어를 비롯한 몇 개 주요 언어의 전산 자원 구축을 중점적으로 xx하였다. 당시 주요 연구비 xx이 미국 국방부를 통해 이루어 진 탓에 영어를 제외한 타 언어는 주로 미국과 정치, 군사, 외교적으로 대척점에 있 던 국가의 언어였다. 따라서 펜실베이니아 xx의 언어 자원은 영어 이외에 크게 중 국어, 한국어(북한), 아랍어로 xx되어 있다.
xx를 망라한 여러 언어 자원 가운데 특히 역점을 둔 것이 구문 분석 말뭉치인 펜 트리뱅크(Penn Treebank)와 그 구문 xx에 기반하여 xx역을 xx 처리한 펜 프롭 뱅크(Penn Propbank)이다. 위 4개 언어에 역점을 두어 xx을 한 까닭에 이들 언어는 xx 트리뱅크와 프롭뱅크가 마련되어 있다. 실제 팔머 xx 그룹은 프롭뱅크에 대단 한 xx을 썼다. 엄밀한 xx에서 트리뱅크를 xxx 이유도 프롭뱅크를 만들기 위한 xx 조건 또는 바탕 자원이기 때문이라 할 수 있다. 그만큼 팔머 xx 그룹의 전산 언어학에 xx 철학과 오랜 xxx가 가장 집약적으로 담긴 결과물이 프롭뱅크이다. 특히 영어 프롭뱅크는 그 구축 및 xx xx과 언어학적 타당성 그리고 실용성 등의 모든 측면에서 걸작으로 평가받는 xx xxx 언어 자원이다.
그러나 안타깝게도 팔머 xx가 2000년대 중반 콜로라도 xx(University of Colorado)으로 이직을 하게 되고 펜실베이니아 xx은 전산언어학 프로그램을 더 이 상 xx처럼 적극적으로 모색하기 어렵게 되었다. 그 xx에서 트리뱅크 및 프롭뱅크 의 개발 및 발전이 xx 기간 지체되었다. 특히 xxx 박사(현 피츠버그 xx (University of Pittsburgh) xx)를 위시한 한국인 연구자가 졸업을 하고 난 뒤, 한국 어 자원에서 대한 발전은 더 이상 이루어지지 않고 있다. 2010년대에 이르러 다시금 영어 프롭뱅크에 xx 추가 개발이 xx되고, 한국계 연구자(xxx) 등이 합류하였으 나 아직 한국어 자원을 더 구비한다는 xx은 xxx 바 없다.
팔머 xx 그룹의 가장 큰 특징을 들자면, 지침을 xx xx하고 실증적으로 xx 한다는 점이다. 펜실베이니아 xx 트리뱅크 및 프롭뱅크 구축 지침은 그 자체로 해 당 언어의 훌륭한 문법서라고 해도 손색이 없을 만큼 xx 훌륭하게 xx되어 있다. 2019년 xx 가장 최신 버전의 영어 프롭뱅크 지침은 3.1버전이며 공식적으로 2012년
11월 14일에 배포된 것으로 되어 있다. 아쉽게도 2000년대 중반 이후 더 업데이트된 한국어 프롭뱅크 구축 지침x x 단계에서 구하기 어렵다. 다만 2000년대 초반 xx
x xx(현 캐나다 사이버 프레이저 xx(Simon Fraser University) xx 겸 실험 통사 론 xx소장(Experimental Syntax Lab. Director))가 1저자로 출간한 논문이 존재하며, 2005년 xxx xx에 의해서 작성되어 배포된 한국어 트리뱅크 지침을 통하여 그 철학과 구축 원칙 등을 파악할 수 있다. xx가 이후 한국어 xx역 태깅을 위한 x x를 xx하기 위해서는 특히 위 2개의 자료, 다시 말해 영어 프롭뱅크 구축 지침과 한국어 트리뱅크 지침에 xx 벤치마킹이 필수적이라 판단한다.
2005년도에 언어 자료 컨소시엄(Linguistic Data Consortium)에 보고된 xx을 바탕 으로 펜실베이니아 xx 한국어 트리뱅크 및 프롭뱅크에 대해 개괄해 보면 아래와 같다.
[한국어 트리뱅크]
• 1. 버지니아 코퍼스(Virginia corpus): 5만 4천 5백 어절, 군사 교본
• 2. 뉴스와이어 코퍼스(Newswire corpus): 13만 1천 8백 어절, xx 지역 한인 뉴스
[한국어 프롭뱅크]
• 1차: 버지니아 코퍼스 전체, 9,590개 xx (xx 태깅, 즉 xx의 xx을 2xx xxx가 xx로 확인하고 검수하였음)
• 2차: 뉴스와이어 코퍼스 전체, 3,800개 xx 완료 (전체 23,700개)
• 프레임 xx(Frame files, xx역 기반 격틀 xx): 2,800개 xx xx, 1,800개 완료,
어근 xx 상위표제어(lemma)1)
프레임 xx의 예시를 보면 아래와 같다. Roleset(xx역묶음)는 Frameset(격틀묶음) 의 하위 집합이라고 보면 된다. 첫 번째 ‘먹.01’은 일반 동사의 예이며, 두 번째 ‘공급.01’은 이른바 서술성 명사의 격틀 구조를 제시한다.
frameset 먹.01 "eat": Roleset:
ArgA: causer Arg0: eater Arg1: food
'먹-다': active form
Arg0: SBJ Arg1: OBJ
'먹-히-다': passive form Arg0: COMP
Arg1: SBJ
1) 본 연구진은 <국문 xx>에서 한국어 프롭뱅크(KPB)의 ‘lemma, rel’의 번역어로 각각 ‘상위표제어, 표제어’를 제시하 였다. 그러나 본문에서는 KPB의 용어 xx과 본 연구진의 번역어 xx에서 독해에 혼란을 줄 수 있기 때문에 xx의 ‘lemma, rel’을 xx하였다. 같은 이유로 ‘frameset(격틀묶음)’과 ‘roleset(xx역묶음)’도 영어 용어를 그대로 xx 한다.
'먹-이-다': causative form ArgA: SBJ
Arg0: COMP Arg1: OBJ
frameset 공급.01 "supply": Roleset:
Arg0: giver
Arg1: thing provided Arg2: receiver
'공급-하-다': active form Arg0: SBJ
Arg1: OBJ Arg2: COMP
'공급-되-다': passive form Arg0: S
Arg1: SBJ Arg2: COMP
'공급-받-다': recipient form Arg0: COMP
Arg1: OBJ Arg2: SBJ
펜실베이니아 xx 언어 자원의 중요한 특징 가운데 xx는 xx 대상인 언어의 여 러 언어 xx에 대해서 언어학적 xx에서 깊이 있는 분석을 도모하고 언어학적으로 도 타당한 체계 위에서 자원을 구축했다는 것이다. 실제 한국어 트리뱅크와 프롭뱅크 를 구축하는 단계에서는 이른바 분열 논항(Split Arguments)이라는 xx을 두어 추가 적으로 정밀한 논증을 도모하였는데 대표적인 xx은 xx 네 가지가 있다.
(1) 소유자와 소유주 xx: 분리 불가능한(inalienable) xx 주어, xx 목적어 구문
과 xx하여 중요한 논점을 xx하고 이를 실제 문장 분석에 반영하였다.
(2) xx 양화사 구문: 한국어 통사론 등에서도 xx가 많이 이루어졌으며 한국어의 특징적 구문 가운데 하나이다.
(3) 소절(small clause): ‘나는 그를 바보로 생각한다’, ‘나는 그를 반장으로 뽑았다’
(4) 서술성 명사 구문: 실제로 이 부분은 한국어 논항 구조 및 xx역 구조에서 다 른 한 축을 xx한다.
영어의 xx에는 위 네 가지 외에 xx 구조(sentential complements)에 xx 별도의 분석 지침을 포함하고 있다. 한국어도 xx 구조가 다양하며 이론적 논점도 포함하고 있기 때문에 xx 구조는 추후 한국어 논항의 xx xx xx에 있어서도 중요하게 고려해야 할 것이다.
다음으로 펜실베이니아 xx 프롭뱅크의 태깅에 있어서 중요한 특징x x 가지 열
거하자면 다음과 같다.
(1) 논항의 xx 번호를 붙여서 표시한다. xxx Arg0와 Arg1을 구분할 필요가 있 다. 둘 xx 일반적으로 주어에 할당될 수 있으나 전자는 agents, causers, experiencers 등에 할당되나 xx는 patient에 할당된다. 이는 예컨대 비대격 (unaccusative) 및 비능격(unergative) 등의 구분에 있어서 xx 긴요하게 xx되 는 구분이다. 그 밖에 Arg-A라는 것이 있는데 이는 이른바 부차적 행위주 (Secondary Agent)에 할당된다. 예컨대, walk가 타동사로 쓰여 ‘산책시키다, 걷 게 하다’라는 xx로 xx되었을 때 ‘Xxxx walked the dog.’이라는 문장에서 Arg-0은 실제로 그 행위를 xx하는 dog이며 Xxxx은 2차적 행위주이기 때문에 Arg-A로 태깅된다.
(2) 부가어를 xx xx 태깅에 포함하고 있다. 부가어는 번호로 표시되는 논항과는 xx 각각의 역할에 따른 구분을 명시적으로 태깅한다. 영어 프롭뱅크의 xx에 는 총 18개의 부가어 태깅을 망라하고 있다. 구체적으로는 아래와 같다.
① 동반주(Comitatives, COM)
Ⓒ 위치(Locatives, LOC)
③ 방향(Directional, DIR)
Ⓐ 도착점(Goal, GOL)
Ⓒ xx(Xxxxxx, MNR)
⑥ 시간(Temporal, TMP)
➀ xx/범위(Extent, EXT)
⑧ 상호성(Reciprocals, REC)
⑨ xx 서술(Secondary Predication, PRD)
⑩ 목적절(Purpose Clauses, PRP)
⑪ 발생 이유/xx절(Cause Clauses, CAU)
⑫ 담화 연결(Discourse, DIS)
⑬ xxx(Modals, MOD)
⑭ xx(Negation, NEG)
⑮ 직접화법(Direct Speech, DSP)
⑯ 경동사(Light Verb, LVB)
⑰ 부사적 어구(Adverbials, ADV)
⑱ 형용사적 어구(Adjectival, ADJ)
(3) 펜실베이니아 xx 트리뱅크 및 프롭뱅크는 xx적으로 표현된 논항 또는 부가 어뿐만 아니라 생략된 xx(null elements)에 대해서도 태깅을 한다. 이는 여타의 언어 자원에서 일반적으로 xx 어려운 특징인데, 펜실베이니아 xx 언어 자원 이 얼마만큼 언어학적 정밀성을 중요하게 고려하였는지를 엿볼 수 있는 부분이
라 할 수 있다. 영어의 xx xx 7가지 xx을 xx으로 한다. xx에서 피동 문, xx 구문 등의 xx은 한국어의 통사·xx론적 관점에서도 염두에 두어야 할 xx으로 판단된다.
① 피동문(Passive Sentences)
Ⓒ 전치/전위 논항(Fronted and Dislocated Arguments)
③ 의문문/xx구(Questions and Wh-Phrases)
Ⓐ ICH 흔적(ICH Traces, ICH: interpret constituent here)
Ⓒ 우교점 xx 흔적(Right Node Raising (RNR) Traces)
⑥ It 외치(*EXP*, It EXtraPosition)
➀ 기타 흔적(Other Traces)
기타 펜실베이니아 xx 트리뱅크의 또 다른 특징으로는 구어 데이터를 태깅하기 위한 부가적인 장치를 고안하였다는 점을 들 수 있다. 이는 구어 데이터의 중요성이 증대되고 있는 xx 언어 이론의 관점에서 보았을 때 시사점이 있을 것으로 보인다. 그 외 영어 프롭뱅크는 명사구의 논항 xx와 형용사의 논항 xx에 대해서도 태깅 지침을 일부 포함하고 있다. 명사는 이번 xx과제의 직접적 xx이 아니나 추후 x x 성과를 확대하고자 할 때 기존의 태깅 지침이 걸림돌이 되지 않도록 유연한 설계 가 xx된다. 계사(be 동사)를 정동사로 xx하고 형용사는 계사의 논항 자리에 나타 나는 영어에서는 통사-xx xx에서 중요성이 떨어질 수 있으나, 한국어에서는 xx 사를 동사와 같은 정동사로 xx하므로 형용사에 xx 보다 추가적인 xx가 필수적 이다. xx, 형용사 ‘밝다’는 한국어에서 한자리 서술어로 쓰이기도 하고 두자리 서술어로 쓰이기도 하여 서술어로서의 xx 가치가 있다.
아울러 펜실베이니아 xx 프롭뱅크는 구글 코드를 통하여 구축 및 xx xx를 공 개하고 있다(xxxxx://xxxx.xxxxxx.xxx/xxxxxxx/x/xxxxxxxx/). 자바 언어를 통해 xx된 도 구라 xx의 xx 언어 처리 xx과 부합하지 않는 측면이 있으나 그 xx의 xx과 실례에 대해서도 벤치마킹의 필요성이 존재한다. 이후 한국어 xx역 태깅과 xx을 본격적으로 한다면 염두에 두어야 할 xx이기 때문이다. 공개된 xx는 xx (instance) 편집기인 주빌리(Jubilee)와 프레임세트(격틀, frameset) 편집기인 코너xx (Cornerstone) 이상 2종이다.
2.2. xx전자통xxx원 xx역 부착 지침
xx전자통xxx원의 <의존의미역 태깅가이드라인>은 수작업으로 구축하기 어려운 문장의 의존 구조를 분석하고 한국어 xx역 태깅 작업에 도움이 되도록 하기 위해 제작된 것이다. 한국어 문장의 xx를 자동으로 분석하기 위해서는 xx 분석 단계,
구문 분석 단계에 이어서 xx역 분석 단계가 필요하다. 이 단계의 분석에 xx xx 가 거의 없는 실정에서 xx전자통xxx원에서 개발한 의존의미역 태깅가이드라인 은 중요한 분석 xx을 제시하고 있고 본 사업도 이에 xx하고 있다.
그럼에도 불구하고 이론 언어xx에서 그동안 논의되어 온 xx, 격틀 구조, 논항 구조, xx역 등의 xx 성과에 비추어 볼 때 재고의 여지가 있는 부분이 있는 것도 사실이다. 본 사업에서는 xx전자통xxx원의 <의존의미역 태깅가이드라인>(1.5 버 전 2018.5.15.)2)을 바탕으로 xx역 xx xx을 개발에서 유의xxx 할 사항들을 검
토하였다.
2.2.1. xx역 xx 및 태깅의 기본 원칙 검토
xx전자통xxx원 지능xxx구본부 언어지능xx그룹의 “한국어 의존의미역 태 깅 가이드라인”(1.5 버전)은 프로포지션 뱅크(Proposition Bank, 이하 프롭뱅크)의 의 미역 구분 xx을 따르고 있으며 다음과 같은 구축 원칙을 가지고 있다.
[xx전자통xxx원 xx역 태깅 원칙]
(1) 프레임세트(Frameset)의 Arg0, Arg1, Arg2, Arg3에 속하는 xx역에 해당되는 것만 xx역으로 표시
(2) 프레임세트에 존재하지 않는 동사는 비슷한 xx와 논항구조를 가지는 동사의 프레임세트 참조(프레임세트에 존재하지 않는 xx xxx어대사전 기반의 U-propbank의 기본 격틀에 기반)
(3) 프레임세트에서 Arg-N에 속하지 않는 것은 xx Arg-M에 해당함
(4) 술어 xx의 세분화(‘하다’의 xx 프레임세트의 xx가 세분화 되어 있지 않아 xx논항에 xx되는 예를 찾기 힘듦)
(5) xx논항은 구문분석 결과에 연결되어 있지 않더라도 문장에 나타나 있으면 반드시 태깅하며, 부가논항은 구문분석 결과에 의존함
(“한국어 의존의미역 태깅 가이드라인” 1.5 버전)
세부 xx 중 첫 번째 xx부터 네 번째 xx과 관련한 구체적인 사항은 추후에 논 의xxx 하고 xxx는 xx 마지막 xx에 xx하기로 한다. 이 xx은 다음과 같 은 xx를 가진다.
(1) xx역 태깅에 있어서 xx 논항과 부가 논항을 구분하고 이 둘을 다르게 취
2) “xxxx://xxxxxx.xxxxx.xx.xx/ → 언어처리 학습데이터 → 엑소브레인 언어분석 말뭉치”에서 xx역 태깅 말뭉치가 공개되어 있다. xx에서 가이드라인도 함께 제공하고 있다. (xx전자통xxx원 xxx 박사 xx 제공)
급한다.3)
(2) xx역 태깅은 문장에 실현된 논항에만 태깅한다.
(3) xx 논항은 Frame Set의 xx에 따라 태깅한다.
(4) 부가 논항은 구문 분석 결과에 따른다.
xx (1)에서와 같이 논항과 부가어를 구분하는 것은 반드시 필요한 처리이며, 실용 성을 위해서는 (2)와 같이 실현된 요소에만 태깅하는 것을 원칙으로 하는 것이 온당 하다고 여겨진다. 다만, 그렇다면 xx역 태깅을 두 단계로 나누어야 하며 논항 태깅 단계의 결과를 부가어 태깅 단계로 넘겨주어야 한다. 또, 논항과 부가어의 구분에 x x xxx 지침에 포함되어 있어야 한다. 예컨대, ‘비행기가 인천공항에서 출발했 다.’와 ‘인천공항에서 xx와 xx가 만났다.’라는 문장에는 xx ‘인천공항에 서’라는 어절이 포함되어 있지만, 앞의 문장에서는 ‘출발하다’가 xx하는 논항이 고 뒤의 문장에서는 부가어이다. 앞의 문장의 xx 논항 태깅 단계에서 ‘인천공항에 서’를 태깅하고, 뒤의 문장의 xx ‘만나다’가 xx하는 논항은 아니기 때문에 논 항 태깅 단계에서는 xx역 태깅을 하지 않은 채 남겨두었다가 부가어 태깅 단계에 서 xx역 태깅을 xx해야 한다. 따라서 일반적인 태깅 원칙과 xx해서는 다음과 같은 사항이 지침에 명시되어야 한다.
• xx역 태깅은 논항 태깅과 부가어 태깅x x 단계로 나누어 xx한다.
• 논항 태깅은 Frame Set에 따라 xx한다.
• 부가어 태깅은 격조사나 명사의 xx 부류 등 실현된 어절이 자체적으로 가지 고 있는 xx에 따라 xx한다.
xx전자통xxx원에서는 프롭뱅크의 xx역 태그 세트를 xx한다고 하였으나, 프롭뱅크의 태그 세트와도 다소 차이가 나는 부분이 있다. xx전자통xxx원의 의 미역 태그 세트는 xx xx역 태그 세트와 부가 xx역 태그 세트로 구분되어 있다. xx xx역 태그 세트는 ‘Arg숫자’의 xx로 Arg0, Arg1, Arg2, Arg3과 같이 논항 뒤에 숫자가 표시되어 있다. 부가 xx역 태그 세트는 ‘ArgM-부가역’의 xx로 Ar gM-LOC, ArgM-TMP, ArgM-DIR, ArgM-MNR와 같이 장소, 시간, 방향, 방법 등의 x x를 구체적으로 표시하고 있다.
xx xx역부터 살펴보도록 한다. 다음은 xx전자통xxx원 xx역 태깅 지침의 xx xx역 태그에 xx xxx다.
3) 언어학에서는 일반적으로 서술어가 xx적으로 xx하는 필수적인 요소는 논항이라고 하고 xx적인 요소는 부가어 라고 한다. 부가 논항이라고 하는 용어는 xx적으로 xx적인 용어라고 할 수 있다. 따라서 xx전자통xxx원 지 침을 xx할 때에는 xx 논항, 부가 논항이라고 지칭하되, 문제점을 지적하고 xx적인 xx을 제시할 때에는 논항 과 부가어라고 지칭하기로 한다.
xx역 표지 | xx |
Arg0 | 술어의 동작주/행위자(agent) |
Arg1 | 술어의 피동작주(patient) |
Arg2 | 시작점(starting point), 수익자(benefactive), 속성(attribute) |
Arg3 | 도착점(ending point) |
<표 1> xx전자통xxx원 xx역 태깅 지침 xx xx역 표지
xx전자통xxx원의 xx역 태그는 프롭뱅크의 xx역 태그 세트를 기반으로 하 xx, 이와도 다른 xx 있다. 다음은 프롭뱅크의 xx역 태그 세트다.
xx역 표지 | xx |
Arg0 | agent |
Arg1 | patient |
Arg2 | instrument, benefactive, attribute |
Arg3 | starting point, benefactive, attribute |
Arg4 | ending point |
ArgM | modifier |
<표 2> 프롭뱅크 xx xx역 표지
프롭뱅크에서는 Arg0과 Arg1만 agent와 patient로 xx역이 정해져 있고, 그 이후로 는 논항의 위계 순서대로 xx역 태그의 숫자가 xxx다. 그래서 benefactive나 attribute가 Arg2이 되기도 하고 Arg3이 되기도 한다.
프롭뱅크의 xx역 태그나 xx전자통xxx원의 xx역 태그와 같은 자연어 처리 를 위한 xx역 태그 세트는 언어학적 관점에서 볼 때 다음과 같은 문제점이 있다.
(1) xx자격(benefactive)과 도착점(ending point)은 xx Goal에 해당하는 것으로 x x론적으로 상당한 유사성을 가지고 있음에도 불구하고 xx자격은 Arg2로, 도 착점은 Arg3로 태깅된다.
(2) 신서인(2017: 237-238)에 따르면 한국어 문장의 논항에 필요한 xx역만 해도 다 음과 같이 16개나 되는데, 논항을 좀 더 xx할 필요가 있다.
xx역 표지 | xx | |
AGT | Agent | 행동주 |
EXP | Experiencer | 경험주 |
PAT | Patient | 수혜주 |
COM | Companion | 동반주 |
THM | Theme | xx |
GOL | Goal | 도달점 |
SRC | Source | 출발점 |
LOC | Location | 장소 |
FNS | Final State | 결과 xx |
CRT | Criterion | xx |
FTR | Feature | 속성 |
INS | Instrument | xx |
MTR | Material | 재료 |
MAN | Manner | xx |
PRT | Part | 부분 |
QNT | Quantity | xx |
<표 3> 신서인(2017: 237-238) 한국어 xx역 표지 목록
(3) 동일한 xx역을 가지는 요소가 서술어에 따라 필수적인 xx인 xx도 있고 부 가적인 xx인 xx도 있는데 격틀 xx에서 이를 동일한 xx역으로 처리할지 xx역과 부가역으로 xx 처리할지를 결정해야 한다.
xx역 표지 | xx | 비고 |
ArgM-LOC | 장소(locatives) | |
ArgM-DIR | 방향(directional) | |
ArgM-CND | 조건(condition) | 서술형 QA xx |
ArgM-MNR | 방법(manner) | 서술형 QA xx |
ArgM-TMP | 시간(temporal) | |
ArgM-EXT | 범위(extent) | 6차년도 미사용 |
ArgM-PRD | xx 서술(secondary predication) | 6차년도 미사용 |
ArgM-PRP | 목적(purpose clauses) | 서술형 QA xx |
ArgM-CAU | 발생 이유(cause clauses) | 서술형 QA xx |
ArgM-DIS | 담화 연결(discourse) | 6차년도 미사용 |
ArgM-ADV | 부사적 어구(adverbials) | 6차년도 미사용 |
ArgM-NEG | xx(negation) |
ArgM-INS | xx(instrument) | 서술형 QA xx |
<표 4> xx전자통신연구원 부가 의미역 표지 목록
한편 한국전자통신연구원의 부가 의미역 태그 세트는 다양한 층위의 것이 혼재되어 있다.
(1) 부사, 부사어, 부사절이 모두 부가 의미역 태깅의 대상이 된다. 부사는 부사적 어 구로, 부사어는 장소, 방향, 명사-조사로 이루어진 부사어는 장소, 방향, 조건, 방 법, 시간, 범위, 도구 등으로, 부사절은 목적, 발생 이유 등으로 태깅되고 있다.
(2) 부사절에도 부가 의미역 태그를 부착하고 있는데, 연결 어미에 따라 부사절의 의미역을 어떻게 태깅할 것인지에 대한 연구가 필요하다.
(3) 담화 연결, 부정 등도 부가 의미역으로 태깅되고 있다.
(4) 전반적으로 무엇을 부가어로 태깅할 것인지에 대한 총체적인 고려가 없이 실용 적인 필요에 따라 부가어의 의미역을 추가하고 있는 양상을 보이고 있는데, 말 뭉치를 기반으로 한국어 문장을 분석하여 부가어 태깅에 필요한 태그 세트를 확정하여야 한다.
따라서 의미역 태그 세트와 관련하여서는 다음과 같은 점을 보완할 필요가 있다.
(1) 의미역 태그는 크게 논항과 부가어로 구분한다. 논항은 Arg(argument) 또는 OBL(obligatory element) 부가어는 ADJ(adjunct) 또는 OPT(optional element)
(2) 논항에 대해서도 숫자만으로 표시하는 대신 AGT, THM, PAT, SRC, GOL과 같이 구체적인 의미역을 추가한다.
(3) 한국어 의미역 관련 연구를 참조하여 필수 논항의 의미역을 세분한다.
(4) 동일한 의미역이 필수적인 성분일 때와 부가적인 성분일 때 어떻게 표시할지 결정한다.
(5) 부가적인 성분의 의미역에 대해서는 국어학계에서 논의가 미비한 실정이므로 말뭉치를 기반으로 한국어 문장을 분석하여 부가어의 의미역에 대한 연구를 수행하고 부가어 태깅에 필요한 태그 세트를 확정하여야 한다.
2.2.2. 필수 의미역 태깅 가이드라인 검토
필수 의미역은 Arg0, Arg1, Arg2, Arg3와 같이 숫자로 표시하게 되어 있으나 의미를 직관적으로 파악하게 하기 위해서는 Arg-AGT, Arg-THM, Arg-SRC, Arg-GOL과 같이 의
미역을 직접 표시하는 편이 나을 것이다. 또한 필수 의미역 태깅 가이드라인에 따르면 시작점이나 수혜자는 Arg2로, 도착점은 Arg3로 분석하게 되어 있다. 그러나 의미적으로 는 수혜자와 도착점이 유사한 면이 있으므로 수정이 필요하다.
2.2.3. 부가 의미역 태깅 가이드라인 검토
부가 의미역 태깅 가이드라인을 살펴보면, 부가 의미역 목록 자체가 일관성을 가지고 있지 않고 다양한 층위의 것들이 혼재되어 있다. 예를 들어 ArgM-CND는 인물이나 사물 의 자격이나 술어 발생 조건을 가리키고 있는데, ArgM-CND라는 태그를 부착하는 경우 로 다음 (1)과 같은 예가 제시되어 있다. (2)~(4)는 관련된 연구진 작성 예시이다.
(1) 과세 대상 금액이 많을수록 높은 세율을 적용한다.
(2) 그녀는 가수로 더 유명하다.
(3) 주변보다 기온이 높은 도시 지역
(4) 딸이 어머니를 경쟁자로 인식해
위의 (1)~(4) 예 중에서 (4)의 ‘경쟁자로’는 ‘인식하다’의 논항에 가까운 성분이 다. (1)~(3)의 예는 부가어라고 할 수는 있으나 그 지위가 서로 다르다. (1)은 부사절에 해당하고, (2), (3)은 부사어인데, (2)는 자격, (3)은 비교 기준으로 이들을 구분하여 태 깅하는 것이 유용할 것으로 보인다.
또한 ArgM-PRD는 ‘보조 서술’로서 시간, 장소, 조건, 방법, 원인, 범위 등에 해당 되지 않으나 술어의 상태를 보조적으로 수식하는 의미를 갖는 논항에 해당된다고 기 술하고 있으나 가리키는 바가 명확하지 않다. ArgM-PRD에 해당하는 예로는 다음 (1) 과 같은 예가 제시되어 있다. (2), (3)은 관련된 연구진 작성 예시이다.
(1) 석회암 지대에서 깔때기 모양으로 파인 웅덩이가 생겼다.
(2) 현지에서 생산되지 않는 물품을 공납으로 부과한다.
(3) 삼남 삼녀 가운데 말자로 태어났다.
위의 예들은 모두 ‘(으)로’라는 조사를 가지고 있지만, (1), (3)은 자격, (2)는 방식 으로 서로 다르게 분석되는 것이 유용하다.
또한 ‘마치, 물론, 역시’ 등의 부사는 ArgM-ADV, ‘그리고, 그러나, 즉’ 등의 접속부사는 ArgM-DIS로 분석하고 있다. 부사, 명사+부사격조사(부사격조사구), 부사절 (부사형어미구), 부사어로 기능하는 명사구 등 서술어에 대해 부가적인 성분들의 유형 을 총망라하고 이들에 대한 의미역을 일관되게 기술할 방안을 모색해야 한다.
부가어라고 하기 어려운 ArgM-NEG(부정), AUX(보조 용언) 등은 의미역을 부여하기 보다는 서술어와 함께 다른 방식으로 처리하는 것이 유용할 텐데, 이에 대한 처리도 재고할 여지가 있다.
2.2.4. 태깅 원칙 검토
한국전자통신연구원의 의미역 태깅 말뭉치는 기본적으로 영어권의 프롭뱅크에 기반을 두고 있다. 그러나 영어권의 분석을 한국어에 적용할 경우 한국어의 특성을 온전하게 반영하지 못하는 경우가 있다. 한국어의 경우 형태 분석 결과와 구문 분석 결과에서 넘 겨받은 조사 및 어미에 대한 정보를 의미 분석 과정에서도 적극 활용할 필요가 있으므 로 한국어 문장 분석에 필요한 의미역 태깅 원칙을 독자적으로 마련할 필요가 있다.
한국전자통신연구원의 의존의미역 지침에서는 기본적으로 Frame Set를 용언 어간이 아닌 어근을 중심으로 구축하고, 피동형과 사동형에 대해서도 파생 형태를 등재하지 않 고 능동형의 기본 형태를 기반으로 한다. 그런데 한국어에서는 어근이 아닌 어간 중심 으로, 파생어는 별도의 항목으로 등재할 필요가 있다. 예컨대 ‘오염하다, 오염시키다’ 는 ‘폐수가 강물을 오염했다/오염시켰다.’와 같이 실현되지만, ‘오염되다’는 ‘강물 이 폐수에/폐수로 오염되었다.’와 같이 실현되는 등 서로 다른 격틀을 가지고 있으므로 별도의 항목으로 등재하는 것이 효율적인 처리일 것이다. 다만, KPB와 같이 어근 중심 으로 등재하되 관련어를 제시하는 방식으로 기술하더라도 기술적 문제를 야기하지는 않 는다.
서술어 배제 리스트도 제시되어 있으며, ‘대하다, 관하다, 위하다, 의하다, 따르다, 통 하다, 비하다, 인하다, 불구하다, 비롯하다, 더불다, 말미암다’ 등을 대상으로 하고 있 다. 이들은 전처리를 통하여 ‘에_대하여, 에_관하여, 을_위하여, …’ 등을 하나의 단위 로 조정한 후 처리해야 할 것이다.
또한 한국어의 서술성 명사 중에는 별도의 격틀을 가지는 경우가 있다. 예컨대 ‘반 대’와 같은 경우 ‘나는 네 의견에 반대이다.’와 같이 쓰이므로 ‘반대이다’ 전체를 하나의 서술어로 보고 격틀을 기술할 수도 있다. 그러나 동 지침에서는 우리말샘의 표 제어로 ‘반대이다’가 등재되어 있지 않기 때문에 ‘반대이다’를 용언 술어로 보고 별도의 의미역을 태깅하는 작업을 하지 않는다.
의미역 분석 시 한국어 프롭뱅크나 한국전자통신연구원의 자료뿐만 아니라 기존의 한 국어 기반 의미역 분석 연구도 활용할 필요가 있다. 구체적으로 세종 전자사전의 용언 사전, 울산대 의미역 자동부착 프로그램(Utagger)과 격틀-의미역사전을 활용하고, 신서인
(2017)의 기술 내용을 격틀-의미역 사전 형태로 가공하여 활용할 필요가 있다.
[예] 세종 전자사전의 실례 ‘가감하다’(국립국어원 2011.12. 수정판 2쇄)
<superEntry>
<orth>가감하다</orth>
<entry n="1" pos="vv">
<mnt_grp>
<cre>
</mod_note>
</cre>
<mod>
</mod>
<mod>
</mod>
</mnt_grp>
<morph_grp>
<cre_date>2003/07/07</cre_date>
<cre_writer>박철우</cre_writer>
<cre_writer>김윤신</cre_writer>
<mod_date>2003/07/07</mod_date>
<mod_date>2009/11/01</mod_date>
<mod_writer>김민호</mod_writer>
<mod_note>UTF-8로 변경, XML 태그 오류 수정
<var type="spr">가감을 하다</var>
<cntr opt="opt" type="VDelCCon"/>
<org lg="si">加減_</org>
<infl type="yeo"/>
</morph_grp>
<sense n="01">
<sem_grp>
<sem_class>결과행위</sem_class>
<trans>add and subtract to</trans>
</sem_grp>
<frame_grp type="FTR">
<frame>X=N0-이 Z=N2-에 Y=N1-을 V</frame>
<subsense>
<sel_rst arg="X" tht="AGT">인간</sel_rst>
<sel_rst arg="Y" tht="THM">수량(-수|-량)|단 위|추상적대상(수량|금액|속도)|구체물(약)</sel_rst>
<sel_rst arg="Z" tht="LOC">수량(-수|-량)|단 위|추상적대상(수량|금액|속도)|구체물(약)</sel_rst>
<eg>체력에 맞도록 수련량을 가감하여야 한
다.</eg>
<eg>'소요산'이라는 처방에 증상에 따라 다
른 약들을 가감하여 쓰게 된다.</eg>
</subsense>
</frame_grp>
</sense>
</entry>
</superEntry>
[예] 세종 전자사전‘가감하다’에서 격틀, 의미역, 예문 정보만 추출한 것
[예] 신서인(2017)의 기술 내용을 격틀-의미역 사전 형태로 가공
2.2.5. 논항 경계 설정 검토
한국전자통신연구원의 의미역 태깅 지침에는 경동사 태깅에 대한 원칙이 제시되어 있 다. 지침의 5장에서‘연구를 하다, 준비가 되다’와 같은 구성에서의 ‘하다, 되다’ 등
을 경동사로 보고 있다. 이러한 기능 동사들을 경동사로 처리하는 것에는 문제가 없으 나 6장에서 ‘명사+명사 하다’ 구성을 하나의 동사구로 인식하는 것은 문제가 있다. 이에 해당하는 사례로 ‘곧장 달려가 적진을 습격 파괴한다.’나 ‘[...] 습격, 파괴한 다.’, ‘[...] 습격하고 파괴한다.’의 술어를 [습격 파괴하다]라는 하나의 동사구로 뭉뚱 그려 분석하는 경우를 들고 있다.
복합 술어를 하나의 동사처럼 취급하면 격틀과 의미역 분석 사상에 불일치가 발생하 고, 술어의 격틀을 충분히 분석하지 못한다는 단점이 있다. ‘습격 파괴하다’에 대응하 는 격틀은 없으므로 지침에 따라 ‘습격’ 혹은 ‘파괴’ 프레임세트를 활용하여 분석 하게 될 것이다. 따라서 의미역 분석의 결과에 단독 동사 분석과 결합 동사 분석이 뒤 섞이게 된다. 또한 ‘습격’과 ‘파괴’는 서로 동일한 격틀을 공유하고 있지만, 그렇지 않은 경우에는 의미역 분석 결과가 왜곡된다. ‘적진을 습격 침투했다.’의 경우에 ‘습 격’과 ‘침투’는 ‘적진’을 공동 논항으로 취하고 있지만, 격틀은 서로 다르다. ‘적 진’은 ‘습격’을 기준으로는 Arg1이지만, ‘침투’를 기준으로는 Arg2이기 때문이다.
따라서 이러한 복합 술어는 후행 명사에 결합한 경동사를 선행 명사에 복사하여 서술 어를 복원하고 복합 동사구가 아니라 두 절이 접속된 것으로 간주해야 할 것이다. 즉, ‘적진을 습격, 파괴한다.’는 ‘적진을 습격하고 파괴한다.’로 처리하고, 표면형을 기 준으로 선행절의 의미역을 분석한 뒤, 후행절인 ‘파괴한다’의 의미역은 무형 대용어 복원 결과를 활용하거나 ‘명사+명사 하다’ 구성에 한해 해당 구성 내 모든 술어성 명 사에 대해 논항 및 부가역을 분석하도록 지침으로 정해야 할 것이다.
제 3 장
의미역 기술 모형 지침
3.1. 의미역 기술 모형 기존 자료 수정‧보완 지침
‘의미역 기술 모형 기존 자료’는 LDC의 코리언 프롭뱅크를 가리킨다. 이미 기술된 roleset을 유지하는 원칙으로 하여 세부적인 사항이나 예제 문장 등을 수정·보완하는 작업의 지침은 아래와 같다.
3.1.1. 문서 형식 및 프로그램
[1] 형식
• 확장자: xml
• 폰트: D2coding
[이용] xxxxx://xxxxxx.xxx/xxxxx/x0xxxxxxxxxx
• 들여쓰기: space 2칸
• 파일명
- 개별 파일: lemma명.xml
[예시] 이기.xml
- 제출 압축파일: 작성자명n차(N개).zip
[예시] 이홍식1차(10개).zip
(한국어 프롭뱅크 파일 수정은 1차, 신규파일 집필은 2차와 3차로 함.)
• 인코딩: UTF-8, without signature(BOM)[서명 없음, 추가(Add)하지 않음]
[예시]
[2] 프로그램
• 기술: EmEditor
• 검증: XML ValidatorBuddy
• 적격성(well-formedness) 검사: 요소별로 개폐가 정확이 이루어졌는지 확인
• validity 검사: 누락된 요소는 없는지 확인
[이용]xxxxx://xxx.xxxxxxxxx.xxx/xxx/Xxxxxxxx/XXX-Xxxxxx/Xxx-Xxxxxx-xxxxxxx/XXX-Xxx idatorBuddy.shtml
3.1.2. 대원칙
[1] 파일은 다음 관계를 중심으로 하여 어근별로 구축한다.
• 능동-피동
‘남다-남기다-남겨지다’처럼 의미적 연관성이 확인되는 경우 하나의 파일로 작업한다.
• 주동-사동
단, ‘덥다-데우다’처럼 형태적 연관성을 확인할 수 없는 경우 별도의 파일로 작업한다.
• ‘하다’-‘되다/받다/당하다’-‘시키다’
• ‘나다’-‘내다’
단, ‘따다-따내다’, ‘때리다-때려내다’처럼 전문 용어로 의미적 연관성을 확인할 수 없는 경우 별도의 파일로 작업한다.
• ‘-스럽다’, ‘-롭/답다’
• ‘-어지다’, ‘-어하다’, ‘-뜨리다’, ‘-트리다’
단, ‘넘다-넘어지다’, ‘떨다-떨어뜨리다’처럼 의미적 연관성을 확인할 수 없는 경우 별도의 파일로 작업한다.
• 본말-준말 관계 단어들은 본말을 기준으로 작업한다.
‘건드리다-건들다’, ‘어찌하다-어쩌다’
• 이상의 경우 외 아래의 경우는 별도의 파일로 작업한다.
ㄱ. 있다(관계하다-관계있다), 없다(관계하다-관계없다), 짓다(관련하다-관련짓다), - 거리다/-대다(뒤흔들다-뒤흔들어대다), 버리다(쓸다-쓸어버리다)
ㄴ. 형용사 중첩형은 원 단어와 별도의 파일로 작업한다.
: 쓰다-쓰디쓰다, 길다-기나길다
ㄷ. 목록 중 외래어 어근(아이러니/아이러니칼)은 별도의 파일로 작업한다.
[2] 가능한 한 기존 구조와 표제어는 보존한 채 격틀에 대한 기술을 보충한다.
• 표제어: 기존 표제어를 대상으로 한다.
• 격틀
1) 기존 의미역 구조(<roleset>)로 포괄될 수 있는 격틀은 <rel>을 통해 추가한다.
2) 기존 <roleset>으로 포괄될 수 없는 격틀은 <roleset> 내에 누락된 논항을 포함 시킨 후 <rel>을 통해 추가한다.
3) 기존 <roleset> 내 항목 자체를 삭제하거나 변경해서는 안 된다. 기존 파일의
<roleset>에 문제가 있어서 수정할 경우에는 파일명에 (수정)이라고 표시하되 기존 파일의 <roleset>을 지킨 파일과 수정한 파일 두 개를 작성한다.
[예시] 가득차.xml 가득차(수정).xml
[3] 기존 예문은 삭제한 후 신규 작성한다.
1) 격틀과 의미역이 잘 부각될 수 있도록 예문을 작성한다.
2) 되도록 모든 논항을 포함시키되, 자연스러운 예문을 만들기 위해서 예문에 모든 논항이 실현되지 않아도 된다.
3) 다양한 의미역과 대응될 수 있도록 부가어 1-2개를 첨가한다.
4) 중의적 해석을 피할 수 있도록 분명한 구조로 표현한다.
[4] 기존 구문 분석은 삭제한 후 <parse>를 공란으로 처리한다.
[5] 논항에는 다음 정보를 포함시킨다.
1) 논항의 번호는 7쪽 <논항 의미역 분류표>에 따라 그 번호를 부여한다. (표 아래 다시 설명)
2) 범주는 구문 태그(구 범주)와 기능 태그(문장성분)를 하이픈으로 연결하여 기입한다.
3) 의미역은 술어별로 구체적인 의미 역할과 세종 전자사전의 의미역명을 병기한다.
[6] 작성 예문은 <relation> 내에서 간략하게 분석한다.
[7] 표제어의 번호는 우리말샘, 세종 전자사전과 연계하여 표시한다.
3.1.3. 구조 및 항목별 기술
[1] <lemma>: 상위표제어
1) 번호는 부착하지 않는다.
2) ‘다’가 삭제되었거나 ‘하다/되다’ 등이 결합하지 않은 형태이다.
[예시] ‘이기다’ ☞ 이기
[예시] ‘무시하다/무시되다’ ☞ 무시
3) ‘X-하다’의 술어성 명사 ‘X’가 존재하지 않고 오직 ‘X하/받/시키/되/스럽
-’만 존재하는 경우 어간형을 <lemma>에 쓸 수 있다. 예컨대, 술어성 명사 ‘난 처’가 표제어인 파일 ‘난처.xml’이 존재하지 않고 오직 ‘난처하.xml’만 있을 경우에는 <lemma>를 ‘<lemma>난처(어근)</lemma>’와 같이 기술한다. [예시]‘난처하다’☞ <lemma>난처(어근)</lemma>
[2] <id>: 표제어 및 번호
1) <id>: 우리말샘 번호
① <lemma>와 동일한 형태이다.
Ⓒ 우리말샘 표제어에서 격틀과 추상적인 의미를 공유하는 다의어 중 가장 작은 번호를 대표로 하여 부착한다.
[예시] ‘이기다’ ☞ 이기.001
③ 능동형(주동형) 번호를 대표로 하여 부착한다. 다만, 술어성 명사를 포함하는 서술어의 경우, 술어성 명사의 우리말샘 번호를 부착한다.
[예시] ‘무시하다’의 ‘무시’의 경우 ☞ 무시.005
Ⓐ 우리말샘 미등재 표제어에는 777, 등재는 되어 있으나 해당 의미가 누락된 표 제어에는 888, 표기 오류에는 999를 부착한다.
2) <id_org>: 한국어 프롭뱅크 격틀의 <id> 번호
① 신규 기술 항목은 해당되지 않는다.
Ⓒ 한국어 프롭뱅크 격틀의 <id>와 수정, 보완 파일의 <id_org> 간 대응표를 만들어 제출한다.
3) <id_sj>: 세종 전자사전의 엔트리 번호 및 센스 번호
① 기본형을 사용한다. ‘올라가다’의 경우 ☞ <id_sj>올라가다.0103</id_sj>
Ⓒ 세종 전자사전의 엔트리→센스→격틀→하위센스 순서의 구조를 숙지한다.
③ 기존 파일에 기술된 의미가 몇 번째 엔트리, 몇 번째 센스에 해당하는지 확인한다.
Ⓐ 엔트리 번호 두 자리, 센스 번호 두 자리를 연결하여 총 네 자리로 부착한다.
[예시] <orth>올라가다</orth>
<entry n="1" pos="vv"> (중략)
<sense n="03">
☞ <id_sj>올라가다.0103</id_sj>
[예시]
수정 전 | 수정 후 |
<id>옳.01</id> | <id>옳.001</id> <id_org>옳.01</id_org> <id_sj>옳다.0101</id_sj> |
<id>입수.01</id> | <id>입수.002</id> <id_org>입수.01</id_org> <id_sj>입수하다.0101</id_sj> |
Ⓒ 세종 사전의 entry+sense 번호가 제대로 부여되지 않았을 경우, 작업자가 그 순서를 세어 번호를 부여한다. 예를 들어, entry=1에 4개의 sense가 있는데 이때의 sense에 번호가 부여되어 있지 않을 때, 기술 대상의 그 3번째 의미와
관련된다면 <id_sj>에 0103을 부여한다.
⑥ 세종 사전에 해당 항목이 없을 경우 <id_sj>는 비워 둔다.
[예시] <id_sj></id_sj>
[3] <edef> 혹은 <kdef>: 영문 번역, 혹은 <id> 번호에 해당하는 우리말샘 의미
1) 기존 파일의 <edef>를 사용한다.
2) 국문 의미는 <kdef>에 마침표를 포함하여 기입한다(신규 작성 기준).
[예시] <id>개발.001</id>
<edef>develop</edef>
<kdef>토지나 천연자원 따위를 유용하게 만듦.</kdef>
3) 기존 파일의 해당 술어가 우리말샘 또는 세종 사전의 어떤 sense에 대응되는지는 기존 파일의 <edef>, 예문 등을 종합적으로 고려하여 작업자가 판단한다.
[4] <roleset>: 논항 번호와 의미역명
1) 주동과 사동, 능동과 피동은 서로 의미역을 공유하는 것으로 간주한다.
[예시]‘X-가 Y-를 개발하다’와 ‘Y-가 개발되다’가 동일한 의미역을 공유하는 것으로 설정돼 있다.
<id>개발.001</id>
(중략)
<roleset>
<role argnum="0" argrole="개발자(AGT)"/>
<role argnum="1" argrole="개발 대상(THM)"/>
</roleset>
(중략)
<rel>개발하다.004</rel>
<mapitem src="np-sbj" trg="arg0"/>
<mapitem src="np-obj" trg="arg1"/> (중략)
<text>연구팀은 고통받는 아이들을 위해 치료제를 개발했
다.</text>
(중략)
<rel>개발되다.004</rel>
<mapitem src="s" trg="arg0"/>
<mapitem src="np-sbj" trg="arg1"/> (중략)
<text>투자를 아끼지 않았으므로 국내에서도 신소재가 성공적으로 개발되었다.</text>
<id>조절.002</id>
(중략)
<roleset>
<role argnum="0" argrole="조절자(AGT)"/>
<role argnum="1" argrole="조절 대상(THM)"/>
</roleset>
(중략)
<rel>조절하다.002</rel>
<mapitem src="np-sbj" trg="arg0"/>
<mapitem src="np-obj" trg="arg1"/> (중략)
<text>그는 라디오의 볼륨을 적당히 조절했다.</text> (중략)
<rel>조절되다.002</rel>
<mapitem src="s" trg="arg0"/>
<mapitem src="np-sbj" trg="arg1"/> (중략)
<text>이 방의 온도는 컴퓨터에 의해 조절된다.</text>
[예시]‘X-가 Y-를 조절하다’와 ‘Y-가 X-에 의해서 조절되다’가 동일한 의미역을 공유하는 것으로 설정되어 있다.
2) 논항 개수는 사동형을 고려하여 최대치로 작성한다.
[예시] 기존 자료 ‘물.xml'을 보면 ‘X-가 Z-에게 Y-를 물다’(언니는 친구에게 이자를 물었다)와 ‘A-가 X-에게 Y-를 물리다’(위원회가 언니에게 벌금을 물렸다)를 모두 포괄하도록 <roleset>을 설정하고 있다.
<id>물.007</id>
<id_org>물.02</id_org> (중략)
<roleset>
<role argnum="A" argrole="물리는 자(CSR)"/>
<role argnum="0" argrole="무는 자(AGT)"/>
<role argnum="1" argrole="무는 대상(THM)"/>
<role argnum="2" argrole="무는 도달점(GOL)"/>
</roleset>
[예시]‘Y-가 좁다’(방이 좁다)와 ‘X-가 Y-를 좁히다’(언니가 방을 좁혔다)를 모두 포괄할 수 있도록 <roleset>을 설정한다.
<id>좁.001</id>
<id_org>좁.01</id>
(중략)
<roleset>
<role argnum="0" argrole="좁히는 자(AGT)"/>
<role argnum="1" argrole="좁은 대상(THM)"/>
</roleset>
3) 의미역은 해당 술어에서의 구체적 의미 역할을 기입한 후 괄호 안에 세종 전자사 전의 영문 의미역명을 대명사로 표기하여 병기한다.
① 영어 프롭뱅크의 영문 의미역을 기준으로 하되 본 사업에서 자체적으로 확정한 목록으로 기술한 파일도 추가적으로 제출한다.
Ⓒ 사동문의 arg-A는 ‘사동주(CSR)'로 표기한다.
[예시] ‘알리다’의 경우이다.
수정 전 | 수정 후 |
<role argnum="A" argrole="causer"/> <role argnum="0" argrole="knower"/> <role argnum="1" argrole="theme"/> | <role argnum="A" argrole="알리는 자 (CSR)"/> <role argnum="0" argrole="아는 자 (AGT)"/> <role argnum="1" argrole="아는 대상 (THM)"/> |
4) 기타 의미역명은 다음과 같다. ‘처소’는 ‘장소’나 ‘위치’로 설명하는 것이 더 낫다고 볼 수도 있으나, 국문 명칭이 기술적 문제를 야기하는 것이 아니므로 기존 용어인 ‘처소’로 제시한다.
연번 | 약호 | 영문명 | 국문명 | 한국전자 통신연구원 | 비고 |
1 | AGT | Agent | 행동주 | Arg0 | |
2 | EXP | Experiencer | 경험주 | Arg0 | |
3 | MAG | Mental Agent | 심리행위주 | Arg0 | |
4 | EFF | Effector | 영향주 | Arg0 | 무정물. 비의도적 |
5 | COM0 | Comitative | 주어-동반주 | Arg2 | 연관된 성분이 주어 |
6 | COM1 | Comitative | 목적어-동반주 | Arg2 | 연관된 성분이 목적어 |
7 | THM | Theme | 대상 | Arg1 | Patient/피동주 포함 |
8 | LOC | Location | 처소 | Arg3 | ArgM-LOC과 구별 |
9 | SRC | Source | 출발점 | Arg2 | |
10 | GOL | Goal | 도착점 | Arg3 | |
11 | FNS | Final State | 결과 상태 | Arg3 | |
12 | DIR | Direction | 방향 | Arg3 |
13 | CNT | Contents | 내용 | Arg1 /Arg2 | 발화 동사에만 해당됨. THM이 있는 경우는 CNT가 Arg2 |
14 | INS | Instrument | 도구 | Arg2 | Material/재료 포함 |
15 | CRT | Criterion | 기준치 | Arg2 | |
16 | CSR | Causer | 사동주 | ArgA | 타동문에서 도출된 사동문의 주어 * |
17 | PAT | Patient | 피동주 | Arg1 | THM이 이미 부여된 피동문의 주어 * |
<표 5> 논항 의미역 분류표4)
5) 논항의 의미역과 그 번호(한국전자통신연구원 번호)는 위의 표와 같이 고정한다. 기존 한국전자통신연구원 지침을 수정하여 Arg의 번호를 순차적으로 매기지 않고 특정 의미역에 특정 번호를 고정하여 부여하기로 한다. 예컨대, 어떤 성분의 의미 역이 AGT라면 그 번호는 고정적으로 Arg0이고, DIR이라면 그 번호는 고정적으로 Arg3이다.
[예시] 철수가/AGT 이쪽으로/DIR 온다. 철수가/Arg0 이쪽으로/Arg3 온다.
위의 예문에서 Arg1 또는 Arg2이 없더라도 “철수가”에는 Arg0를 “이쪽으로”에 는 Arg3을 고정적으로 부여한다. 다만, 기존 지침에서는 논항 번호를 순차적으로 부 여하였기 때문에, 논항 번호를 의미역을 따라 고정적으로 부여할 경우 논항 번호가 중복될 수 있다.
[예시] 출마하다(순차적으로 논항 번호 부여)
<role argnum="0" argrole="one running"/>
<role argnum="1" argrole="run as"/> 집권 국민당 후보로
<role argnum="2" argrole="run for"/> 총통선거에
[예시] 출마하다(고정적으로 논항 번호 부여)
<role argnum="0" argrole="one running"/>
<role argnum="3" argrole="run as"/> 집권 국민당 후보로
<role argnum="3" argrole="run for"/> 총통선거에
위의 예문에서 순차적으로 부여한 논항 번호 Arg1, Arg2는 의미역에 따르면 모두 LOC, GOL, FNS 등으로 해석할 수 있다. 이런 문제 때문에 고정 번호 기술이 합리적 이라고 판단된다. 단, KPB 수정·보완에서는 다른 자료와의 호환성을 고려해 기존 처리대로 순차 번호를 유지하되 고정 번호 파일을 별도로 만든다.5)
4) COM을 COM1과 COM2로 나눈 것은 본 연구진에 의한 것이다.
5) 신규 기술 파일에서는 고정 번호로 기술한다. 거기에서는 반대로 순차 번호 파일을 별도로 만든다.
6) 사동주 CSR은 타동문으로부터 도출된 사동문의 주어에만 사용한다. 예를 들어 ‘X가 Y를 좁히다’의 X에는 CSR을 부여하지 않고 AGT로 분석한다.
[예시] ① 상급자가/CSR 담당자에게/AGT 모든 부품을/THM 검수시켰다.
② 인부들이/AGT 이 길을/THM 좁혔다.
①의 경우 “담당자가 모든 부품을 검수하다”로부터 도출된 사동문이기 때문에 “상급자”에 CSR을 부여하였다. 그러나 Ⓒ의 경우는 근원이 되는 타동문을 상정할 수 없기 때문에 “인부들이”에 AGT를 부여한다. 즉 Ⓒ는 일반 타동사문과 동일하 므로 상위의 CSR을 설정하는 것이 타당하지 않다는 것이다.
7) 피동주 PAT는 피동문에서 THM이 목적어나 부사어에 이미 부여되었을 경우에만 그 문장의 주어에 부여한다. 피동주 PAT를 THM으로 부여하지 않도록 주의한다.
[예시] 철수가/PAT 영희에게/AGT 손을/THM 잡혔다.
① 철수가/Arg1 영희에게/Arg0 손을/Arg2 잡혔다.
--> ② 철수가/Arg1 영희에게/Arg0 손을/Arg1 잡혔다.
기존 한국전자통신정보원 지침에서는 ①과 같이 “손을”의 논항 번호가 Arg2로 되도록 하였으나 이를 수정하여 Ⓒ와 같이 Arg1을 부여한다. 이처럼 논항 번호를 의미역에 따라 고정적으로 부여할 경우 “철수가”와 “손을”의 논항 번호는 Arg 1로 같아지는데 이는 오류가 아니라 한국어의 격 중출 현상에 기인한다.
8) 술어별 구체적 의미 역할은 세종 전자사전의 국문 의미역명을 최대한 활용하여 작성한 다.
① lemma X가 어간이면 능동형․주동형을 기준으로 ‘X는 자/대상/장소/기점/착점’ 등으로 기입하며, 사동주일 때에만 사동형을 기준으로 기입한다.
[예시] ‘이기다’(이기) ☞ ‘이기는 자(AGT)’, ‘이기는 대상(THM)’
‘물다’(이기) ☞ ‘물리는 자(CSR)’, ‘무는 자(THM)’, ‘무는 대상(THM)'
Ⓒ lemma X가 술어성 명사이면 ‘X자/대상/장소/기점/착점’ 등으로 기입한다.
[예시] ‘승리하다’(승리) ☞ ‘승리자(AGT)’, ‘승리 대상(THM)'
9) ‘-당하다’, ‘-받다’, ‘-시키다’, ‘-어지다’ 등을 <frame>으로 추가할 때는 우리말샘에 등재된 것만 추가한다.
10) <roleset>, <frame>, <frameset>의 추가
① 기본적으로 한국어 프롭뱅크 자료의 <roleset>은 수정하지 않는다. 다만, 피동형, 사동형 등의 추가하거나 보다 정밀한 기술을 위해 “role”을 추가할 수는 있다.
수정 전 | 수정 후 |
<role argnum="1" argrole="한하는 대상(THM)"/> <role argnum="2" argrole="한하는 범위(CRT)"/> | <role argnum="0" argrole="한하는 자(AGT)"/> <role argnum="1" argrole="한하는 대상(THM)"/> <role argnum="2" argrole="한하는 범위(CRT)"/> |
Ⓒ <frame>은 같은 <roleset>을 사용하되 <mapitem>이 다른 경우에 추가할 수 있다. 다음의 예처럼 <mapitem>이 달라진 경우, <frame>을 추가한다.
<frameset>
<id>거부.003</id> (중략)
<roleset>
<role argnum="0" argrole="거부자(AGT)"/>
<role argnum="1" argrole="거부 대상(THM)"/>
<role argnum="2" argrole="거부당하는 자(THM)"/>
</roleset>
<frame>
<mapping>
<rel>거부하다.001</rel>
<mapitem src="np-sbj" trg="arg0"/>
<mapitem src="np-obj" trg="arg1"/>
</mapping> (중략)
</frame>
<frame>
<mapping>
<rel>거부되다.001</rel>
<mapitem src="np-sbj" trg="arg1"/>
<mapitem src="np-comp" trg="arg2"/>
</mapping>
③ <frameset>은 <roleset> 전체를 수정해야 할 경우 기존 파일의 <frameset>은 그 대로 두고, 또 다른 <frameset>을 추가할 수 있다.
[5] <rel>: 예문 기술 술어
1) 우리말샘 번호를 기입한다.
2) 종결 어미 ‘-다’를 포함한 형태이다.
[예시]
수정 전 | 수정 후 |
<id>옳.01</id> | <id>옳.001</id> <id_org>옳.01</id_org> <id_sj>옳다.0101</id_sj> (중략) <rel>옳다.001</rel> |
<id>입수.01</id> | <id>입수.002</id> <id_org>입수.01</id_org> <id_sj>입수하다.0101</id_sj> (중략) <rel>입수하다.001</rel> (중략) <rel>입수되다.001</rel> |
3) 우리말샘 미등재 표제어는 777, 등재는 되어 있으나 해당 의미가 누락된 표제어에 는 888, 표기 오류에는 999를 부착한다.
[예시] <lemma>거슬러 올라가</lemma> (중략)
<id>올라가.003</id> (중략)
<rel>거슬러 올라가다.777</rel>
[6] <mapitem>: <rel>별 <roleset>과 격틀 간 대응 양상
1) 논항의 구문 태그는 np(명사구), s(문장)를 사용한다.
2) 논항의 기능 태그는 sbj(주어), obj(목적어), comp(필수적 부사어 등)만 사용한다.
3) src의 속성값으로는 np-sbj, np-obj, np-comp, s-comp만 사용한다. np-sbj는 주어, np-obj는 목적어, np-comp는 그 외의 논항, s-comp는 그 의미역이 CNT인 ‘-다 고, -냐고, -라고, -자고’ 등의 절 보어에 사용한다.
[예시]
[예시] ‘걱정되다.001’ 등 심리동사는 ‘sbj-comp’ 구조로 표기한다.
<id>이기.001</id>
(중략)
<roleset>
<role argnum="0" argrole="이기는 자(AGT)"/>
<role argnum="1" argrole="이기는 대상(THM)"/>
</roleset>
(중략)
<rel>이기다.001</rel>
<mapitem src="np-sbj" trg="arg0"/>
<mapitem src="np-obj" trg="arg1"/>
4) 의미가 구분돼도 격틀이 동일하면 한 번만 기술한다.
[예시] ‘이기다’는 방언형, 북한어를 제외하고 모두 ‘X-가 Y-를 이기다’ 문형이다.
5) 우리말샘 문형 기준 비필수 논항․부가어는 추가하지 않는다.
[예시] 예컨대 ‘X-가 Y-를 V’도 가능하고 ‘X-가 Y-을 Z-로 V’도 가능한데 사전에 전 자만 기술돼 있을 경우에 Z를 논항으로 추가하지 않는다.
6) 우리말샘 문형 기준 필수 논항은 반드시 추가한다.
① 기존 <roleset>의 항목들은 삭제하거나 그 번호를 수정하지 않는다.
[이유] 한국어 프롭뱅크를 활용한 기존 자료들과의 호환성 문제를 고려함.
Ⓒ 기존 <roleset> 내에 누락된 논항을 추가하여 기입한다.
③ 해당 격틀은 <rel>을 통해 기술한다.
Ⓐ 이때 <rel>만이 아닌 <frame> 전체가 반복되므로 <rel>, <mapitem>, <text>,
<relation> 모두 한꺼번에 신규 기술한다.
[예시] ‘설립하다.001’의 경우를 예를 들면 다음과 같다. 한국어 프롭뱅크에는 ‘X- 가 Y-를 설립하다’만 기술되어 있으나, 우리말샘에서는 ‘X-가 Z-에 Y-를 설 립하다’를 기본 문형으로 설정하고 있다. 이때 Z는 Arg2에 해당하는 것으로 이해할 수 있다.
Ⓒ 기존 <frame>은 보존한다.
⑥ 신규 격틀을 <frame>으로 추가한다.
수정 전 | 수정 후 |
<id>설립.01</id> (중략) | <id>설립.002</id> <id_org>설립.01</id_org> |
<roleset> <role argnum="0" argrole="agent"/> <role argnum="1" argrole="thing set"/> </roleset> <frame> <mapping> <rel>설립하다</rel> <mapitem src="sbj" trg="arg0"/> <mapitem src="obj" trg="arg1"/> </mapping> (중략) </frame> | (중략) <roleset> <role argnum="0" argrole="설립자 (AGT)"/> <role argnum="1" argrole="설립 대상 (THM)"/> <role argnum="2" argrole="설립 위치 (LOC)"/> </roleset> <frame> ① 기존 <rel> 및 <frame> <mapping> <rel>설립하다.001</rel> <mapitem src="np-sbj" trg="arg0"/> <mapitem src="np-obj" trg="arg1"/> </mapping> (중략) </frame> <frame> ② 추가 <rel> 및 <frame> <mapping> <rel>설립하다.001</rel> <mapitem src="np-sbj" trg="arg0"/> <mapitem src="np-obj" trg="arg1"/> <mapitem src="np-comp" trg="arg2"/> </mapping> (중략) </frame> |
➀ 기존의 한국어 프롭뱅크를 수정한 경우를 목록화하여 제출한다.
7) 피동형․사동형 등 기술 대상 술어의 파생형을 추가한다.
- 기술 방식은 3.1.3.의 [4]와 동일하다.
8) 격 교체 구문은 신규 <roleset>을 추가하면 기존 논항 번호의 수정을 초래하여 자 료의 호환성이 상실되므로 기존 <roleset>을 단일한 기준으로 삼아 대응시킨다.
① 기술 방식은 3.1.4.의 [4]와 동일하다.
Ⓒ 동일한 <roleset>하에 복수의 <rel>을 반복하여 기술한다.
[예시] ‘감다’의 경우이다. 기존 자료에 AGT-THM-LOC으로 <roleset>이 기술돼 있으 므로 ‘X-가 Y-를 Z-로 감다’(언니가 팔을 붕대로 감았다)의 경우 X(언니가) 는 AGT(arg0), Y(팔을)는 LOC(arg2), Z(붕대로)는 THM(arg1)이 된다. 반면 이 와 대응되는 ‘X-가 Z-에 Y-를 감다’(언니가 팔에 붕대를 감았다)의 경우 X (언니가)는 AGT(arg0), Y(붕대를)는 THM(arg1), Z(팔에)는 LOC(arg2)이다.
<id>감.003</id>
<roleset>
<role argnum="0" argrole="감는 자(AGT)"/>
<role argnum="1" argrole="감는 대상(THM)"/>
<role argnum="2" argrole="감는 위치(LOC)"/>
</roleset>
(중략)
<rel>감다.003</rel>
<mapitem src="np-sbj" trg="arg0"/>
<mapitem src="np-obj" trg="arg1"/>
<mapitem src="np-comp" trg="arg2"/> (중략)
<text>언니는 풀리지 않도록 동생의 팔에 붕대를 꽉 감았다.</text> (중략)
<rel>감다.003</rel>
<mapitem src="np_sbj" trg="arg0"/>
<mapitem src="np_obj" trg="arg2"/>
<mapitem src="np_comp" trg="arg1"/> (중략)
<text>언니는 풀리지 않도록 동생의 팔을 붕대로 꽉 감았다.</text>
9) 기존 <roleset>으로 기술할 수 없는 경우에는 <roleset>을 신규 작성하여 추가한다.
① 이때 추가되는 것은 <roleset>을 포함하는 <frameset> 전체이다. 이 경우 앞의 id 번호를 그대로 기술한다.
Ⓒ CNT를 추가하기 위해 <roleset>을 추가하는 경우에도 <frameset> 전체를 추가한다.
[예시]‘가다’
수정 전 | 수정 후 |
<!DOCTYPE framefile SYSTEM "verb.dtd"> <framefile> <predicate> <frameset> <id>가.001</id> | <!DOCTYPE framefile SYSTEM "verb.dtd"> <framefile> <predicate> <frameset> <id>가.001</id> |
<id_org>가.01</id_org> <id_sj>가다.0101</id_sj> <edef>go</edef> <roleset> <role argnum="0" argrole="가는 존재(AGT)"/> <role argnum="1" argrole="대상 (THM)"/> <role argnum="2" argrole="출발점 (SRC)"/> <role argnum="3" argrole="도착점 (GOL)"/> </roleset> <frame> <mapping> <rel>가다</rel> <mapitem src="sbj" trg="arg0"/> <mapitem src="obj" trg="arg1"/> <mapitem src="comp" trg="arg2"/> <mapitem src="comp" trg="arg3"/> </mapping> <example> <text>학교에서 광화문으로 가려면 몇 번 버스를 타야 합니까?</text> </example> </frame> </frameset> </predicate> </framefile> | <id_org>가.01</id_org> <id_sj>가다.0101</id_sj> <edef>go</edef> <roleset> <role argnum="0" argrole="가는 존재(AGT)"/> <role argnum="1" argrole="대상 (THM)"/> <role argnum="2" argrole="출발점 (SRC)"/> <role argnum="3" argrole="도착점 (GOL)"/> </roleset> <frame> <mapping> <rel>가다</rel> <mapitem src="sbj" trg="arg0"/> <mapitem src="obj" trg="arg1"/> <mapitem src="comp" trg="arg2"/> <mapitem src="comp" trg="arg3"/> </mapping> <example> <text>학교에서 광화문으로 가려면 몇 번 버스를 타야 합니까?</text> </example> </frame> </frameset> <frameset> <id>가.022</id> <id_org></id_org> <id_sj>가다.0104</id_sj> <edef>function</edef> <roleset> <role argnum="1" argrole="대상 (THM)"/> </roleset> <frame> <mapping> <rel>가다</rel> <mapitem src="sbj" trg="arg1"/> </mapping> <example> <text>이 시계는 지금도 잘 간 다.</text> </example> |
</frame> </frameset> </predicate> </framefile> |
③ 한국어 프롭뱅크에서는 추상적 의미가 같으면 같은 프레임셋에서 기술하는 것 이 원칙이지만, 예외를 인정할 경우가 있다. 예컨대 ‘녹.xml’의 의미는 melt 나 dissolve로 포괄되는 것이지만,‘녹.011’은 감정이 누그러진다는 뜻이고, ‘녹이.006’은 타인을 매혹하여 감정을 누그러지게 한다는 뜻으로서 추상적 의미가 상당히 다르다. 따라서 이들은 별도의 프레임셋에서 기술하였다.
[예시] ‘녹다’
<id>녹.01</id> <edef>melt</edef> <roleset> <role argnum="0" argrole="causer"/> <role argnum="1" argrole="thing melted"/> </roleset> <frame> <mapping> <rel>녹다</rel> <mapitem src="comp" trg="arg0"/> <mapitem src="sbj" trg="arg1"/> </mapping> | <id>녹.01</id> <edef>attract</edef> <roleset> <role argnum="0" argrole="agent, causer"/> <role argnum="1" argrole="thing attracted"/> </roleset> <frame> <mapping> <rel>녹다.011</rel> <mapitem src="np-sbj" trg="arg1"/> <mapitem src="np-comp" trg="arg0"/> </mapping> <mapping> <rel>녹이다.006</rel> <mapitem src="comp" trg="arg0"/> <mapitem src="sbj" trg="arg1"/> </mapping> |
10) 원칙적으로 이중 주어문의 대주어는 주제로 분석하고 소주어는 주어로 분석한다. 주제는 np-comp, 주어는 np-sbj이다. 심리 술어의 경우, 예를 들어 “철수는 고기가 싫다.”에서 NP1에 Arg0(EXP)를, NP2에 Arg1(THM)을 부여한다. NP1이 NP2의 소유
주인 경우, 예를 들어 “철수는 눈이 크다.”에서는 소유자(PSR)인 NP1을 부가어로 처리하고 NP2를 THM(Arg1)로 처리한다. 다른 유형의 이중 주어문은 다루지 않는다. 이를테면 목적어 있는 피동문 같은 경우는 이와 같이 처리하지 않는다.
[7] <text>: 신규 작례 기입
1) 기존 예문은 삭제한 후 세종 전자사전의 예문을 활용․수정하여 신규 작성한다.
① 우리말샘에서 기술할 술어의 격틀을 확인한다.
Ⓒ 세종 전자사전에서 사용할 예문을 선택한다.
③ 단어를 교체한다.
[예시]
[1] 가려지다.001(<rel> 기준)
- 격틀: X-가 Y-에 가려지다
- 예문: 다리가 안개에 가려졌다.
☞ 건물이 나무에 가려졌다
[2] 합병되다.001
- 격틀: X-가 Y-와 합병되다
- 예문: 우리나라가 일본과 합병되었다.
☞ 제약회사가 통신사와 합병되었다.
[3] 사과드리다.001
- 격틀: X-가 Z-에게 Y-를 사과드리다
- 예문: 나는 선생님에게 그 일을 사과드렸다.
☞ 언니는 어머니에게 잘못을 사과드렸다.
2) 격틀이 분명하게 반영될 수 있도록 작성한다.
[예시]
[1] 걱정되다.001
- 격틀: X-가 Y-가 걱정되다
- 예문: 나는 언니가 걱정된다. (O) 언니가 걱정된다. (X)
[2] 예약하다.001(본 사업의 기술 대상 술어 아님)
- 격틀: X-가 Y-를 예약하다
- 예문: 언니는 호텔을 예약해. (O) 호텔을 예약해. (X)
[3] 감다.003
- 격틀: X-가 Y-를 Z-로 감다
- 예문: 언니가 팔을 붕대로 감았다. (O) 그것은 언니가 팔을 감은 붕대였다. (X)
3) 다양한 의미역과 대응될 수 있도록 부가어 1-2개를 첨가한다.
① ‘NP-부사격 조사’, 부사, 부사절 형식(부사형, 종속절)을 활용한다.
[예시]
[1] 합병되다.001
- 기본: 제약회사가 통신사와 합병되었다.
- 첨가: 일주일 전에 제약회사가 통신사와 합병되었다. [2] 감다.003
- 기본: 언니가 팔을 붕대로 감았다.
- 첨가: 언니가 팔을 붕대로 꽉 감았다.
[3] 가려지다.001
- 기본: 건물이 나무에 가려졌다
- 첨가: 건물이 나무에 완전히 가려졌다.
[4] 걱정되다.001
- 기본: 나는 언니가 걱정된다.
- 첨가: 나는 어마어마하게 언니가 걱정된다.
[5] 사과드리다.001
- 기본: 언니는 어머니에게 잘못을 사과드렸다.
- 첨가: 화를 푸실 수 있도록 언니는 어머니에게 잘못을 사과드렸다.
[6] 사과드리다.001
- 기본: 언니는 어머니에게 잘못을 사과드렸다.
- 첨가: 화가 많이 나셨으므로 언니는 어머니에게 잘못을 사과드렸다.
Ⓒ 부가어가 전형적인 술어의 경우에는 3-4개까지 첨가한다.
[예시]
[1] 예약하다.001
- 기본: 언니는 호텔을 예약해.
- 첨가: 언니는 5일부터 8일까지 3박 4일간 5명으로 호텔을 예약해.
[2] 예매하다.002
- 기본: 언니는 기차표를 예매했다.
- 첨가: 언니는 어제 울산에서 서울까지 기차표를 5장(을) 예매했다.
4) 중의적 해석을 피할 수 있도록 분명한 구조로 표현한다.
[예시]
[1] 이기다.001
- 작성: 어제 [축구 시합에서는] 우리 팀이 일본 팀에 5:0으로 크게 이겼다.
- 수정: [축구 시합에서] 우리 팀이 일본 팀에 5:0으로 크게 이겼다.
☞ ‘어제’가 ‘이겼다’를 수식하는 것으로도 해석될 수 있다.
[2] 물다.007
- 작성: 그는 지금까지 은행에 [빌린 돈에 맞먹는 이자를] 물고 있었다.
- 수정: 그는 지금까지 [빌린 돈에 맞먹는 이자를] 은행에 물고 있었다.
☞ ‘은행에’가 ‘빌리다’의 논항인 것으로도 해석될 수 있다.
5) 보조 용언은 가능한 한 사용하지 않고, ‘-지 않다, -지 못하다’의 경우에는 사용 한다면 <Aux> 층위에 기입한다.
[예시]
[1] 개발하다.001
- 작성: 연구팀은 고통받는 아이들을 위해 치료제를 개발하고 싶어 했다.
- 수정: 연구팀은 고통받는 아이들을 위해 치료제를 개발했다. [2] 옳다.001
- 작성: 그 행동은 옳지 않다.
- 수정: 그 행동은 옳다.
[예시] 다음은‘옳다.001’의 경우로, 부정에 대해서 <ARGM-NEG>와 <Aux></Aux> 분석이 가능하나 본 사업에서는 <Aux>로 처리한다.
<example>
<text>나는 그가 옳지 않다고 생각한다.</text>
<parse></parse>
<relation>
<Arg n="1">
<f>가</f>
<term>그</term>
</Arg>
<Rel>
<term>옳지</term>
</Rel>
<Aux>
<f>지</f>
<term>않다고</term>
</Aux>
</relation>
</example>
[참고] 부정 부사 ‘안’, ‘못’의 경우에는 <ArgM-NEG>로 처리한다.
[예시] 철수가 집에 안 간다.
철수가/Arg0(AGT) 집에/Arg3(LOC) 안/ArgM(NEG) 간다.
[8] <relation>: 예문에 대한 간략한 분석
1) 기존 예문을 삭제하고 신규 작성하였으므로 기존 구문 분석, 의미역 부착도 삭제한다.
2) 예문의 실제 어순을 준수하여 기입한다.
3) 해당 술어의 논항과 부가어에 대해서만 기입한다.
[예시] ‘옳다.001’의 경우로, 상위문인 ‘나는 X고 생각한다’에 대해서는 분석하거 나 기술하지 않는다.
<example>
<text>나는 그가 옳다고 생각한다.</text>
<parse></parse>
<relation>
<Arg n="1">
<f>가</f>
<term>그</term>
</Arg>
<Rel>
<term>옳다</term>
</Rel>
</relation>
</example>
4) <Arg n>에는 논항은 논항 번호를 기입하고, 부가어는 일괄적으로 ‘M’을 기입한 다.
5) <f>에는 논항은 조사(격 표지)를 실제 실현된 형태로 기입하고, 부가어는 의미역명 을 기입한다.
① ‘에 의해’ 등도 조사로 인정한다.
Ⓒ 세종 전자사전의 격 표지 목록
: 이/가, 을/를/ㄹ. 에/에게/로/에게로, 에게/한테, 로/으로, 와/과, 에서/(으)로부 터, 에게서/한테서, 에게/한테, 라고/이라고, 에 대해/에 대하여/에 대해서, 을 위해/ 을 위하여/을 위해서, 에 의해/에 의하여/에 의해서, 을 놓고/을 놓고서
③ 부가어 의미역은 한국전자통신연구원의 부가어 의미역명을 사용한다(별도 제공).
6) <term>에는 논항 및 부가어 표현 전체를 기입한다(span형).
① 논항은 조사를 제외한 채 기입한다.
Ⓒ 부가어는 표현 전체를 그대로 기입한다.
③ 부가어는 가능하면 가장 전형적인 것을 생각하여 추가한다.
[예시] ‘이기다.001’의 경우이다.
<example>
<text>축구 시합에서는
다.</text>
<parse></parse>
<relation>
<Arg n="M">
<f>CND</f>
우리
팀이 일본 팀에 5:0 로 크게 이겼
① 공란
<term>축구 시합에서는</term>
</Arg>
<Arg n="0">
<f>이</f>
<term>우리 팀</term>
</Arg>
<Arg n="1">
<f>에</f>
<term>일본 팀</term>
</Arg>
<Arg n="M">
<f>EXT</f>
<term>5:0 로</term>
</Arg>
<Arg n="M">
<f></f>
<term>크게</term>
</Arg>
<Rel>
<term>이겼다</term>
</Rel>
</relation>
</example>
② 부가어 M
③ 부가어 의미역명
④ 부가어 표현 전체
⑤ 실현된 조사
⑥ 조사를 제외한 논항 표현 전체
⑦ 술어
7) 용언의 관형사형은 될 수 있으면 사용하지 않는다. 다만, 관형사형 꼴로만 쓰이는 용언의 예문을 기술할 때 <text>에 관형사형을 사용했을 경우, “*trace*=”와 같 은 것은 쓰지 않는다. 논항 정보는 이론적으로 기술하고, 예문은 관형사형으로만 기술하고, <comment>에 “격틀 구조는 실현되지 않음”이라고 적는다.
[예시]
<lemma>해묵</lemma>
<comment>Frames file for '해묵' based on sentences in Virginia and
Newswire Corpus. 격틀 구조는 실현되지 않음</comment>
<frameset>
<id>해묵.002</id>
<id_org>해묵.01</id_org>
<id_sj>해묵다.0101</id_sj>
<edef>long-pending</edef>
<kdef>어떤 일이나 감정이 해결되지 못한 상태에서 여러 해를 넘기거나 많 은 시간이 지나다.</kdef>
<roleset>
<role argnum="1" argrole="해묵은 대상(THM)"/>
</roleset>
<frame>
<mapping>
<rel>해묵다.002</rel>
<mapitem src="np-sbj" trg="arg1"/>
</mapping>
<example>
<text>그 상사는 자신이 불리해지면 해묵은 이야기를 꺼내서 물을 흐리곤 한다.</text>
<parse></parse>
<relation>
<Arg n="1">
<f></f>
<term>이야기</term>
</Arg>
<Rel>
<term>해묵은</term>
</Rel>
</relation>
</example>
</frame>
</frameset>
3.2. 신규 술어 의미역 기술 모형 지침
‘신규 술어 의미역 기술 모형’는 KPB에서 제공되지 않아 새로이 기술되는 술어(국 어원 추출 제공)에 대한 의미역 기술 모형을 말한다. 이에 대한 지침은 아래와 같다.
[1] 파일 작업
• 파일 작업은 3.1. 기존 수정 보완 작업과 같은 방식으로 한다.
• 기술 대상 술어가 세종 전자사전에 있는 경우에는 세종 전자사전의 정보를 활용한다.
• 동음이의어 중에서 논항의 수가 더 많은 경우, ‘하다, 되다’ 등의 결합이 용이한 경우를 취하여 기술한다. 세종 용언 사전에서는 개진되다01.xml의 ‘개진’은 ‘改進’이고, 개진되다02.xml의 ‘개진’은 ‘開陳’인데 본 작업에서는 개진되다02.xml 의 ‘개진(開陳)’을 취하여 ‘개진01.xml’로 기술한다. 이때 빈도수나 정보량이 많 을 것으로 예상되는 것으로 취한다.
• 다의어도 하나의 파일로 통합하여 기술한다. 세종 용언 사전에서는 의미에 따라 거 짓말시키다01, 거짓말시키다02와 같이 표제어가 구분되어 있는 경우가 있는데, 본 사 업에서는 ‘거짓말.xml’과 같이 하나의 파일로 합쳐서 기술한다.
• 어근이 분석되기 어려운 경우에는 어근을 파일명으로 하지 않고 파생어 전체를 파일 명으로 사용한다. 주의해야 할 점은 ‘갈취하다’의 경우에 우리말샘에 ‘갈취하 다’만 있고 ‘갈취되다, 갈취당하다’가 우리말샘에 없더라도 ‘갈취’가 우리말샘 에 표제어로 제시되어 있으면 파일명은 ‘갈취.xml’로 해야 하고 파일 내의 ‘lemma'도 <lemma>갈취</lemma>로 기술해야 한다. 반면에 ‘각광받다’만 우리말 샘에 존재하고‘각광’이 우리말샘에 없을 경우에 ‘각광받.xml’으로 기술하고 ‘각광받.xml’의 <lemma>도 ‘<lemma>각광받</lemma>’과 같이 기술한다.
[예시]
각광받다→각광받.xml <lemma>각광받</lemma>(우리말샘에 ‘각광’ 없음) 떳떳하다→떳떳.xml <lemma>떳떳</lemma>(우리말샘에 ‘떳떳’ 있음) 퇴장당하다→퇴장(신규).xml <lemma>퇴장</lemma>(우리말샘에 ‘퇴장’ 있음,
한국어 프롭뱅크에 퇴장.xml 있음)
• 기술 대상 표제어가 우리말샘에 없으나 해당 표제어의 어근은 우리말샘에 있을 경우 에 파일명은 어근.xml로 하고 해당 표제어를 기술한다. 해당 표제어가 우리말샘에 없 으므로 ‘표제어.777’로 기술한다. 그 밖에 등재는 되어 있으나 해당 의미가 누락된 표제어에는 888, 표기 오류에는 999를 부착한다.
[예시] ‘사고당하다’는 우리말샘에 없음. ‘사고’는 있음. 사고.xml로 파일을 만들고 ‘사고당하다’를 이 파일에서 기술함.
<id>사고당하.777</id>
• 세종 용언 사전에 sense 단위로 기술되어 있는 격틀과 의미역을 한국어 프롭뱅크 형 식에 맞춰 재배치한다.
① <roleset>이 같으면 세종 전자사전에서 sense가 달라도 추상적 의미가 공유되면
<frameset>으로 합친다. <frame> 내에서 우리말샘에서 같은 격틀을 공유하는 의 미 중 가장 작은 번호인 001 의미를 우선적으로 하여 예문을 추가한다. 다른 의 미를 추가할 경우 <frame>을 추가하고 <rel>X.002</rel>와 같이 기술한다.
Ⓒ <roleset>이 달라지는 경우 <frameset>을 추가하여 새 <roleset>을 기술하고 이하 내용을 기술한다.
• 신규 기술 항목 중 한국어 프롭뱅크 파일에 표제어가 있는 경우에는 기존 자료에 기술 을 추가하되 파일 이름에 (신규)라는 표현을 추가하여 추가된 항목이 있음을 표시한다. [예시] ‘거듭나다’를 한국어 프롭뱅크의 ‘거듭.xml’에 추가하면서 ‘거듭(신규).xml’
이라고 표시한다.
• 하나의 어근에서 기술할 만한 표제어가 둘 이상이 되는 경우에는 각각 파일로 만들 고 파일명을 구분하도록 한다. 술어성 명사를 포함했을 경우에는 (명), 그렇지 않은 경우는 (동)을 파일명에 붙여 구별하도록 한다.
[예시] 비하하다→비하(명).xml, 비하다→비하(동)
[2] 기술 작업
• 동음이의어: 한국어 프롭뱅크에서 동음이의어를 거의 고려하지 않았으므로 본 사업 에서도 동음이의어를 하나의 단어나 어근이라고 간주하고 집필하되, 가급적 기술 가 치가 큰, 곧 빈도수나 정보량이 많은 단어나 어근을 선정하여 기술한다.
• 신규 작업은 세종 전자사전의 내용을 한국어 프롭뱅크 형식으로 일괄 변환한 XML 파일을 제공하며, 작업자들은 지침에 따라 아래 [예시]와 같이 수정·보완한다.
[예시]
<?xml version="1.0" encoding="utf-8" standalone="no"?>
<!DOCTYPE framefile SYSTEM "verb.dtd">
<framefile>
<predicate>
<lemma>가누</lemma>
<frameset>
<id>가누.001</id>
<id_sj>가누다.0101</id_sj>
<edef>control</edef>
<kdef>몸을 바른 자세로 가지다.</kdef>
<roleset>
<role argnum="0" argrole="가누는 자(AGT)"/>
<role argnum="1" argrole="가누는 대상(THM)"/>
</roleset>
<frame>
<mapping>
<rel>가누다.001</rel>
<mapitem src="np-sbj" trg="arg0"/>
<mapitem src="np-obj" trg="arg1"/>
</mapping>
<example>
<text>만취 상태의 운전사는 몸을 가누려고 애를 썼지만 계속 비틀거 렸다.</text>
<parse></parse>
<relation>
<Arg n="0">
<f>는</f>
<term>만취 상태의 운전사</term>
</Arg>
<Arg n="1">
<f>을</f>
<term>몸</term>
</Arg>
<Rel>
<term>가누려고</term>
</Rel>
</relation>
</example>
</frame>
<frame>
<mapping>
<rel>가누다.002</rel>
<mapitem src="np-sbj" trg="arg0"/>
<mapitem src="np-obj" trg="arg1"/>
</mapping>
<example>
<text>어머니가 돌아가셨다는 말을 들은 철수는 슬픔을 가눌 수가 없 었다.</text>
<parse></parse>
<relation>
<Arg n="0">
<f>는</f>
<term>어머니가 돌아가셨다는 말을 들은 철수</term>
</Arg>
<Arg n="1">
<f>을</f>
<term>슬픔</term>
</Arg>
<Rel>
<term>가눌</term>
</Rel>
</relation>
</example>
</frame>
<frame>
<mapping>
<rel>가누다.003</rel>
<mapitem src="np-sbj" trg="arg0"/>
<mapitem src="np-obj" trg="arg1"/>
</mapping>
<example>
<text>그 아이는 집안일을 잘 가누며 살았다.</text>
<parse></parse>
<relation>
<Arg n="0">
<f>는</f>
<term>그 아이</term>
</Arg>
<Arg n="1">
<f>을</f>
<term>집안일</term>
</Arg>
<Arg n="M">
<f>ADV</f>
<term>잘</term>
</Arg>
<Rel>
<term>가누며</term>
</Rel>
</relation>
</example>
</frame>
<frame>
<mapping>
<rel>가누다.004</rel>
<mapitem src="np-sbj" trg="arg0"/>
<mapitem src="np-obj" trg="arg1"/>
</mapping>
<example>
<text>그는 흥분을 가누지 못하고 펄쩍 뛰면서 화를 냈다.</text>
<parse></parse>
<relation>
<Arg n="0">
<f>는</f>
<term>그</term>
</Arg>
<Arg n="1">
<f>을</f>
<term>흥분</term>
</Arg>
<Rel>
<term>가누지</term>
</Rel>
</relation>
</example>
</frame>
</frameset>
</predicate>
</framefile>
1) <id>
: id에는 lemma를 그대로 쓰고 우리말샘 의미 번호를 찾아 적는다. 술어성 명사에서 파생된 술어의 경우에는 <id> 층위에서는 명사형을 기준으로 우리말샘 의미 번호 를 부여한다.
2) <edef>
: 세종 전자사전의 영어 대역어를 그대로 가져온다. sense에 따라 영어 대역어를 확 인하고 수정하며, 기술하는 항목이 세종 전자사전에 등재되어 있지 않은 경우,
<edef>는 영어 사전을 참고하여 작성한다.
[예시] 가누다.001~004: <edef>control</edef>
3) <kedf>
: 우리말샘의 뜻풀이를 기재하였다.
[예시] 가누다.001: <kdef>몸을 바른 자세로 가지다</kdef>
4) <roleset>
① 술어가 취하는 의미역을 제시한다. 본 사업에서는 세종 전자사전의 논항을 한 국어 프롭뱅크 논항 형식(argnum)에 맞추어 변환하고 작업자가 수동으로 변환 된 argnum을 검토‧수정한다. 세종 전자사전의 논항은 X, Y, Z, W 등으로 매겨 지며, 이를 한국어 프롭뱅크의 논항 형식에 맞추어 다음과 같이 대응시켰다.
세종 전자사전의 논항 | 한국어 프롭뱅크의 논항 |
X | 0 |
Y | 1 |
Z | 2 |
W | 3 |
X+Y | 0 |
X+Z | 0 |
Y+Z | 1 |
기타 | 0 |
Ⓒ argrole에는 세종 전자사전의 의미역(tht)을 괄호 안에 옮겨 놓았다.
[예시] <role argnum="0" argrole="가려지는 대상(THM)"/>
<role argnum="1" argrole="가려지는 동반자(COM)"/>
5) <rel>
: <rel>에는 ‘-다’가 붙은 온전한 용언 기본형에 우리말샘 번호를 덧붙인다. 따 라서 술어성 명사에서 파생된 술어의 경우에는 <rel> 층위에서는 동사나 형용사 형을 기준으로 우리말샘 의미 번호를 부여한다. 앞 쪽의 예에서 ‘가누다’는 우 리말샘 ‘가누다.002’의 예로 “기운이나 정신, 숨결 따위를 가다듬어 차리다” 의 뜻이다. 기술 대상 격틀의 의미가 ‘가누다.002’에 해당될 때에는 위 예와 같이 해당되는 의미 번호를 기입한다.
6) <mapitem>
: <mapitem>에는 논항의 품사 범주, 통사 기능, 논항 번호 등을 기재한다.
<mapitem src="np-sbj" trg="arg0"/>
<mapitem src="np-obj" trg="arg1"/>
scr의 전반부는 논항의 품사 범주, src의 후반부는 논항의 통사 기능, trg는 논항 번호이다.
7) <text>
: <text>에는 작업 초벌 파일에는 세종 전자사전의 예문을 제공하나 실제 격틀 기 술 시에는 이를 참고하되 새로이 작성한다.
8) <relation>
: 예문의 논항 또는 부가어에 의미역을 부여하는 부분이다. 7) <text>에서 새로 작 성한 예문을 대상으로 의미역을 분석한다.
① Arg의 제시 순서는 사용된 예문에 출현한 순서대로 한다.
Ⓒ <f>: 논항에 실현된 조사를 실현형으로 기입한다.
③ <term>: (논항 또는 부가어의 경우) 작성 예문의 실제 실현된 문자열을 조사를 제외하고 기입한다. 논항에 해당되는 구(phrase) 전체를 기입한다.
[예시] <term>여자친구에게 헤어지자는 말을 들은 영철이는</term>
Ⓐ <term>: 작성 예문의 실제 실현된 활용형으로을 기입한다.
[예시] <term>가눌</term>
9) 동음이의어, 다의어의 경우, 하나의 <lemma>에는 여러 개의 <id> 또는 <rel>이 있 을 수 있다.
: 구체적인 의미가 다르더라도 추상적인 의미를 공유하고 격틀이 같을 경우에 우 리말샘 의미 번호가 낮은 표제어를 기준으로 하나의 <rel>로 기술한다.
[예시] 가누다.001
[몸을 바른 자세로 가지다.]
<role argnum="0" argrole="가누는 자(AGT)"/>
<role argnum="1" argrole="가누는 대상(THM)"/>
가누다.002
[기운이나 정신, 숨결 따위를 가다듬어 차리다.]
<role argnum="0" argrole="가누는 자(AGT)"/>
<role argnum="1" argrole="가누는 대상(THM)"/>
가누다.003
[일을 돌보아 잘 처리하다.]
<role argnum="0" argrole="가누는 자(AGT)"/>
<role argnum="1" argrole="가누는 대상(THM)"/>
가누다.004
[말이나 행동 따위를 가다듬어 바로잡다.]
<role argnum="0" argrole="가누는 자(AGT)"/>
<role argnum="1" argrole="가누는 대상(THM)"/>
예로 보인 ‘가누다’001~004는 모두 격틀이 동일하다. 따라서 의미 번호가 가장 낮은‘가누다.001’을 대표로 삼아 의미역을 기술한다.
10) 우리말샘과 세종 전자사전의 격틀이 다를 경우 우리말샘을 기준으로 격틀을 기술 한다.
11) 이외의 형식 및 내용 관련 사항은 ‘3.1. 한국어 프롭뱅크 수정‧보완 작업 최종 지침’을 따른다.
3.3. 부가(어)역 작업 지침
본 사업은 대상 술어의 필수 논항을 연구하여 격틀로 정리한 것이므로 부가어의 의 미역6)은 논의의 주된 대상은 아니다. 그러나 의미역 분석자의 격틀에 대한 이해를 돕 기 위해 술어에 어울리는 부가어역을 예문에 풍부하게 담고자 하였다. 본 절은 예문 기술을 위한 부가어역 표지 기술 지침이다.7)
연번 | 부가역 표지 | 정의 | 비고 | |
1 | ArgM-ADV | Adverbials | 부사적 어구 | |
2 | ArgM-CAU | Cause | 발생 이유/원 인 | |
3 | ArgM-CND | Condition | 조건 | |
4 | ArgM-DIR | Direction | 방향 | |
5 | ArgM-EXT | Extent | 정도/범위 | |
6 | ArgM-INS | Instrument | 도구 |
6) 한국전자통신연구원에서는 ‘부가 의미역’이라고 줄여 지칭하였다. 본 연구에서는 ‘부가(어)역’을 사용하된, 한국전자통 신연구원을 인용하는 맥락에서만 ‘부가 의미역’을 사용하였다.
7) 이 지침은 원칙적으로 한국전자통신연구원의 <의존의미역 태깅가이드라인>(1.5 버전 2018. 5. 15.) 지침을 그대로 따 르되, 원칙 적용이 불분명하거나 비일관된 부분을 제거하고 연구진의 논의 결과에 따라 추가된 내용을 담은 것이다.
7 | ArgM-LOC | Location | 위치 | 시간적 위치 제외 | |
8 | ArgM-MNR | Manner | 방식 | ||
9 | ArgM-PRD | Secondary Predication | 보조 서술 | ||
10 | ArgM-PRP | Purpose | 목적 | ||
11 | ArgM-TMP | Temporal | 시간 | ||
12 | ArgM-NEG | Negation | 부정 | 부정 부사 ‘안, 못’ | |
13 | ArgM-COM0 | Comitative0 | 동반주0 | 주어 동반주 | - 영어 프롭뱅크 부가역의 ArgM-COM을 연관된 성 분에 따라 세분화함. - 한국어 프롭뱅크와 한국 전자통신연구원의 격틀 에는 ArgM-COM 없음. |
14 | ArgM-COM1 | Comitative1 | 동반주1 | 목적어 동반 주 | |
15 | ArgM-PSR | Possessor | 소유자 | - 이중 주어문 소유 구문의 대주어 - 본 사업에서 새로 설정한 부가역 표지 임. | |
16 | ArgM-DIS | Discourse | 담화 연결 | (단문 기술 원칙인 본 사업에서 미사용) |
<표 6> 부가어의 의미역 표지(이후 <표 8>로 수정됨)
3.3.1. ArgM-ADV(부사적 어구)
1) 부사적 어구에 해당하는 어휘를 국립국어연구원(2003)의 “빈도수에 따른 부사적 어구”를 근거로 아래 2)과 같이 선정하여 M-ADV로 분석한다.
2) 본 사업에서는 다음과 같은 부사적 어구들을 ADV로 태깅(예시)한다.
갑자기, 각각, 같이, 거의, 널리, 다시, 대단히, 대부분, 더불어, 마치, 먼저, 명백하게, 명확히, 물론, 바로, 부득이하게, 서로, 새로, 새롭게, 아무래도, 엄연히, 오직, 일단, 일부러, 일찍이, 자연히, 자주, 잘, 잠시, 절대, 점점, 주로,
줄곧, 크게, 특히, 푹, 함께, 흔히, ...
- [~~~] 산의 능선이 마치(ADV) 닭벼슬을 쓴 용의 형상을 닮았다.[~~~]8)
- [...] 새로(ADV) 지은 누각 [...]9)
- [...] 그 재주를 크게(ADV) 칭찬하고 [...]
3.3.2. ArgM-CAU(발생 이유/원인)
1) 술어가 발생한 이유/원인으로 해석되는 논항은 M-CAU로 분석한다.
8) [~~~]은 한국전자통신연구원의 <의존의미역 태깅가이드라인>(1.5 버전 2018. 5. 15.)(이하 한국전자통신연구원 2018 로 약호)에서 인용한 것으로 해당 자료는 비공개 자료로 인용 부분을 최소화하여 제시한다.
9) [...]은 “임수종‧권민정‧김준수‧김현기(2015), ExoBrain을 위한 한국어 의미역 가이드라인 및 말뭉치 구축, 제27회 한 글 및 한국어 정보처리 학술대회 논문집, 250-254”에서 인용한 예시이다.
2) ‘N 때문에’, ‘V-기 때문에’로 치환하여 의미가 통하면 M-CAU로 분석한다.
- [~~~] 지난 밤 강풍로(CAU) 가로수가 넘어졌다. [~~~]
- [...] 귀족들의 반발로(CAU) 시행되지 못했다. [...]
- [...] 땅이 섬처럼 생겨서(CAU) ‘사잇섬’이라고도 불렸는데 [...]
- [...] 초야에 피어(CAU) 사람들이 알아봐주지 않는 [...]
3) 계기적(successive)으로 해석되는 절에 대해서도 CAU로 태깅한다.
- [...] <식기 선반>을 출품하여(CAU) 호평을 받고 [...]
- [...] 용궁에 초대받아(CAU) 누각의 상량문을 써주고 [...]
- [...] <노인과 바다>를 집필해(CAU) 노벨문학상을 받았다. [...]
4) 다른 술어에 연결된 ‘-하여’술어의 의미가 분명하게 목적으로 해석되지 않는 경 우 CAU로 태깅하며, PRP(목적)으로 태깅하지 않도록 주의한다.
3.3.3. ArgM-CND(조건)
1) 인물이나 사물의 자격 혹은 술어의 발생 조건으로 해석되는 논항을 M-CND로 분 석한다.
2) 자격을 의미하는 ‘-(으)로(서)’는 CND로 태깅한다.
- 사실 김 배우는 가수로(M-CND) 더 유명했다.10)
- 어머니를 경쟁자로(M-CND) 인식해
3) 범위를 나타내는‘- 중’, ‘- 가운데’는 CND로 태깅한다. 이 범위는 시간과 장 소를 모두 이른다.
- [...] 그 중(CND) 회사의 광고를 알리는 부분은 [...]
- 표고버섯 가운데에서도(CND) 최고등급 로
- 살피던 중(CND), 여행 도중(CND)
4) ‘-에 대하여’ ‘-에 따라’ 구성도 CND로 태깅한다.
- 결정에 대하여(CND), 판결에 대하여도(CND), 어원에 대해서는(CND)
- 형태에 따라(CND), 상태에 따라(CND), 성질에 따라(CND)
5) 연결형 어미가 쓰인 구성도 CND로 태깅한다.
① 조건의 연결 어미 ‘-(으)면’과 결합한 구성은 CND로 태깅한다.11)
10) 무표지는 연구진 작성례이다.
- [...] 이를 이용하면(CND) 세기가 약한 파동을 증폭시킬 [...]
- 20일이 경과되면(CND), 물에 넣 면(CND), 물과 닿 면(CND)
cf. 다음과 같이 구체적인 시간 표현이 들어가면 TMP로 태깅한다.
- [...] 저녁이면(TMP) 엘 플로리디타 바에서 칵테일을 즐기며 [...]
- [...] 갇힌 고기를 간조시에(TMP) 걷는 [...]
Ⓒ 비교 기준의 연결형 어미
- [...] 강철에 비해서(CND) 적다 [...]
비교 기준의 조사 ‘보다’가 쓰인 구성도 CND로 태깅한다.
- [...] 주변보다(CND) 기온이 높은 [...]
③ 양보의 연결형 어미
- [...] 행동을 취할지라도(CND) 간섭, 처분할 수 없다. [...]
- [...] 국로 끓여도(CND) 맛이 있다 [...]
Ⓐ 정도의 연결형 어미
- [...] 과세 대상 금액이 많을수록(CND) 높은 세율을 적용한다. [...]
3.3.4. ArgM-DIR(방향)
1) 동사가 이동의 의미를 가질 때, 방향격 조사 ‘-(으)로’와 함께 나타나는 논항에 대해 M-DIR로 분석한다.
2) ‘오른쪽’, ‘왼쪽’, ‘위쪽’, ‘아래쪽’, ‘앞으로’, ‘뒤로’, ‘동서남북’ 과 같이 방향을 의미하는 명사구에 대해 DIR로 태깅한다.
- [...] 달이 서쪽 로(DIR) 기울었다. [...]
- 동생은 터미널을 떠나 서울로(DIR) 출발했다.
- 눈을 뜨자마자 금세 학교로(DIR) 달려갔다.
- 무대 뒤로(DIR) 퇴장한 출연자는 급하게 옷을 갈아입었다.
3) 명사 ‘방향’을 사용하여 이동 방향을 나타내는 의존명사 구성은 DIR로 태깅한다.
11) 한국전자통신연구원 2018에서는 ‘-(으)면’이 MNR로 태깅되기도 하였으나 가정 역시 술어 발생의 조건으로 보고 ‘- (으)면’은 CND로 태깅한다.
3.3.5. ArgM-EXT(범위)
1) 크기 또는 높이 등의 수치와 정도를 의미하는 논항을 M-EXT로 분석한다.
2) 본 사업에서는 다음과 같은 정도부사, 수량부사를 EXT로 태깅한다.
가장, 극히, 대부분, 더욱, 많이, 매우, 모두, 썩, 아주, 완전히, 잔뜩, 최고로, 크게...
- [...] 그 악기는 4개의(EXT) 현을 가진다. [...]
- 출산 소식을 들은 그는 매우(EXT) 기뻐했다.
- 자연 단음계의 6음과 7음을 올라갈 때에는 반음씩(EXT) 올리고
cf. [...] 높은 가격에’ 입찰을 받도록 [...]: ‘높은 가격’의 ‘높-’은 ‘범위’로 생각할 수 있으나 술어 ‘받-’이 직접 취하는 논항은 아니다. ‘높은 가격에’ 전체가 EXT로써‘받-’에 의존한다고 분석할 수도 있을 것이다. 그러나 전자통 신연구원의 의존 의미역 분석에서는 2어절 이상의 논항을 허용하지 않는다.
3)‘수치(+단위명사)’가 제시된 경우 EXT로 태깅한다.
- [...] 최대 깊이는 1,742미터로(EXT) 담수호 중 [...]
- [...] 18회나(EXT) 우승하였고 [...]
- [...] 눈과 얼음 등이 50-70%로(EXT) 가장 많고, [...]
4)‘수치(+단위명사) 정도/이상/이내/...’ 구성은 ‘수치’가 아닌 후행하는 ‘정도, 이 상, 이내’를 EXT로 태깅한다.
- [...] 뿌리는 30-60cm 정도(EXT) 곧추 들어간다. [...]
- [...] 경도는 약 5-5.5 정도로(EXT) 유리와 비슷하고 [...]
- [...] 기온이 10℃ 이상이나(EXT) 낮아지기도 [...]
cf. 제시된 수치가 시간을 나타내면 TMP로 태깅한다.
- 법률안은 15일 이내에(TMP) 대통령이 공포한다. [...]
cf. 범위를 나타내는 ‘-중’, ‘-가운데’ 구성은 CND로 태깅한다.
- [...]그 중(EXT>CND) 회사의 광고를 알리는 부분은 [...]
- 표고버섯 가운데에서도(CND) 최고등급 로
- 살피던 중(CND), 여행 도중(CND)
3.3.6. ArgM-INS(도구)
1) 술어를 행할 때 사용하는 도구에 대한 논항을 M-INS로 분석한다.
2) 구체적인 ‘사물’이나 ‘물리적 도구’를 지칭하는 논항을 M-INS로 분석하는 점 이 M-MNR과 구별된다.
3) ‘이용하다’로 치환하여 의미가 통하는 경우 INS로 태깅한다.
- [...] 하얀 천로(INS) 상자를 덮었다. [...]
- 아이들은 색연필로(INS) 알록달록 벽을 칠했다.
4) 재료도 M-INS로 태깅한다.
- [...] 짚로(INS) 새끼 날을 만들었다. [...]
5) ‘-을 통해’와 같은 구성도 M-INS로 태깅한다.
- [...] 엽서를 통해(INS) ‘은어낚시통신’이라는 모임에 초대받았다. [...]
3.3.7. ArgM-LOC(장소)
1) 사건이 일어나는 공간을 가리키는 처소 논항을 M-LOC로 분석한다.
2) M-DIR와 달리 동사의 의미에 이동성이 없고, ‘-에/에서’ 조사와 함께 쓰이는 논 항을 M-LOC로 분석한다.
3) 프레임세트상에 Arg-N으로 정의된 필수 논항이 아니면서 명확한 지명이나 장소를 뜻하는 경우에 LOC로 태깅한다.
- [...] 친구들이 서울에(LOC) 많이 산다. [...]
- 울릉도에서는(LOC) 유일하게 넓은 평지를 마주한 곳에서 농장을 운영하고 있다.
- 추운지방(LOC)에서는 중요한 음식 재료로 쓰인다.
다음의 예문은 처소 논항이 ARG-3으로 정의된 필수 논항이다.
- 광혜원은 서울 재동에(Arg3) 설립된 병원이다.
- 강우규는 지란에(Arg3) 동광 학교를 세웠다.
- 하이든은 현악 4중주 제2악장에(Arg3) 국가를 사용했다.
4) ‘장소어, 집단어+-에서’ 구성은 단체 주어 판별 과정을 거쳐 태깅한다.
①‘장소어, 집단어+-이/가’ 구성으로 변환 시 수용성 정도를 확인한다. 수용성이 떨어지면 LOC로 태깅한다.
- 터키에서(LOC) 페즈를 자주 쓴다:
*터키가
- 로마에서(LOC) 호민관을 선출했다:
*로마가
Ⓒ‘장소어, 집단어+-이/가’ 구성으로 변환하여 수용성이 떨어지더라도 ‘장소어, 집단어+-에서’ 구성을 전후하여 ‘사람들이’를 삽입할 수 있으면 Arg0로 태깅 한다.
- 영어권에서는(Arg0) 사람들이 스테인리스강을 스테인리스스틸이라고 표기한다:
*영어권이
5) ‘장소어+-에서’ 구성이 SRC로 의심될 ‘-에서’를 ‘-(으)로부터’로 대체해 보아 불가능하면 LOC로 태깅한다.
- 헨리 핼릿 데일이 심장 조직에서(LOC) 아세틸콜린을 처음 발견하였다.
- 헨리 핼릿 데일이 *심장 조직로부터 아세틸콜린을 처음 발견하였다.
- 우리는 세상을 산 위에서(LOC) 본다.
- 우리는 세상을 *산 위로부터 본다.
3.3.8. ArgM-MNR(방법)
1) 술어를 수행하는 방법에 대한 논항을 M-MNR로 분석한다.
2) 사태가 일어나는 방식은 MNR로 태깅한다.
- [...] 그는 큰소리로(MNR) 떠들었다. [...]
- 철수는 예쁘게(MNR) 춤을 추었다.
- [...] 점차적 로(MNR) 멀어지는 경계를 말한다. [...]
방식을 나타내는 절에 대해서도 M-MNR로 태깅한다.
- [...] 니켈 등을 혼합해(MNR) 만들었다. [...]
- [...] 사진을 복제 인쇄해서(MNR) 만든 [...]
- [...] 곡식을 널어(MNR) 말리는 데 [...]
2) 방법, 방식, 도구, 자격 등이 추상적인 경우에 MNR로 태깅한다. 이것은 INS가 구체 적인 ‘사물’이나 ‘물리적 도구’를 지칭하는 것과는 구별된다.
- [...] 20일이 경과함 로써(MNR) 효력이 발생한다. [...]
- [...] 청나라의 종주권을 부정함 로써(MNR) 일본의 조선침략을 쉽게 [...]
- [...] <삼국지연의>를 바탕 로(MNR) 만들어진 [...]
- [...] 선율을 중심 로(MNR) 무도회를 묘사하였다. [...]
3) 비교나 대조의 방식을 나타낼 때에도 MNR로 태깅한다.
- [...] 기법과 달리(MNR) 좌우가 반전되지 않는다. [...]
- [...] 방향을 달리하여(MNR) 따라다니면서 [...]
cf. ‘N(과) 같이’, ‘N처럼’'은 PRD로 태깅한다.
- [...] 주렴처럼(PRD) 엮어서 [...]
- 측정계가 고유진동수와 같이(PRD) 강한 바람을 주기적 로 받는다면
4) ‘같이’, ‘더불어’ 등 동반의 의미를 나타내면서 사태의 방식과 관련될 때에도 MNR로 태깅한다.
- [...] 전봉준과 함께(MNR) 관군에 맞서 싸웠다. [...]
- [...] 이덕무 등과 함께(MNR) 채제공을 따랐다. [...]
5) 경로로 해석되는 절에도 MNR로 태깅한다.
- [...] 일본을 거쳐(MNR) 상해로 망명하였다. [...]
- [...] 미시시피 강을 따라(MNR) 내려간다. [...]
6) ‘의하다’ 구성은 구체적인 사물, 인물인 경우는 INS로 태깅하고 그 외 방법으로 해석되는 것들은 MNR로 태깅한다. 결국 구체성 여부를 판단하여 태깅한다.
① INS 태깅 사례
- [...] 타격에 의하여(INS) 예리한 날을 만들 [...]
- [...] 아세틸콜린에 의하여(INS) 전달된다는 [...]
Ⓒ MNR 태깅 사례
- [...] 선들에 의해(MNR) 그 존재를 확인했다. [...]
다만 ‘의하다’ 구성은 M-CAU로도 태깅할 수 있다.
- [...] 일본 제국주의에 의해(CAU) 국권이 침탈된 [...]
- [...] 진동수와 일치하는 바람에 의해(CAU) 붕괴되었다. [...]
- [...] 맨틀의 상승에 의해(CAU) 대륙에 인장력이 작용하여 [...]
3.3.9. ArgM-PRD(보조 서술)
1) 다른 ArgM에 해당하지 않으면서 술어의 상태를 보조적으로 수식 혹은 서술하는 의미를 갖는 논항을 M-PRD로 분석한다.
2) 대상과 같은 의미이거나 대상의 상태를 나타내면서 술어를 수식한다.
3) 주로 ‘-(으)로(서)’ 조사와 결합하며 주로 시간, 순서, 모양, 형태를 나타내면 PRD로 태깅한다.
- [...] 석회암 지대에서 깔때기 모양 로(PRD) 파인 웅덩이가 [...]
- [...] 비극을 형식적로(PRD) 완성하였다. [...]
4) ‘말자로’, ‘최초로’ 등 대상이 술어에 대해 행해지는 순서를 나타내는 논항도 PRD로 태깅한다.
- 삼남 삼녀 가운데 말자로(PRD) 태어났다.
- 르네상스 대표 회화 양식인 원근법을 최초로(PRD) 사용한 화가가 이 분이다.
5) ‘N과 같이’, ‘N처럼’을 PRD로 태깅한다.
- [...] 주렴처럼(PRD) 엮어서 [...]
- 측정계가 고유진동수와 같이(PRD) 강한 바람을 주기적 로 받는다면.
cf.‘함께’의 의미를 갖는 ‘같이’는 MNR로 태깅한다.
- [...] 북 등과 함께/같이(MNR) 대취타에 편성되고 [...]
- [...] 흑인 노예 짐과 함께/같이(MNR) 미시시피 강을 따라 [...]
cf. 자격을 의미하는 ‘-(으)로(서)’는 CND로 태깅한다.
- 사실 김 배우는 가수로(M-CND) 더 유명했다.
- 어머니를 경쟁자로(M-CND) 인식해
3.3.10. ArgM-PRP(목적)
1) 술어의 주체가 목표를 가리키는 논항을 M-PRP로 분석한다.
2) 행위의 의도가 분명히 드러나는 논항을 M-PRP로 분석한다.
3) 아래의 연결어미 구성 또는 연결어미 상당 구성은 모두 PRP로 태깅한다.
① -고자
- [...] 백이’와 ‘숙제’는 절개를 지키고자(PRP) 수양산에 거처했다. [...]
- [...] 애국심을 고취하고자(PRP) 영웅전을 발표했다. [...]
Ⓒ -려고
- [...] 아버지에게서 벗어나려고(PRP) 도망쳐 [...]
③ -기 위해(위하여)
- [...] 뿌리를 식용하기 위하여(PRP) 재배하는데 [...]
- [...] 총독을 폭살하기 위해(PRP) 폭탄을 던졌다. [...]
4) 다음과 같이 ‘명사+조사’ 구성이 목적으로 해석되면 PRP로 태깅하였다.
- [...] 협력 강화를 위한 목적 로(PRP) 비세그라드 그룹이 결성되었다. [...]
- [...] 정치운영을 목적 로(PRP) 국학 내에 설치하였다. [...]
- 자랑하려는 의도에서(PRP) 대작을 제작했 나
3.3.11. ArgM-TMP(시간)
1) 술어(행위)의 발생 시간과 같이 술어와 관계된 시간을 지시하는 논항을 M-TMP로 분석한다.
2) 명확한 날짜, 시기, 시대를 나타내는 경우 M-TMP로 분석한다.
3) 다음과 같이 시간을 나타내는 의존명사 구성(예시)은 TMP로 태깅한다.12)
- S 날부터(공포한 날부터 20일이 경과되면), S 뒤(짧은 기간의 성장을 기록한 뒤), S 때(공기가 강하게 상승할 때 발생한다), S 이후(국권이 침탈된 이후), S 전(재판이 확정되기 전, 상급 법원에 취소, 변경을 구하는), S 전에(뇌우가 내리기 전에), S 후(찍은 후 그림의 좌우가 바뀐다)
- NP 동안(10년 동안 행복했다), NP 때(조선 선조 때), NP 시(불꽃 반응 시 보 라색을 띄며), NP 시기(조선 광해군 시기), NP 이내에(15일 이내에), NP 이후 (국권이 침탈된 이후), NP 전후로(추석 전후로 먹는 절식), NP 직후(청일 전쟁
직후), NP 후(개명 후), NP 후에(예산성립 후에 생긴), NP 후기(조선 후기 규
12) S는 ‘문장+관형형 어미’, NP는 ‘명사구’, ADNP는 연도, 나이 등의 시간 표현 명사를 나타낸다.
장각에 두었던 실무 관직), NP 후기에(조선 후기에)
- ADNP 날(어느 날), ADNP 년(1915년), ADNP 년경에(기원전 8000-6000년경에, 1615년(광해군 7) 경에), ADNP 년에는(1936년에는), ADNP 뒤(그 뒤), ADNP 살 에(공자가 서른 살에 자립했다고), ADNP 월(1991년 2월 출범했다), ADNP 일 (1940년 11월 7일), ADNP 해(같은 해에 제중원 로 이름을 고쳤다)
‘-부터 –까지’와 같이 기간을 나타내는 말도 M-TMP로 처리한다.13)
- [...] 진달래는 이른 봄에(M-TMP) 핀다. [...]
- 해산 후(M-TMP) 농민들은 집강소를 설치하였다.
- 1618부터 1648년까지(M-TMP) 독일을 무대로 벌어진 종교전쟁
4) 시간 부사는 TMP로 태깅한다.
- [...] 유럽인들은 이제(TMP) 이슬람의 횡포에서 벗어나 [...]
- [...] 이미(TMP) 정한 예산 [...]
- [...] 당시 파스텔 초상화의 뜸 로 일컫던 [...]
- [...] 이듬해 혹세무민했다는 죄목 로 처형당한다. [...]
- [...] 이후로 향신료 무역은 포르투갈이 독점하게 되고 [...]
5) 기타 아래와 같은 시간을 나타내는 명사 구성어를 TMP로 태깅한다.
- 일제 강점기에, 나중에, 만년에, 말년에는, 생일에, 1868년 여름, 예로부터, 옛날에는, 추석에, 성체 축일에
3.3.12. ArgM-NEG(부정)
1) 술어에 대핸 부정의 의미를 가지는 논항을 M-NEG로 분석한다.
2) 본 사업에서는 부정부사 ‘안’, ‘못’만을 M-NEG로 분석하며 ‘-지 않다’, ‘-지 못하다’,‘ -을 수 없다’ 등은 분석하지 않는다.
- 철수는 밥을 안(NEG) 먹는다.
- 철수는 밥을 못(NEG) 먹는다.
13) 다만, 필수역(논항의 의미역)은 ‘-부터’를 ‘Arg2(SRC)’로, ‘-까지’를 ‘Arg3(GOL)’으로 처리한다. 이는 한국정보통신 연구원의 의미역 태깅 지침에서 SRC, GOL은 필수역에만 있고 TMP는 부가역에만 있음을 고려한 것이다. 필수역과 부가역의 다른 처리를 통일하려고 하면(①SRC-GOL로 통일, ②TMP로 통일, ③PTH(경로역)을 신설하여 통일), 필수 역 혹은 부가역 내에서의 자체 일관성이 무너질 뿐만 아니라 필수역에 TMP를 추가하거나(②의 경우) 부가역에 SRC-GOL을 추가하거나(①의 경우) 둘 다에 PTH를 추가하여야(③의 경우) 한다. 이는 심각한 비효율을 초래하므로, 득보다 실이 더 큰 것으로 판단된다.
3.3.13. ArgM-COM(공동)
1) 한국전자통신연구원에서 설정하지 않은 부가어 의미역으로 언어 자료 컨소시엄의 Comitative(COM) 태그를 상세화하여 본 사업에서 새로이 제안하는 태그이다.
2) 주어 참여자와 같은 지위를 갖는 참여자를 M-COM0으로 분석한다.
33) frameset의 Arg-N에 해당하지 않아야 한다. 즉, 서술어의 논항이어서는 안 된다.
4) 주어와 동반하여 서술어의 행위를 하는 대상을 나타낸다.
- 철수는 영희와(COM0) 극장에 갔다.
- 철수는 거기에 친구와(COM0) 갔다.
- 철수는 영희와(COM0) 장난감을 가지고 놀았다.
5) 목적어 참여자와 같은 지위를 갖는 참여자를 M-COM1로 분석한다.
6) frameset의 Arg-N에 해당하지 않아야 한다. 즉, 서술어의 논항이어서는 안 된다.
7) 주로 목적어와 동반하여 서술어의 행위를 하는 대상을 나타낸다.
8) 부가어로서의 COM1은 사용 빈도가 높지 않다. 따라서 부자연스러운 예문을 만들지 않도록 주의해야 한다.
철수는/AGT 영희를/THM 기영이와/COM1 집에/GOL 데리고 갔다.
3.3.14. ArgM-PSR(소유자)
1) 한국전자통신연구원과 언어 자료 컨소시엄에서 설정하지 않은 부가어 의미역으로 본 사업에서 새로인 제안하는 태그이다.
2) 이중 주어문에서 대주어가 소주어의 소유자로 해석될 때, 그 구문의 대주어를 M-PSR로 분석한다.
3) 주격 조사 또는 보조사 ‘-는’과 결합할 수 있다.
- 코끼리는(PSR) 코가/THM 길다.
- 영희가(PSR) 눈이/THM 예쁘다.
- 철수는(PSR) 돈이/THM 많다.
3.4. 국립국어원 의미역 기술 모형 사용 설명서
⚪ 국립국어원 의미역 기술 모형은 언어 자료 컨소시엄의 한국어 프롭뱅크(이하 KPB) 형식을 기반으로 신규 구축 및 기존 자료에 대하여 술어의 사전적 정의와 우리말샘 기준의 의미 번호를 부착하고 우리말 의미역 풀이와 시범 분석 예문 등의 정보를 새 로이 기술하였다.
⚪ 파일의 형식상 특징
- 파일명: lemma와 동일. 어근 또는 어간.
- 파일 형식: xml 형식
- dtd 파일: verb.dtd
⚪ xml 파일 내 각 항목의 기술 내용:
[1] framefile
1) xml 파일의 기본 기술 단위이다.
2) 하나의 framefile에는 형태적으로 관련이 있는 여러 어휘 항목이 함께 기술되어 있다.
[예시] 설립하다, 설립되다; 감다, 감기다; 좁다, 좁히다 등
[2] predicate
1) lemma를 중심으로 한 단위이다.
[3] lemma
1) 용언의 어근 또는 어간의 형태를 제시하는 항목이다.
2) 어근+접사 구성의 용언은 어근의 형태가 기술되어 있다.
[예시] <lemma>무시/lemma> <- 무시하다, 무시되다
3) 단일 어근의 용언은 어간의 형태가 기술되어 있다.
[예시] <lemma>이기/lemma> <- 이기다
4) 능동형/피동형 중에서는 능동형, 주동형/사동형 중에서는 주동형을 기준으로 lemma가 설정된다.
[예시] <lemma>감/lemma> <- 감다, 감기다 [예시] <lemma>좁</lemma> <- 좁다, 좁히다
[4] comment
1) predicate 단위 내에서 주석을 작성하는 항목이다.
[5] frameset
1) 동일한 roleset을 공유하는 어휘 항목들의 frame을 묶어서 기술하는 단위이다.
[6] id류
1) id
① 용언의 어근 또는 어간의 형태와 우리말샘 번호를 제시하는 항목이다.
Ⓒ‘형태.우리말샘 번호’의 형식으로 기술되어 있다.
[예시] <id>가입.001</id>
③ 형태는 lemma에 기술된 내용과 동일하다.
Ⓐ 우리말샘 번호를 그대로 따르므로 세 자리 숫자이다.
Ⓒ 우리말샘에 여러 개의 다의어가 있을 때 우리말샘 번호 중 가장 작은 것이 부 착되어 있다.
⑥ 우리말샘 번호가 777인 것은 우리말샘 미등재 표제어, 888은 등재는 되어 있으 나 해당 의미가 누락된 표제어, 999는 표기 오류 표제어이다.
2) id_org
① 용언의 어근 또는 어간의 형태와 기존 한국어 프롭뱅크 frameset의 id 번호를 제시하는 항목이다.
Ⓒ ‘형태.KPB 번호’의 형식으로 기술되어 있다.
[예시] <id_org>가입.01</id_org>
③ 한국어 프롭뱅크 번호는 기존 한국어 프롭뱅크 frameset의 id 항목 내 번호를 그대로 따르므로 두 자리 숫자이다.
3) id_sj
① 용언의 기본형과 세종 전자사전의 번호를 제시하는 항목이다.
Ⓒ ‘기본형.세종 전자사전 번호’의 형식으로 기술되어 있다.
[예시] <id_sj>가입하다.0101</id_sj>
③ 세종 전자사전 번호 네 자리 숫자 중 앞의 두 자리는 entry 번호, 뒤의 두 자리 는 sense 번호이다.
[7] edef/kdef
1) edef
① 영문 번역을 제시하는 항목이다.
[예시] <edef>light</edef>
2) kdef
① 국문 의미를 제시하는 항목이다.
[예시] <kdef>무게가 일반적이거나 기준이 되는 대상의 것보다 적다.</kdef>
[8] roleset
1) 논항의 의미역을 제시하는 단위이다.
2) 논항의 수에 따라 여러 개의 role을 포함한다.
3) role
① 각 논항의 정보가 하나의 role 안에 기술된다.
Ⓒ role은 argnum과 argrole이라는 속성을 가진다.
[예시]
<roleset>
<role argnum="A" argrole="감기는 자(CSR)"/>
<role argnum="0" argrole="감는 자(AGT)"/>
<role argnum="1" argrole="감는 대상(THM)"/>
<role argnum="2" argrole="감는 위치(LOC)"/>
</roleset>
Ⓒ-1 argnum
ㄱ. argnum에는 논항 번호가 기술되어 있다.
ㄴ. 논항 번호는 A, 0, 1, 2, 3으로 의미역에 따라 부여된다. [<표 7> 논항의 의미역 표지 참조]
Ⓒ-2 argrole
ㄱ. argrole에는 의미역이 기술되어 있다.
ㄴ. 의미역은 ‘국문설명(영문약호)’의 형식으로 되어 있다.
[예시]
<role argnum="0" argrole="개발자(AGT)"/>
<role argnum="1" argrole="개발 대상(THM)"/>
ㄷ. 의미역 국문 설명은 해당 논항의 성격이 국문으로 기술되어 있다. ㄹ. 의미역 영문 약호는 괄호 안에 세 글자 영문자로 제시되어 있다.
[9] frame
1) 개별 용언 정보 기술 단위이다.
2) 동일한 roleset을 공유하는 용언이 여러 개일 경우 각각 frame 안에서 정보가 기술 된다.
[예시]
<roleset>
<role argnum="0" argrole="개장하는 자(AGT)"/>
<role argnum="1" argrole="개장 대상(THM)"/>
</roleset>
<frame>
<mapping>
<rel>개장하다.010</rel>
<mapitem src="np-sbj" trg="arg0"/>
<mapitem src="np-obj" trg="arg1"/>
</mapping>
<example>
<text>12월 20일에 서울시는 여의도 공원에 스케이트장을 개장했 다.</text>
<relation>
<Arg n="M">
<f>TMP</f>
<term>12월 20일에</term>
</Arg>
<Arg n="0">
<f>는</f>
<term>서울시</term>
</Arg>
<Arg n="M">
<f>LOC</f>
<term>여의도 공원에</term>
</Arg>
<Arg n="1">
<f>을</f>
<term>스케이트장</term>
</Arg>
<Rel>
<term>개장했다</term>
</Rel>
</relation>
</example>
</frame>
<frame>
<mapping>
<rel>개장되다.003</rel>
<mapitem src="np-sbj" trg="arg1"/>
</mapping>
<example>
<text>9월 20일에 추석용품 장터가 서울광장에 개장되었다.</text>
<relation>
<Arg n="M">
<f>TMP</f>
<term>9월 20일에</term>
</Arg>
<Arg n="1">
<f>가</f>
<term>추석용품 장터</term>
</Arg>
<Arg n="M">
<f>LOC</f>
<term>서울광장에</term>
</Arg>
<Rel>
<term>개장되었다</term>
</Rel>
</relation>
</example>
</frame>
[10] mapping
1) 개별 용언의 어형을 제시하고 논항 및 문장 성분 간의 대응을 보여주는 단위이다.
[예시]
<mapping>
<rel>감다.003</rel>
<mapitem src="np-sbj" trg="arg0"/>
<mapitem src="np-obj" trg="arg1"/>
<mapitem src="np-comp" trg="arg2"/>
</mapping>
① rel
ㄱ. 개별 용언의 어형을 제시하는 항목이다. ㄴ. 기본형의 형태로 제시한다.
[예시] <rel>가공하다</rel>
Ⓒ mapitem
ㄱ. 논항과 문장 성분 간의 대응 관계를 보여주는 단위이다. ㄴ. mapitem은 src와 trg이라는 속성을 가진다.
[예시]
<mapitem src="np-sbj" trg="arg1"/>
<mapitem src="np-comp" trg="arg2"/>
Ⓒ-1 src
ㄱ. 해당 논항의 구 구성 정보와 성분 정보를 제시한다. ㄴ. 구 구성 정보-성분 정보의 형식으로 제시된다.
ㄷ. np-sbj, np-obj, np-comp, s-comp
Ⓒ-2 trg
ㄱ. 해당 논항을 지시한다.
ㄴ. argA, arg0, arg1, arg2, arg3
[11] example
1) 해당 용언이 사용된 예문을 제시하는 단위이다.
[예시]
<example>
<text>우리나라는 축구 결승전에서 중국에 이기고 우승을 차지했
다.</text>
<parse>
</parse>
<relation>
<Arg n="0">
<f>는</f>
<term>우리</term>
</Arg>
<Arg n="M">
<f>LOC</f>
<term>축구 결승전에서</term>
</Arg>
<Arg n="1">
<f>에</f>
<term>중국</term>
</Arg>
<Rel>
<term>이기고</term>
</Rel>
</relation>
</example>
[12] text
1) 예문이 기술되는 항목이다.
[13] relation
1) 해당 예문에서 논항과 부가어의 실현 양상이 기술되는 단위이다.
① Arg
ㄱ. 예문에 사용된 논항 혹은 부가어 정보를 기술하는 단위이다. ㄴ. Arg는 n이라는 속성을 가진다.
①-1. n
ㄱ. 논항일 경우 n의 속성값으로 A, 0, 1, 2, 3 등의 논항 번호가 부여된다. ㄴ. 부가어일 경우 n의 속성값은 M이다.
①-2. Arg_f
ㄱ. Arg_f는 조사 또는 의미역을 기술하는 항목이다.
ㄴ. 논항일 경우 예문의 해당 논항에 실현된 조사가 기술된다.
ㄷ. 부가어일 경우 의미역 약호가 제시된다. [<표 8> 부가어의 의미역 표지 참조]
①-3. Arg_term
ㄱ. Arg_term은 논항 혹은 부가어 표현 전체를 제시하는 항목이다.
Ⓒ Rel
ㄱ. 예문에 사용된 용언을 제시하는 단위이다.
Ⓒ-1. Rel_term
ㄱ. Rel_term은 예문에 사용된 해당 용언의 형태를 기술하는 항목이다.
Ⓒ-2. Aux
ㄱ. 예문에 사용된 보조 용언 관련 정보를 기술하는 단위이다.
Ⓒ-3. Aux_f
ㄱ. Aux_f는 보조적 연결 어미를 기술하는 항목이다.
Ⓒ-4. Aux_term
ㄱ. Aux_term은 예문에 사용된 해당 보조 용언의 형태를 기술하는 항목이다
[예시]
<example>
<text>나는 그가 옳지 않다고 생각한다.</text>
<parse></parse>
<relation>
<Arg n="1">
<Arg_f>가</Arg_f>
<Arg_term>그</Arg_term>
</Arg>
<Rel>
<Rel_term>옳지</Rel_term>
</Rel>
<Aux>
<Aux_f>지</Aux_f>
<Aux_term>않다고</Aux_term>
</Aux>
</relation>
</example>
[최종 정리] 논항의 의미역 표지
연번 | 약호 | 영문명 | 국문명 | 논항 번호 | 비고 |
1 | AGT | Agent | 행동주 | Arg0 | |
2 | EXP | Experiencer | 경험주 | Arg0 | |
3 | MAG | Mental Agent | 심리행위주 | Arg0 | |
4 | EFF | Effector | 영향주 | Arg0 | 무정물. 비의도적 |
5 | COM0 | Comitatives | 주어-동반주 | Arg2 | 연관된 성분이 주어 |
6 | COM1 | Comitatives | 목적어-동반주 | Arg2 | 연관된 성분이 목적어 |
7 | THM | Theme | 대상 | Arg1 | Patient/피동주 포함 |
8 | LOC | Location | 처소 | Arg3 | ArgM-LOC과 구별 |
9 | SRC | Source | 출발점 | Arg2 | |
10 | GOL | Goal | 도착점 | Arg3 | |
11 | FNS | Final State | 결과 상태 | Arg3 | |
12 | DIR | Direction | 방향 | Arg3 | |
13 | CNT | Contents | 내용 | Arg1/Arg2 | 발화 동사에만 해당됨. THM이 있는 경우는 CNT가 Arg2 |
14 | INS | Instrument | 도구 | Arg2 | Material/재료 포함 |
15 | CRT | Criterion | 기준치 | Arg2 | |
16 | CSR | Causer | 사동주 | ArgA | 타동문에서 도출된 사동문의 주 어 |
17 | PAT | Patient | 피동주 | Arg1 | THM이 이미 부여된 피동문의 주어 |
<표 7> 논항의 의미역 표지
[최종 정리] 부가어의 의미역 표지
연번 | 약호 | 영문명 | 국문명 | 부가어 표시 | 비고 |
1 | MADV | Adverbials | 부사적 어구 | ArgM-ADV | |
2 | MCAU | Cause | 발생 이유/원인 | ArgM-CAU | |
3 | MCND | Condition | 조건 | ArgM-CND | |
4 | MDIR | Direction | 방향 | ArgM-DIR | |
5 | MEXT | Extent | 정도/범위 | ArgM-EXT | |
6 | MINS | Instrument | 도구 | ArgM-INS | |
7 | MLOC | Location | 위치 | ArgM-LOC | 시 간 적 위 치 제외 |
8 | MMNR | Manner | 방식 | ArgM-MNR | |
9 | MPRD | Secondary Predication | 보조 서술 | ArgM-PRD | |
10 | MPRP | Purpose | 목적 | ArgM-PRP | |
11 | MTMP | Temporal | 시간 | ArgM-TMP | |
12 | MNEG | Negation | 부정 | ArgM-NEG | 부정 부사 ‘안, 못’ |
13 | MCOM0 | Comitative0 | 주어-동반주 | ArgM-COM0 | |
14 | MCOM1 | Comitative1 | 목적어-동반주 | ArgM-COM1 | |
15 | MPSR | Possessor | 소유자 | ArgM-PSR | 이중 주어문 소유 구문의 대주어 |
<표 8> 부가어의 의미역 표지
⚪ dtd 파일: verb.dtd
<!--
the top level entity, we associate with each predicate frame file a set of 'frameset's
-->
<!ELEMENT framefile (comment | predicate)*>
<!ELEMENT predicate (lemma, (comment | frameset)*)>
<!ELEMENT lemma (#PCDATA)>
<!ELEMENT comment (#PCDATA)>
<!--
A frameset contains a set of roles and a set of frames
-->
<!-- <!ELEMENT frameset (id, id_org?, id_sj, edef, kdef, (roleset,
frame)+)> -->
<!ELEMENT frameset (id, id_org?, id_sj, edef, kdef, roleset, frame+)>
<!ELEMENT id (#PCDATA)>
<!ELEMENT id_org (#PCDATA)>
<!ELEMENT id_sj (#PCDATA)>
<!--
Each frameset has an identifier, and associates the verb
with a verbclass (classid). Optionally, korean and english definitions
or glosses are allowed
-->
<!ELEMENT edef (#PCDATA)>
<!ELEMENT kdef (#PCDATA)>
<!ELEMENT roleset ((role | comment)*)>
<!ELEMENT role EMPTY>
<!ATTLIST role
a r g n u m (A|0|1|2|3|4|5|6|7|8|9|Npr0|Npr1|Npr2|ADV|Adv|Adj|C0|C1|C2|U|V|adv) #REQUIRED
argrole CDATA #REQUIRED>
<!--
A frame consists of a set of tuples of mapping and example elements
-->
<!ELEMENT frame ((comment | mapping),example+,(comment | (mapping,comment?,example+)*)) >
<!--
A mapping is an ordered list of mapitems, with a verb in there somewhere
eg
<mapping>
<mapitem src="np-sbj" trg="arg0"/>
<V/>
<mapitem src="s-obj" trg="arg1"/>
</mapping>
-->
<!ELEMENT mapping ((rel | mapitem | comment*)*)>
<!ELEMENT rel (#PCDATA)>
<!ELEMENT mapitem EMPTY>
<!ATTLIST mapitem
s r
c
(sbj|np-sbj|s-sbj|obj|np-obj|s-obj|comp|np-comp|s-comp|advp-comp|advp|np-ad
v|s|nppr-obj) #REQUIRED
trg (argA|arg0|arg1|arg2|arg3|arg4|arg5|argM) #REQUIRED>
<!--
finally, an example is completely unstructured, but we may optionally specify of source.
-->
<!ELEMENT example (text, parse?, relation, comment*)*>
<!ELEMENT text (#PCDATA)>
<!ELEMENT parse (#PCDATA)>
<!ELEMENT relation (Arg+, Rel, Aux*)>
<!ELEMENT Arg (Arg_f?, Arg_term)>
<!ATTLIST Arg n CDATA #REQUIRED>
<!ELEMENT Arg_f (#PCDATA)>
<!ELEMENT Arg_term (#PCDATA)>
<!ELEMENT Rel (Rel_term)>
<!ELEMENT Rel_term (#PCDATA)>
<!ELEMENT Aux (Aux_f, Aux_term)>
<!ATTLIST Aux n CDATA #IMPLIED>
<!ELEMENT Aux_f (#PCDATA)>
<!ELEMENT Aux_term (#PCDATA)>
제 4 장
연구 수행 내역
4.1. 연구 수행 과정
개월차 | 기간 | 연구 내용 |
1 | 6. 19. ~ 7. 20. | 격틀/의미역 연구, 항목 기술 가지침 마련 |
2 | 7. 21. ~ 8. 20. | 시험 기술(10항목), 외부 전문가 자문회의/특강, 항목 기술 가지침 수정 |
3 | 8. 21. ~ 9. 20. | 항목 기술 1차 수정보완, 항목 기술(총 2756개, 언어 자료 컨소시엄-한국어 프롭뱅크 2749개 포함) 1차 납품(공정률: 41%) |
4 | 9. 21. ~ 10. 20. | 항목 기술 2차 수정보완, 항목 기술(신규 총 2060개) 2차 납품(공정률: 31%, 누적 72%) |
5 | 10. 21. ~ 11. 20. | 항목 기술 3차 수정보완, 항목 기술(신규 총 1884개) 3차 납품(공정률: 28%, 누적 100%) |
6 | 11. 21. ~ 12. 20. | 항목 기술 지침 최종 점검, 항목 수정보완, 항목 형식/내용 검수 |
⚪ 기술 파일 내역
파 일 번 호 | 압축 파일 이름 | 기술 대상 | 압축 파일 내용 |
1 | kpb수정보 완(기존번 호)파일(27 73개)_최종 .zip | 기존 한국어 프롭뱅크 파일 2,749개 | - 파일 24개 추가됨 ∙기존 파일 병합(2): 강경.xml, 강경하.xml→강경 (명).xml, 끔찍스럽.xml, 끔찍하.xml→끔찍(어 근).xml ∙기존 파일 분할(20): ‘거치.xml’->거치(동).xml, 거치 (명).xml, 결연하.xml->결연(명).xml, 결연(어 근).xml, 고르.xml->고르(동).xml, 고르(형).xml, 과 하.xml->과하(동).xml, 과하(형).xml, 그르.xml->그 르(동).xml, 그르(형).xml, 낫.xml->낫(동).xml, 낫 (형).xml, 달.xml->달(동).xml, 달(형).xml, 달 리.xml->달리(동).xml, 달리(부).xml, 못하.xml->못 하(동).xml, 못하(형).xml, 싸.xml->싸(동).xml, 싸 |
(형).xml, 쓰.xml->쓰(동).xml, 쓰(형).xml, 안 되.xml->안되(동).xml, 안되(형).xml, 어리.xml->어 리(동).xml, 어리(형).xml, 있.xml->있(동).xml, 있 (형).xml, 적.xml->적(동).xml, 적(형).xml, 적 시.xml->적시(명).xml, 적시(동).xml, 짜.xml->짜 (동).xml, 짜(형).xml, 차.xml->차(동).xml, 차 (형).xml, 흐리.xml->흐리(동).xml, 흐리(형).xml ∙파일 추가(6): 따끔따끔.xml, 마무리짓(동).xml, 맴디 맵(형).xml, 멀디멀(형).xml, 못지아니하(동).xml, 무 겁디무겁(형).xml, 펴내(동).xml - roleset의 번호를 기존 파일의 순차적인 번호 부여 방식대로 기술함. 이름을 (기존번호)라고 함. | |||
2 | kpb수정보 완(고정번 호)파일(27 73개)_최종 .zip | 기존 한국어 프롭뱅크 파일 2,749개 | - 파일 24개 추가됨 ∙기존 파일 병합(2): 강경.xml, 강경하.xml→강경 (명).xml, 끔찍스럽.xml, 끔찍하.xml→끔찍(어 근).xml ∙기존 파일 분할(20): ‘거치.xml’->거치(동).xml, 거치 (명).xml, 결연하.xml->결연(명).xml, 결연(어 근).xml, 고르.xml->고르(동).xml, 고르(형).xml, 과 하.xml->과하(동).xml, 과하(형).xml, 그르.xml->그 르(동).xml, 그르(형).xml, 낫.xml->낫(동).xml, 낫 (형).xml, 달.xml->달(동).xml, 달(형).xml, 달 리.xml->달리(동).xml, 달리(부).xml, 못하.xml->못 하(동).xml, 못하(형).xml, 싸.xml->싸(동).xml, 싸 (형).xml, 쓰.xml->쓰(동).xml, 쓰(형).xml, 안 되.xml->안되(동).xml, 안되(형).xml, 어리.xml->어 리(동).xml, 어리(형).xml, 있.xml->있(동).xml, 있 (형).xml, 적.xml->적(동).xml, 적(형).xml, 적 시.xml->적시(명).xml, 적시(동).xml, 짜.xml->짜 (동).xml, 짜(형).xml, 차.xml->차(동).xml, 차 (형).xml, 흐리.xml->흐리(동).xml, 흐리(형).xml ∙파일 추가(6): 따끔따끔.xml, 마무리짓(동).xml, 맴디 맵(형).xml, 멀디멀(형).xml, 못지아니하(동).xml, 무 겁디무겁(형).xml, 펴내(동).xml - 파일 개수는 1번과 동일하나 기존 파일의 roleset의 |
의미역의 번호를 특정 의미역을 특정한 번호로 대응 하도록 고정시켜서 기술함. | |||
3 | 신규1차(21 03개)_최종 .zip | 신규기술 1차 대상 목록 2,345개 | - 242개의 대상 술어가 한국어 프롭뱅크에 있어서 한 국어 프롭뱅크 파일에서 기술하고 목록에서 삭제함. |
4 | 신규2차(15 21개)_최종 .zip | 신규기술 2차 대상 목록 1,606개 | - 85개의 대상 술어가 한국어 프롭뱅크에 있어서 한국 어 프롭뱅크 파일에서 기술하고 목록에서 삭제함. |
⚪ 기술 항목 계량화
한국어 프롭뱅크 | 신규 1차 | 신규 2차 | 총합 | |
파일 수 | 2,773 | 2,103 | 1,521 | 6,397 |
lemma 수 | 2,795 | 2,103 | 1,521 | 6,419 |
rel 수 | 5,771 | 3,602 | 2,404 | 11,777 |
4.2. 연구 진행상의 문제점 및 해결 사항
[1] XML 파일: 파일명 설정 기준의 혼란
[문제] 한국어 프롭뱅크 파일은 lemma 기준으로 되어 있으나 lemma에 어근과 어간이 혼재되어 있다. 예를 들어 ‘가공하다’는 ‘가공.xml’으로 되어 있으나 ‘가두다’는 ‘가두.xml’로 되어 있다. 이런 처리는 어근과 어간 의 형태가 우연히 동일할 때 문제가 된다.
[예시] 기대다 → 기대.xml 기대하다 → 기대.xml 비치다 → 비치.xml 비치하다 → 비치.xml
[해결] 다음과 같이 처리하였다.
[예시] 기대다 → 기대(동).xml 기대하다 → 기대(명).xml
비치다 → 비치(동).xml 비치하다 → 비치하(명).xml
그러나‘기대하.xml’ 파일 안에 ‘기대하다’와 ‘기대되다’가 함께 기술되는 것 은 하나의 격틀로 여러 문형을 분석하기 위함이므로 위의 문제에 해당되지 않는다.
[2] DTD 파일
1) TOP 노드 불일치
[문제] 언어 자료 컨소시엄 한국어 프롭뱅크는 [data] – [framefiles]에 포함된 XML 파일과 [dtd] 폴더에 포함된 verb.dtd 파일로 구성되어 있으며 각 XML 파일은 아래와 같은 맨 첫 행의 선언을 통해, 외부 DTD를 명시하고 있다.
[예시] <!DOCTYPE framefile SYSTEM "verb.dtd">
XML파일의 DOCTYPE에서 선언한 DTD의 이름과 TOP 노드의 태그명이 같아야 하나, 아래와 같이 두 요소가 일치하지 않도록 각 XML 파일이 기술되어 있다.
<!DOCTYPE predicate SYSTEM "verb.dtd">
<framefile>
<predicate>
<!--
the top level entity, we associate with each predicate frame file a set of 'frameset's
-->
<!ELEMENT framefile (comment | predicate)*>
<!ELEMENT predicate (lemma, (comment | frameset)*)>
verb.dtd에서 제일 상단은 아래와 같이 framefile로 명시되어 있고, predicate는 framefile의 하위노드이다.
따라서 유효성 검사를 실시하였을 때 아래와 같은 오류로 통과하지 못한다. [해결] 모든 XML파일의 DOCTYPE에서 선언한 TOP 노드의 태그명을 predicate에
서 framefile로 수정하여 XML 문서의 유효성을 확보하였다.
[예시] <!DOCTYPE predicate SYSTEM "verb.dtd">
→ <!DOCTYPE framefile SYSTEM "verb.dtd">
2) 중복된 element 이름
verb.dtd의 65번 행에서 69번 행까지 아래와 같은 기술이 존재한다.
위에서 term이라는 element가 같은 이름으로 중복되어 있는데, 이는 DTD 규약에 서 허용하지 않는 방식으로 요소명의 중복선언은 DTD에서 허용되지 않는다. 실 례는 아래와 같다. 두 term의 쓰임이 상이하나 상위 노드가 다르다 하여 같은 이 름을 사용하고 있다.
<relation>
<Arg n="1">
<f>을</f>
<term>부시 지사 진영</term>
</Arg>
<Rel>
<term>애태우게</term>
</Rel>
</relation>
위 DTD를 그대로 유효성 검사에서 활용하였을 경우, 아래와 같은 오류로 유효성 검사를 통과할 수 없다.(Python3 lxml 라이브러리 사용)
[해결] element 이름을 다음과 같이 수정하였으며, DTD도 이에 따라 수정하였다.
<!ELEMENT f (#PCDATA)>
<!ELEMENT term (#PCDATA)>
<!ELEMENT Rel (term)>
<!ELEMENT term (#PCDATA)>
[3] 문서 인코딩
[문제] 문서의 인코딩이 완성형 한글(CP949)로 되어 있다.
<relation>
<Arg n="1">
<Arg_f>가</Arg_f>
<Arg_term>그</Arg_term>
</Arg>
<Rel>
<Rel_term>옳지</Rel_term>
</Rel>
<Aux>
<Aux_f>지</Aux_f>
<Aux_term>않다고</Aux_term>
</Aux>
</relation>
[해결] 문서의 인코딩을 완성형 한글(CP949)에서 유니코드(UTF-8)로 변환함.
[4] edef/kdef
[문제] 기존 한국어 프롭뱅크에는 <edef>에 영어 대역어만 기술되어 있다. [해결] <kdef> 항목을 추가하여 한국어 뜻풀이를 기술하였다.
[5] roleset
[문제] <argrole>에 사용하는 의미역 집합에 대한 추가 연구가 필요함. 본 사업에 서는 보다 정밀한 의미역 분석을 위해 AGT, EXP, EFF 등의 구체적인 의 미역을 추가하였으나 기존의 Arg0, Arg1, Arg2 등의 숫자형 논항 기술과 충돌이 생기기도 한다. 예를 들어 동반주 COM의 경우, 격틀 기술의 정밀 성과 정확성을 높이기 위해 연관된 성분이 주어일 경우와 목적어일 경우 를 COM0와 COM1로 구분하였으나 이를 Arg0나 Arg1, Arg2에 대응시킬 때 술어에 따라 논항의 숫자가 달라지는 문제가 발생함. 정밀한 의미역 분석을 위해 추후 별도의 연구가 필요하다.
[해결] 기존 프롭뱅크 수정 시 두 가지 방식으로 논항에 숫자를 부여하였다. 기 존 버전에 따라 차례로 논항의 숫자를 매긴 순차 번호 버전과 표지형 의
미역에 의미역 번호를 1:1로 대응시킨 고정 번호 버전 두 가지 버전으로 구축함. 신규 격틀은 고정 번호 버전으로 구축하였다.
제 5 장
결 론
5.1. 연구 결과 요약
⚪ 의미역 분석 대상 200만 어절 문어 말뭉치 내 고빈도 술어 6,355개(lemma 6,379 개, rel 11,609개)를 대상으로 하여 우리말샘의 의미 번호를 기준(세종 전자사전 의 번호도 부착)으로 격틀 구조를 기술하였다.
⚪ 격틀 구조 기술 및 의미역 표지 부착 시 기존 자료인 한국전자통신연구원 의미 역 부착 지침, 언어 자료 컨소시엄(LDC)의 한국어 프롭뱅크(KPB)와의 호환성에 중점을 두었다.
⚪ 한국어의 특성에 맞는 의미역 목록을 작성하고 6,355개 술어의 격틀별 예제 문 장에 적용하였다.
⚪ 번호형 의미역, 표지형 의미역, 서술형 의미역 등 다양한 방식으로 의미역을 기 술하였다.
⚪ 기존 의미역의 수정‧보완 내용이 필요한 부분에 대해서는 하위 호환성(backward compatibility)을 위해 세종 전자사전과 울산대 U-tagger의 의미역과 본 연구에서 취용한 한국전자통신연구원의 의미역을 대응시키는 표(mapping table)를 제시하 였다.
⚪ 한국어 프롭뱅크를 준거로 한 용언 술어 격틀 기술의 문제점을 파악한 후, 파악 된 문제점을 바탕으로 용언 술어의 격틀 기술, 예문의 의미역 부착과 관련한 향 후 과제를 제시하였다.
5.2. 향후 과제 및 제언
⚪ 절 간의 의미관계에 대한 연구가 별도로 필요하다. 원인, 목적, 조건, 양보, 선행, 나열, 대조, 선택, 배경, 부연 등 절 간의 의미 관계를 세분하고 이를 나타내는 표지가 무엇인지 향후 연구가 필요하다. 절은 명사절, 부사절, 관형사절 등의 안 긴절이 있고 종속절과 같은 접속절이 있다. 명사절은 논항이 되기도 하고 부가 어가 되기도 하는 한편, 관형사절, 부사절, 종속절은 부가어가 된다. 따라서 이들 은 명사(구) 논항이나 부가어와 마찬가지로 핵어와의 의미관계에 따라 의미역을 부여할 수 있으므로 절에 부여하는 의미역 표지를 연구할 필요가 있다.
⚪ 술어를 중심으로 한 의미역 분석은 절 내부를 대상으로 한다. 분석자마다 절 경 계를 다르게 판단하면 분석 결과의 일치도가 낮아진다. 따라서 절 경계를 확정 하기 위하여 연결 어미뿐 아니라 연결 어미 상당 구성에 대한 연구가 필요하다.
⚪ 본 사업의 결과물을 활용하기 위하여 절 내의 중심 술어를 파악하는 연구가 필 요하다. 절 내의 중심 술어를 결정하기 위해서는 보조용언 구성 및 의존명사를
포함한 보조용언 상당 구성에 대한 연구가 필요하다.
⚪ 개별 용언뿐 아니라 연어 구성이나 관용표현 등의 논항구조와 의미역에 대한 연 구도 필요하다.
⚪ 하나의 어형이 동음이의어이거나 다의어인 경우가 있으므로 서술어에 대한 형태 의미 분석을 정교화하는 연구가 필요하다. 서술어의 정확한 의미를 파악하지 못 하면 구문 분석이나 의미역 분석 등 사전에 기반한 후속 단계의 분석에도 오류 가 전이된다.
⚪ 신문 표제 등에 사용되는 술어성 명사의 논항 구조에 대한 연구가 필요하다. 예 를 들어 ‘포함’이라는 술어성 명사의 경우에 ‘포함하다’와 ‘포함시키다’, ‘포함되다’의 격틀과 논항 명사의 의미역이 달라진다. 어떤 접사를 복원하여 술어성 명사가 사용된 문장을 분석할 것인지에 대한 연구가 필요하다. 아울러 해당 명사가 서술적으로 사용되었는지 비서술적으로 사용되었는지에 대한 판단 도 할 수 있어야 하므로 이에 대한 연구도 필요하다.
⚪ 사전에 등재되어 있지 않은 술어에 대하여 논항 구조 및 의미역을 파악하기 위 한 연구가 필요하다. 기존의 유의어 연구는 주로 의미를 기반으로 하였으나, 격 틀 기반 유의어 연구 혹은 의미역 구조 기반 유의어 연구 등 구조와 의미 간의 관련성에 주목한 유의어 연구가 필요하다.
⚪ 동격 명사구, 환언 표현, 명사구 상당어 등이 나오는 문장에 대한 언어공학적 처 리도 본격적으로 연구되어야 하다.
⚪ 그 밖에도 부가어가 의문문 등에서 논항의 기능을 하는 경우에 대한 기술 방안, 부가어가 화용적으로 논항과 다름없는 기능을 하는 경우의 기술 방안 등이 언어 학적(화용론적)으로는 중요한 연구 대상이 될 만하나, 자연 언어 처리의 큰 틀에 서 문제를 일으키는 경우는 아닌 것으로 우선적 과업 대상은 아닐 것이다.
⚪ 현재 의미역 분석은 대체로 질의 응답 시스템 개발을 위한 대규모 지식 베이스 를 구축이라는 목적을 위해 활용되고 있다. 의미역 분석은 서로 다른 문장들 간 의 동의성을 파악하기 위한 하나의 방법이기는 하지만 그것이 전부는 아니다. 문장의 동의성 연구 혹은 다시 쓰기(paraphrase) 연구가 전방위적으로 이루어져 야 다양한 문장 형식으로부터 동일한 의미를 추출하여 지식 베이스를 구축하는 과업이 달성될 수 있을 것이다.
참고 문헌
강신재·박정혜(2003), 대규모 말뭉치와 전산 언어 사전을 이용한 의미역 결정 규칙의 구 축,《정보처리학회논문지(B)》10:2, 219-226.
고광주(2000), 관용어의 논항구조와 형성제약,《어문논집》42, 261-283.
김건희(2003), 심리 형용사 연구: 논항 교체 유형들의 어휘 의미 구조를 중심으로, 《언 어학》37, 47-70.
김광희(1998가), 동사의 범주위계와 자질제약을 통한 국어 논항구조 문법의 수립에 관한 연구,《국어학》31, 205-245.
김광희(1998나), 동사의 범주위계와 자질제약을 통한 국어 논항구조 문법의 수립에 관한 연구(2),《한국언어문학》41, 357-374.
김기혁(2002), 국어 문법에서 격과 의미역할,《한국어학》17, 45-70.
김나리·김영택(1996), 한국어 동사 패턴에 기반한 한국어 문장 분석과 한영 변환의 모호 성 해결, 《정보과학회논문지(B)》, 23:7, 766-775.
김영희(1999), 보족어와 격 표시,《한글》244, 75-109.
김영희(2004), 논항의 판별 기준,《한글》266, 139-167.
김완수(2016), <격틀 사전과 하위 범주 정보를 이용한 한국어 의미역 결정>, 울산대학교 대학원 석사학위논문.
김원경(2007), 의미격의 체계와 연산 절차, 《한국어 의미학》 24, 103-129. 김원경·고창수(2009), 격조사 ‘로’의 문법적 특성과 의미 기능,《한국어학》45, 175-198. 김윤정·김완수·옥철영(2014), 전산언어학에서의 한국어 필수논항의 의미역 상정과 재고,
《언어와 정보》18:2, 169-200.
김정남(1998), 국어의 생략 현상에 대한 한 반성: 동사구 내포문에서의 주어 삭제를 중심 으로,《국어학》32. 201-215.
김정남(2005),《국어 형용사의 연구》, 역락.
김지은(1998), 조사 ‘-로’의 의미와 용법에 대한 연구,《국어학》31. 361-393. 김지홍(1994), 수량사를 가진 명사구의 논항구조,《배달말》19, 1-48. 김지홍(1995), 명사구의 확장과 그 논항구조에 대하여,《배달말》20, 81-177.
김현권‧김종명(2001), 세종 용언 전자사전의 의미역 기술체계 및 목록, 2001년 한글 및 한국어 정보처리 학술논문집, 319-325.
남경완·유혜원(2005), 한국어 구문 분석을 위한 서술성 명사 연구, <어문논집> 51, 127-153.
남기심(1993), 《국어 조사의 용법》, 서광학술자료사.
남기심·조은(1992), 조사 ‘-로’의 용법에 관한 연어론적 연구(1), 《동양학》22, 1-23.
남기심·조은(1992), 조사 ‘-로’의 용법에 관한 연어론적 연구(2), 《동방학지》76, 231-252. 남지순(1993), 한국어 형용사 구문의 통사적 분류를 위하여, 《어학연구》29:1, 75-105. 박광현·나승훈(2017), 문자 기반 LSTM CRF를 이용한 한국어 의미역 결정,《한국정보과
학회 학술발표논문집》2017:6, 1817-1819.
박성배·김영택(1998), 한국어 부사격 조사의 의미격 결정, 《한국정보과학회 학술발표논 문집》25, 한국정보과학회, 399-401.
박소영·곽용재·정후중·황영숙·임해창(2002), 한국어 구문분석의 효율성을 개선하기 위한 구문제약규칙의 학습, 《정보과학회논문지: 소프트웨어 및 응용》29:9-10, 755-76.
박소영·김수홍·임해창(2004), 문장성분의 다양한 자질을 이용한 한국어 구문분석 모델,
《정보처리학회논문지 B》11:6, 743-748.
박진호(2004), 의존문법에 기반한 한국어 구문분석기의 설계와 구현, 김종복 외(2004), 287-323.
박진희(2012), <국어 절 접속의 의미관계 유형에 대한 연구>, 서강대학교 대학원 박사학 위논문.
박철우(2002), 국어의 보충어와 부가어 판별 기준,《언어학》34, 한국언어학회, 75-111. 박철우(2004), 술어-논항 관련 정보의 구축과 활용, 김종복 외(2004), 179-200. 박철우·남승호(2004), 형용사 논항 의미분류 표준화를 위한 기초 연구, 《언어학》38,
123-153.
박철우‧김종명(2005), 한국어 용어 사전 기술을 위한 의미역 설정의 기본 문제들, 《어학 연구》 41:3, 543-567.
박태호·차정원(2017), 형태의미정보를 이용한 한국어 의미역 결정,《한국정보과학회 학술 발표논문집》2017:6, 590-592.
박효명(1999), 논항구조와 국어 ‘자기’의 결속, 《언어학》7:3, 61-81.
배장성·이창기(2017), Stacked Bidirectional LSTM-CRFs를 이용한 한국어 의미역 결정,
《정보과학회논문지》44:1. 36-43.
배희임(1985), 우운 박병채 (朴炳采) 박사 환력기념 특집호: 國語文型小考, 《어문논집》
25, 민족어문학회, 217-233.
서상규·한영균(1999), 《국어정보학 입문》, 태학사.
성광수(1971), 國語文型에 대한 考察, 《어문논집》13, 민족어문학회, 7-32.
송복승(1995), 《국어의 논항구조 연구》, 보고사.
송향근·황하상(1999), ‘명사구(NP)+와’ 논항의 의미역,《어문논집》39, 민족어문학회, 452-471.
시정곤(2003), 단어결합과 의미역 위계구조, 《언어연구》19, 한국현대언어학회, 271-287.
신서인(2017), 《한국어 문형 연구》, 태학사.
양명희(1996), 국어의 생략 현상, 《국어국문학》117, 국어국문학회, 125-157.
양재형·김영택(1994), 통계 정보를 활용한 한국어 미지격 명사구의 문법기능 결정, 《정 보과학회논문집》 21-5, 808-815.
양정석(1997), 이심적 의미구조 : 동사의 논항 연결과 관련하여, 《배달말》22, 배달말학 회, 47-99.
양정석(2004), 개념의미론의 의미구조 기술과 논항 연결-이동동사·움직임 동사 구문을 중 심으로, 《언어》29, 한국언어학회, 329-357.
엄미현·신대규·나동렬(1996), 한국어의 구조적인 애매성, 《한국정보과학회 학술발표논문 집》23-1A, 911-914.
우순조(2001), 구문분석기 개발의 관점에서 본 ‘이’ 파생접사의 문제와 대안적 분석 –내 부 논항을 중심으로-, 《언어학》28, 129-154.
우형식(1995), 연결 이론에서의 격표지 교체 분석, 《애산학보》17, 99-153.
우형식(1996), 국어에서의 보충어 범위, 《배달말》21, 배달말학회, 29-74.
원진숙(1993), 서술어의 결합가를 중심으로 한 한국어 문형 분류, 《어문논집》32-1, 안 암어문학회, 495-516.
유동석(1998), 격 중출 구성에 대하여, 《국어학》31, 국어학회, 307-337.
유승섭(2002), 국어 내포 보문의 논항 구조 – 의존 용언을 중심으로, 《한글》256, 한글 학회, 163-190.
유현경(1997), 형용사의 격틀과 논항의 문제 – 사전적 처리를 중심으로, 《언어사실과 관 점》8, 연세대학교 언어정보연구원, 67-104.
유현경(2001) 한국어 관용구 사전의 편찬에 대한 연구 - 격틀 및 논항 정보와 관련된 문 제를 중심으로, 《언어정보연구원 학술발표논문집》, 연세대학교 언어정보연구 원, 354-370.
유현경(2003), ‘주다’ 구문에 나타나는 조사 ‘에게’와 ‘에’, 《한국어학》 20, 한국어학회, 155-174.
유혜원(2001), ‘와/과’ 구문의 자질 연산, 《한국어학》 13, 한국어학회, 217-238.
유혜원(2004), ‘N-로’를 필수 논항으로 취하는 타동사 연구, 《한국어학》24, 한국어학회, 189-220.
이관규(1993), 기본문형의 몇 가지 문제, 《우리어문연구》 7, 우리어문연구, 89-101. 이관규(1996), 보조동사의 생성과 논항구조, 《한국어학》 3, 한국어학회, 333-352. 이관규(1998), 보조 동사의 논항 구조, 《국어교육》 96, 한국어교육학회, 372-296. 이남순(1998), 격표지의 비실현과 생략, 《국어학》 31, 국어학회, 339-360. 이영헌(1996), 형용사의 논항구조에 관한 연구, 《언어학》 11-1, 언어학회, 231-249. 이홍식(2004), 외래어 동사의 논항 구조, 《언어과학연구》 31, 언어과학회, 229-246.
이홍식(2019), 의미역의 분류에 대하여, 《한국어와 문화》26, 숙명여자대학교 한국어문 화연구소, 95-120.
임동훈(1997), 이중 주어문의 통사 구조, 《한국문화》19, 서울대 규장각 한국학연구원,
31-66.
임수종(2018), 《한국어 의존의미역 태깅 가이드라인》, 한국전자통신연구원. 임홍빈(1999가), 국어 명사구와 조사구의 통사 구조에 대하여,《관악어문연구》24, 1-62. 임홍빈(2000), 가변 중간 투사론 -표면 구조 통사론을 위한 제언-, 간행위원회 편,《21세
기 국어학의 과제》, 월인. 1279-1320.
임홍빈(2003), 한국어 구문 분석의 원리와 몇 가지 문제,《시학과 언어학》6, 3-64.
임홍빈·이홍식 외(2002),《한국어 구문 분석 방법론》, 한국문화사. 장석진 외(1989), 《자연언어 처리의 기초연구》, 한국과학재단. 전정례(1995), 국어의 어순과 통사적 제약,《한말연구》제1호, 155-160. 정교환(1974), 국어문형고,《국어국문학》65·66 합집, 137-156. 정태구(2001),《논항구조와 영어 통사론》, 한국문화사. 조일영·김일환(1999), ‘NP로’의 의미역,《청람어문학》21, 1-22.
채완(1982), 국어수량사구의 통시적 고찰 –어순변화의 일례로서-, 《진단학보》53·54, 155-170.
최기용(1998), ‘있-’의 범주, 논항 구조 그리고 능격성,《국어학》32, 107-134.
최운호(2005), <한국어 처리에서 ‘구묶음’을 위한 명사의 특성 연구>, 서울대학교 대학원 박사학위논문.
최형강(2005), 주격 중출 구성에서의 보어, 임홍빈 외(2005), 381-400.
최형강(2012), 연어의 논항과 의미역: ‘명사+부리다’ 연어 구성을 중심으로,《한국어학》
57, 357-382.
최형강(2017), 연어 구성에서의 ‘을/를’ 명사구 중출,《한국어 의미학》56, 111-133.
최형강(2019), ‘로’ 명사구의 의미역 설정 - EFF, INS, FNS 등을 중심으로, 《인문연구》
88, 영남대학교 인문과학연구소, 115-144.
최호철(1996), 국어의 의미격 설정에 대하여,《한글》232, 123-145.
최호철·홍종선·조일영·송향근·고창수(1998), 기계 번역을 위한 한국어 논항 체계 연구,
《한국어 의미학》3, 1-39.
한송화(2000),《현대 국어 자동사 연구》, 한국문화사. 한정한(2012), 의미역 조사 ‘가’, ‘를’,《한국어학》54, 1-54.
홍기선(1999), 논항의 판별기준: 한국어의 동사성 복합어,《인문논총》42, 85-103.
홍재성 외(2003),《21세기 세종계획 전자사전 개발 분과 연구보고서》, 문화관광부·국립 국어연구원.
홍종선‧고광주(1999), ‘-을’ 논항의 의미역 체계 연구,《한글》243, 141-176.
황국정(2004), <국어 동사 구문구조의 통시적 연구>, 고려대학교 대학원 박사학위논문. Babko-Malaya, Olga. 2005. Guidelines for Propbank framers. University of
Pennsylvania.
Bonial, Claire, Jena Hwang, Julia Bonn, Kathryn Conger, Olga Babko-Malaya, and Martha Palmer. 2012. English PropBank Annotation Guidelines. University of Colorado at Boulder.
Bonial, Claire, Olga Babko-Malaya, Jinho D. Choi, Jena Hwang, and Martha Palmer.
2010. PropBank Annotation Guidelines. University of Colorado at Boulder.
Choi, Jinho D., Claire Bonial, and Martha Palmer. 2009. Jubilee: Propbank Instance Editor Guideline (Version 2.1). Institute of Cognitive Science Technical Report 02-09.
Choi, Jinho D., Claire Bonial, and Martha Palmer. 2010. Propbank Frameset
Annotation Guidelines Using a Dedicated Editor, Cornerstone. In Proceedings of LREC.
Han, Chung-hye Na-Rae Han, and Eon-Suk Ko. 2001. Bracketing Guidelines for Penn
Korean TreeBank. IRCS Technical Reports Series. 26.
Han, Chung-hye, Na-Rae Han, Eon-Suk Ko, Martha Palmer, and Heejong Yi. 2001. Penn Korean Treebank: Development and evaluation. In Proceedings of the 16th Pacific Asia Conference on Language, Information and Computation, 69-78.
Han, Na-Rae and Shijong Ryu. 2005. Guidelines for Penn Korean Treebank Version
2.0. University of Pennsylvania.
Seok Miran, Hye-Jeong Song, Chan-Young Park, Jong-Dae Kim, Yu-seop Kim. 2016. Korean Semantic Role Labeling Using Korean PropBank Frame Files. Advanced Science and Technology Letters Vol.142, 83-87.
Sohn, Ho-Min(2009) The Semantics of Clause Linking in Korean, In The Semantics of
Clause Linking - A Cross-linguistic Typology, eds., Dixon R. M. W. & Aikhenvald A. Y. New York: Oxford University Press.
참고 자료
1. K-probank
2. U-corpus
3. 21세기 세종계획 전자사전
4. 표준국어대사전(국립국어원 홈페이지)
5. 우리말샘(국립국어원 홈페이지)
<Abstract>
A Study on the Description Model of Theta-role and Pilot Buildup
Developing an artificial intelligence system that properly handles and understands natural languages requires a large data set with labels for multi-layer language information. Theta-role information is also an important layer, and building large data set with theta-role information (i.e., semantic role labeled corpus) requires basic research and guidelines on theta-role and case frame. In this study, the structure of the case frame was first described based on the semantic number of the Urimalsaem [우리말샘] dictionary and the Sejong e-dictionary on the 6,397 high-frequency predicates (lemma 6,419 items, rel 11,777 items) in the corpus of the Korean language subject to the theta-role analysis. Second, a list of semantic roles was developed to match the characteristics of the Korean language and applied to the example sentences of 6,354 predicates. At this time, theta-roles were described in a variety of ways such as numbered theta-roles, labelled theta-roles, and descriptive theta-roles. Finally, we found the problems of the description of the verbal predicates based on KPB of LDC, and based on the problems, we presented future tasks related to the description of case frame of verbal predicates and the attachment of theta-role for example sentences.
The following are some of the key research tasks for language engineering processing in natural language. First, it is necessary to correct flaws in semantic roles of adjuncts of the previous list and to prepare analysis guidelines with various examples. Second, a separate study of the semantic relationship between clauses is needed. To establish clausal boundaries, studies are needed on the constructions cor connective endings as well as connective endings. Third, for theta-role analysis, it is necessary to examine the central predicates within clauses. To identify what the central predicate within a clause is to determine, research is needed on auxiliary compositions and semi-auxiliary compositions including dependent nouns. Fourth, studies are needed on the logical structure, meaning of allocations, and idiomatic expressions as well as individual verbal predicates. Fifth, since there are cases where one type is a homonym or multiple words, studies are needed to refine the morphological and semantic analysis of predicates. Sixth, studies on the meaning of
complex NPs realized by the argument structure of predicate nouns are needed. Seventh, studies are needed to identify argument structures and theta-roles when non-registered predicates in dictionary appear. Eighth, various constructions such as apposition, paraphrasing expression, and semi-NP are needed to be studied for linguistic engineering.
Key-words: theta-role, case frame, argument, adjunct, Linguistic Data Consortium, LDC Korean Propbank, ETRI theta-role tagging guideline
Project Director: Yi Seon-ung (Kyunghee University)