Abstract 140
국립국어원 2021-01-33
11-1371028-000867-01
발간등록번호
2021년 말뭉치 함의 분석 및 xx
xx책임자
xxx
x x 문
국립국어xx 귀하
국립국어원과 체결한 xx용역 계약에 따라 ‘2021년 말뭉치 함의 분석 및 xx
보고서’를 작성하여 xx합니다.
■ 사업 기간: 2021년 5월 ~ 2021년 12월
2021년 12월 17일
xx책임자: xxx(고려대학교)
xx xx
고려대학교 산학협력단 성xxx대학교 xx산학협력단
(주)xxxxxx
xx책임자
xxx구원
xxx
xxx, xxx, xxx, xxx, xxx, xxx, xxx, xx x, xxx, xxx, xxx, xxx, xxx
xx xx: 고려대학교 산학협력단․성xxx대학교 xx산학협력단․(주)xxxxxx
연구진 | |
책임 연구원 | xxx(고려대학교) |
공동 연구원 | xxx(충xxx교) |
xxx(고려대학교) | |
xxx(부산대학교) | |
xxx(고려대학교) | |
xxx(부산외국어대학교) | |
xxx(인xxx교) | |
xxx(성xxx대학교) | |
xxx(서울대학교) | |
xxx(xx대학교) | |
정xx(성xxx대학교) | |
xxx(xxxxxx(주)) | |
xxx(xxxxxx(주)) | |
xxx(xxxxxx(주)) | |
xx 보조원 | xxx(서울대학교) |
xxx(고려대학교) | |
xxxx(서울대학교) | |
xxx(고려대학교) | |
xxx(서울대학교) |
xxx(고려대학교) | |
xxx(고려대학교) | |
xxx(서울대학교) | |
xxx(고려대학교) | |
xxx(고려대학교) | |
xxx(서울대학교) | |
xx(서울대학교) | |
xxx(성xxx대학교) | |
보조원 | xxx(고려대학교) |
xxx(성xxx대학교) | |
조새하(성xxx대학교) | |
xxx(성xxx대학교) | |
xxx(성xxx대학교) | |
xxx(성xxx대학교) |
<국문 xx>
2021년 말뭉치 함의 분석 및 xx
본 사업은 한국어 xx의 직관을 수집하여 xx 산업에 xx 가능한 데이터로 변환함으로써, 국가 주도 구축 언어자원의 품질 향상을 도모함 에 목적이 있다. 본 사업의 xx이 되는 언어자원은 확신성 담화이다. 예 를 들어, xx가 “xx는 밥을 먹었는지 모른다.”고 말한다면, xx는 철 수가 밥을 먹었다는 사실을 함의하는지 또는 xx(xx)가 이를 확신하는 지 xx가 된다. 전통적인 언어 이론에서는 xx의 (비)확xxx 모절의 술어에 의해서 결정된다고 보았으나, xx의 말뭉치와 실험 xx에서는 이분법적 구별이 어려운 척도 xx으로 xx의 확xxx 나타나는 것으 로 보고되고 있다. 따라서 본 사업에서는 한국어 xx의 확신성을 xx하 고자 국어 말뭉치에서 xx 담화를 xx하고 리커트 7점 척도로 평가하 였다.
과업의 효율적인 xx을 위하여, 본 사업팀은 여러 xx을 xx적으로
xx하였다. xx xx xx 분석 및 xx 실험을 xxx x, ‘xx 담화 의 xx’,‘확신성 언어실험’. ‘언어xx 부착’을 xx적으로 xx하였다. xx 담화의 xx에서는 내포절과 보문소를 특징으로 하는 한국어 xx 을 수집하였다. 수집 목표는 장르별로 문어⋅xx 1,000건, 구어 500건이 며, 한국어 xx의 직관을 파악하기에 적합한 xx을 수집하였다.
2020년 xx한 ‘말뭉치 함의 분석 및 xx’ 사업과는 xx, 2021년 사 업에서는 xx 담화의 적합성을 판별할 (유사)보문소 목록을 198개로 확 장하였으며, 함의 취소 xx소는 (xx 포함 요소가 아니라) xx 담화에 포함되거나 포함되지 않을 수 있는 요소로 반영하였다. 또한 2020년 사 업과의 차이점은 xx 담화를 xx하는 방법을 xx하여, xx 담화의 장 르 xx성과 한국어 보문소 목록을 참조하였다는 점이다. 이를 xx으로
165,225건의 한국어 확신성 담화 사례를 국립국어원 말뭉치에서 기계적 으로 xx하고, 일부를 작업자가 xx처리하였다.
확신성 실험은 수집된 xx에 xx 한국어 xx의 직관을 계량화하는 과업이다. 실험을 xx하기 위하여 수집된 확신성 담화에서 1,806개 문항 을 선별하고 실험 문항으로 설계하였다. 또한 xx 실험 설계 지침x x 비하여 향후 사업 xx을 위한 토대를 마련하였다. 확신성 실험의 절차는 다음과 같았다. 60xx 한국어 xx를 모집하여 세 그룹으로 나누고, 담 화 사례별로 20명 내외의 한국어 xx가 7점 리커트 척도로 확신성을 평 가xxx 하였다.
xx의 확신성에 기여하는 요소를 살펴보고자 1,806개 문항에 대하여 언어xx 부착을 xx하였다. 한국어 xx의 구조에 따라 내포절의 인칭, xx소, 보문소, 확신성 xx xx를 포함하여 다양한 언어xx를 온라인 워크벤치에서 xx으로 작업하였다. xxx구원으로 구성된 상위작업자의 검수로 최종적으로 확보된 1,562개의 담화 사례에 대하여 확신성 실험 결과 및 언어xx xx을 부착하였다. 또한, 말뭉치를 재가공하여 한국어 인공지능 평가에 활용할 수 있는 방법론을 제시하고, 그 결과를 공개하였 다.
본 사업의 신뢰성을 담보하기 위하여 국어 및 컴퓨터공학 전문가 자문 을 받아 국어xx 자원으로서의 성격을 명확히 하였다. 특히, 과업xxx x을 토대로 xx 지침을 xx하고, 적합한 한국어 xx 수집 절차에 관 한 방법론을 xx함으로써 향후 고품질 국어 말뭉치 자원의 재생산과 확 장에 기여하였다.
주요어: 함의 분석, 확신성 담화 수집, 확신성 언어실험, 언어xx 부착
차례
제 1장 사업 개요
1. 사업의 목적 2
2. 사업 xx 범위 3
3. 사업 xx xx 4
제 2 장 xx 담화 xx 및 xx
1. 확신성 담화의 xx과 범위 7
2. 확신성 담화의 xx 10
3. 확신성 담화의 xx 작업 19
4. 확신성 담화의 구축 지침 xx 방안 25
제 3 장 확신성 언어 실험
1. 확신성 실험의 xx과 범위 35
2. 확신성 실험의 xx 지침 및 사례 36
3. 확신성 실험의 결과 47
제 4 장 확신성 언어 실험 결과의 국어학적 분석
1. 확신성 언어 실험 결과의 xx과 범위 59
2. 확신성 언어xx 부착 60
3. 확신성 언어 실험 결과의 인공지능 평가 xx 방안 69
제 5 장 결론 및 xx
1. 결론 84
2. xx 86
붙임 1. 추론_확신성 분석 말뭉치 2021 구축 지침서
1. 개요 90
2. 작업 절차 96
3. xx 지침 9
4. 실험 지침 128
<표 1> (유사) 보문소 목록 135
<표 2> 모문 술어 목록 136
참고 xx 138
Abstract 140
제 1 장 사업 개요
1. 사업의 목적
본 사업은 xx의 발화 속에 담긴 내포 xx의 사실성과 국어의 구조 가 xx작용하는 xx을 파악하고자 한다. 이를 위하여 한국어 xx의 확 xx 직관을 리커트 척도를 사용한 언어 실험으로 수집하였다. 또한 나아 가 본 사업은 실험 xx 결과물을 언어자원으로 구축하여 xx 산업의 xx를 충족시키고자 한다. 특히, 그동안 산업계에서는 언어자원의 xx 성을 증대하기 위하여 인공지능이 자연어의 복잡한 구조를 제대로 이해 하는지를 평가하는 구체적인 방법론 개발의 필요성을 꾸준히 xx해 왔 다. 이에 따라 본 사업은 언어자원을 재가공하여 한국어 인공지능을 평가 하는 새로운 방법론과 지침을 xx하였다.
국립국어원에서는 온라인으로 ‘xx의 말뭉치’를 공개하여 언어자원의 xx가능성을 확장하고 있다. 이러한 xx의 연장에서, 본 사업은 기존 문어·구어 말뭉치에서 함의 분석의 xx이 되는 ‘확신성 담화’를 xx하 여, 정량화된 실험적 방법론으로 국어 이해의 xx을 계량화하는 것을 주 요 사업 xx으로 하였다. 확신성 담화는 생성된 내포 xx의 사실성에 xx xx의 직관을 반영하고 있다. 예를 들어, ‘xx가 xx를 역 앞에 서 보았다고 말했다’는 문장은 ‘xx가 xx를 역 앞에서 보았다’는 내포 xx를 함의(entailment)한다.
한편 본 사업의 필요성은 한국어 발화가 내포하는 xx의 사실성을 이 해하는 한국어 xx가 단순히 참·거짓이 아닌 복잡한 화용론적 맥락에서 국어 발화를 xx하기 때문일 수 있다는 학술적 xx와 xx이 있다. 예 를 들어, ‘xx가 xx를 역 앞에서 보았는지 모르겠다고 말했다’는 문장 이 동일한 내포 xx를 함의하는지 또는 내포 xx의 사실성을 취소 (cancellation)하는지가 xx(xx)의 직관에 따라 xx 다양한 xx으로 나타날 수 있다. 이러한 미묘한 차이를 포착하기 위해서는 실험 방법론에 입각한 xx적인 함의 분석이 필요한 것이다,
또한, 4차 산업xx의 시대에 국어 말뭉치는 인공지능 구축·평가 xx
xx도 xx될 필요가 있다. xx는 인공지능이 한국어 xx의 직관을 반 xx는 함의 xx를 얼마나 정확하게 예측할 수 있는가이다. 이를 해결하 기 위해 본 사업에서는 정교한 실험적 xx에서 수집한 한국어 xx의 언어이해 xx을 재가공하여, 인공지능의 자연어이해(Natural Language Understanding) xx을 평가하는 방법을 xx하였다. 다시 말해 본 사 업의 의의는 xx들이 개발한 대규모 인공지능의 고난도 성능을 평가할 최적화된 방법론을 제시하였다는 점에서 찾을 수 있다.
요약하면, 본 사업은 산업적·학술적 xx에 따라 ‘2021년 말뭉치 함의 분석 및 xx’에서 다음과 같은 사항을 xx하였다. 국립국어원에서 구축 한 말뭉치에서 함의 분석의 xx이 되는 담화를 xx하고, xx xx 지 침을 xx하였다. 또한 xx된 담화를 정량적 실험에 적합한 xx로 xx 하고, 한국어 xx의 확신성 판단을 수집하는 실험을 설계하고 xx하였 다. 마지막으로 실험의 결과를 재가공하여 인공지능 평가에 적합한 xx 로 xxx여 실제 한국어 인공지능 평가 결과를 제시하였다.
2. 사업 xx 범위
본 사업은 국립국어원 xxx사, 문어, (준)구어 말뭉치를 xx으로 확 xx 담화를 수집하여 1,500건의 담화로 구성된 확신성 언어자원을 구축 하였다. 본 사업x x xx 단계에서 xx적 xx과 본 xx을 xxx하 여 xx의 완성도를 높였다. 본 사업은 장르별 xx성과 오류율을 고려하 여, 1,805건의 담화 사례를 수집하였다. 수집한 사례의 범위는 문어 960 건, xx 303건, 구어 421건, xx 121건이다(제 2 장). 또한 상위 검수 자가 추가적인 선별 절차를 거쳐 최종적으로 1,562건의 확신성 담화 사 례를 xx하였다. 한국어의 확신성과 밀접한 xx을 맺고 있는 한국어 함 의취소xx소(‘-ㄹ지 모르다’ 등)와 보문소(‘ㄴ_xx’ 등)의 결합이 존재하 는 문장이 사업의 xx으로 포함되었다. 또한 장르별로 xx 담화의 성질
이 다르므로 해당 xx를 반영하여 xx 담화를 xx하였다.
향후 xx 국어 말뭉치 사업의 연속성을 담보하고 효율적인 개발을 위 해, 담화 수집 xx 및 방법에 xx 상세한 xx과 제외 xx에 xx 지 침을 마련하였다. 문어와 xx은 앞뒤 3문장 문맥을 함께 수집, 구어는 10문장 문맥을 수집하는 지침을 xx하였으며, 내포 xx를 xx하는 지 침을 구체적인 사례와 함께 예시를 xx xx하였다. 또한 xx, xx, 인칭대명사, xx를 xx으로 내포 xx의 언어적 구조를 파악할 수 있는 xx 작업 지침을 xx하였다. 구체적인 지침과 xx 사례는 별도의 xx 로 xx하여 용이하게 참조할 수 있도록 하였다.
언어 실험은 60xx 한국어 xx를 모집하여 3개월에 걸쳐 1,806건의 담화를 xx으로 xx되었다(제 3 장). 실험언어학 분야에서 xx의 논문 을 출판한 경험이 있는 박사급 xxx구원이 실험의 xx과 문항의 구조 를 설계하였다. 60xx 한국어 xx는 xx 담화와 실험의 xx에 xx 교육을 받았으며, 신뢰할 수 없는 응답 패턴을 보이는 참여자는 실험 결 과에서 제외되었다. xx 실험결과에는 급내xxxx를 포함한 통계분석 이 적용되었다.
언어xx 부착은 내포절의 xx와 인칭, 함의취소xx소를 xx으로 한 다. xx 사례와 함께 실제 xx xx 부착의 예시를 xx하였다(제 4 장). 실험 결과와 부착된 언어xx를 종합하여 인공지능 평가를 xx하였 다. 인공지능 평가는 한국어 언어 xxx XxXXXX, XxXXXX 등을 대상으 로 하였다. 함의 분석에서 나타난 한국어 xx의 확신성 판단 xx를 재 가공하여, 인공지능의 추론 능력 xx을 살펴보았다.
3. 사업 xx xx
본 사업은 2021년 5월 17일 착수하여 2021년 12월 17일까지 약 7개 월간 xx되었다. 매달 온라인 회의와 함께 월간 보고서를 작성하였으며,
구체적인 xx은 다음의 <표 1>에 제시하였다. 변동사항에 xx 보고 및 xx xx 결과에 xx xx xx은 발xxx과 수시로 xx하였다.
<표 1. 사업 xx xx 경과>
과업 구분 | 5월 | 6월 | 7월 | 8월 | 9월 | 10월 | 11월 |
xx 담화 xx | |||||||
xx 담화 xx | |||||||
확신성 언어실험 | |||||||
언어xx 부착 | |||||||
인공지능 평가 |
제 2 장
xx 담화 xx 및 xx
1. 확신성 담화의 xx과 범위
확신성 담화는 어떤 xx 또는 발화가 함의하고 있는 xx의 사실성이 국어의 문장구조와 맥락에 의하여 결정되는 사례를 xx으로 하였다. 화 자가 함의하고 있는 xx의 사실성은 xx이거나 거짓, 또는 모호할 수 있으며, 이러한 의도는 다양한 한국어 술어에 의해 표현된다. 이 때문에 xx의 의도와 발화의 술어가 어떠한 xx를 맺고 있는지가 중요하다. 또 x xx적 맥락과 밀접한 xx를 맺고 있는 까닭에 담화의 내포xx의 사실성에 xx xx의 확xxx 달라질 수 있다. 따라서 본 사업은 언어 구조적 xx를 실험으로 계량화하고, 언어자원으로 재가공함으로써 국어 xx 및 인공지능 산업에 활용할 수 있는 담화를 수집하였다. 구체적인 예는 xx <표 2>와 같다.
<표 2. xx 담화 사례>
xx 담화와 실험 구조 | 추론 xx |
뉴욕의 xx은 눈이 많이 오고 xx 춥다. 플로리다에서 온 x은 어제 눈이 온 것을 알지 못한다. 그는 눈을 거의 경험 하지 못했다. [질문] 다음 문장에 대해 xx는 어느 정도로 확신한다고 생각하십니까? “어제 (뉴욕에) 눈이 많이 왔다” | 함의 |
xx는 xx를 좋아xxx 아직 xx하지 않았다. xx는 xx가 자신의 xx을 받아줄 것으로 기대한다. xx xx 가 xx xx할지 궁금해한다. | xx |
[질문] 다음 문장에 대해 xx는 어느 정도로 확신한다고 생각하십니까? “xx가 xx의 xx을 받아줄 것이다” | |
xx는 바나나를 구황작물이라고 생각해. 바나나가 땅에서 자라는 줄 알지? 절대 사실을 알려주지 않을거야. [질문] 다음 문장에 대해 xx는 어느 정도로 확신한다고 생각하십니까? “바나나가 땅에서 자란다” | xx |
또한 본 사업은 영어에 xx xx xx인 de Marneffe et al.(2019)을 참조하였다. xx xx에서 (비)사실성에 xx xx의 사실성을 함의/x x/xx의 xx적 구조로 구분하였다. 이러한 xx적 구조는 내포 xx의 사실성의 이론적 xx에 관한 것으로, 실제 한국어 xx가 평가하는 내포 xx(가설)의 사실성은 확신성 xx(degree of commitment)에 따라 차 이를 보인다. 언어학에서는 이를 명확한 xx적 xx가 없는 경사적 속성 (gradient nature)의 xx로 다루고 있다.
이러한 xxx 평가 척도를 어떻게 xxx느냐에 따라 xx 평가될 수 있다. 예를 들어, 5점 또는 7점 리커트 척도에 따라 확신xx 크기가 달 라질 수 있다. 이에 관해서는 제 3 장에서 xx한다. 따라서 잠정적으로 본 사업에서 함의 xx는 내포절에 xx xx의 확xxx 참으로 확신되 는 xx라고 볼 수 있다. xx xx는 내포절에 xx xx의 확xxx 참 xx 거짓xx 모르는 불확신성으로 나타나는 xx이다. xx은 내포절에 xx xx의 확xxx 거짓으로 확신되는 xx이다.
수집한 사례의 범위는 문어 960건, xx 303건, 구어 421건, xx 121
건으로 도합 1,806건이다. 각 사례별로 확신성 xx를 계량화하기 위한 언어 실험을 xx하였고, xx 언어xx를 부착하였다. 본 사업은 해당 사례를 xx하기 위하여 국립국어원에서 구축한 말뭉치로 범위를 xxx 였다. 이는 기존 국어 xxx 사업의 연속성을 담보하고 확장성을 꾀하기 위함이다. 적합한 xx과 사례를 xx하기 위하여 기계적 자동화 xx 기 법과 수동적 분류 기법을 xxxx적으로 xx하였다. 기계적 xx 단계 에서는 한글 xx 분리와 형태소 분석을 적용하여 기존 국어원 구문분석 말뭉치와 xx xx분석 구어 말뭉치를 xx하였다.
자동 xx 알고리즘의 국어적 xx을 xxx기 위하여 198개의 (유사) 보문소 목록을 작성하여 xx하였다(xx 1 참조). 넓은 범위의 보문소 목록을 작성한 목적은 한국어 xx의 분포적 xx성을 확보하기 위한 것 이다. 예를 들어, 장르에 따라 보문소 ‘_다는 생각’이 ‘_라는 xx’보다 빈번하게 출현하거나 그렇지 않을 수 있다. 이때, 특정 xx에 편향되는 xx를 해소하기 위하여 장르를 다양화하거나 담화 xx의 xx을 확장 하는 방법을 선택할 수 있었다. 이러한 접근은 컴퓨터 xx를 xxx x 동 방법에 xx하였다.
이와 xx, xx 분류는 박사급 xxx구원의 자문을 받아 작업 규칙을 정하고 검수를 받았다. xx 분류의 xx은 내포 xx의 명확성, 언어구 조적 일관성 등을 고려하였다. 해당 분류 xx에 적합하지 않은 xx은 xx의 다음 단계인 확신성 언어 실험과 언어xx 부착 및 인공지능 x x 평가에서 제외되었다.
또한 본 사업은 지난 ‘20년 말뭉치 함의 분석 및 xx’ 사업의 지침을 xx하는 것을 과업의 범위로 하였다. 이러한 지침 xx은 xx 담화 자 동 수집 및 xx 분류의 절차를 xx하여 xx의 효율성과 정확성을 높 이는 것을 주요 목적으로 한다. 해당 지침의 xx은 기존 지침의 미비점 을 추가로 xxx고 xx 국어 예시와 해결 방안을 함께 xx하는 xx 로 작성되었다.
2. 확신성 담화의 xx
2.1. xx xx
확신성 담화의 기계적 xx은 xx xx 단계와 본 xx 단계로 나뉜 다. xx xx은 다음 단계의 xx에 적합한 한국어 xx을 xx하기 위 한 자동 xx 및 xx 분류의 xx을 확정하는 것을 목적으로 한다. 이러 한 샘플링 단계는 별도의 xx을 두지 않는 것과 별도의 xx을 두어 (1) 작업자 층위 (2) 국어 보문소 유형별로 xx 적합성에 어떠한 xxx x 치는지 판별하는 데 효과적이다.
본 xx은 국어의 구어, xx, 문어 장르와 xx 담화의 함의적 xx에 xx을 미치는 내포 xx를 xx으로 반복적으로 xx하였다. 이러한 반 복적 xx은 이전 단계에서 불균형하였던 데이터 분포를 해소하고, 보다 다양한 한국어 xx을 xx할 수 있다는 xxx 있다. 특히, 데이터 구축 의 관점에서 볼 때, 무작위적 xx과 일회적 xx은 데이터 편향성을 증 폭시키는 xx이 있다는 점에서 본 사업의 xxx 중요하다. 구체적인 예 는 xx <표 3>과 같다.
<표 3. 확신성 담화의 xx 단계>
xxxx | 본 xx | |
샘플링 | 장르 xx | 내포xx xx |
precommit0 (10,041) - 별도의 xx을 두지 않음 | commit0 (478) - 보문소 “줄” xx | commit4 (803) - 실험 240 문항 xx |
precommit1 (10,041) - 작업자 층위별 적합xx 기 준으로 함. | commit1 (51,882) - 문어 장르 1차 xx | commit5 (1,114) - 실험 문항 작업 및 지 침 |
precommit2 (10,000개) - 보문소 유형별 xx | commit2 (10,000) - 문어 장르 2차 xx | commit6 (811) - “xx” 문항 1차 xx |
commit3 (10,000) - xx 장르 xx | commit7 (945) - “xx” 문항 2차 xx |
1차 xx xx 단계(precommit0-1)에서는 무작위로 10,041건의 담화 구조(문어 1,837/xx 1,886/구어 6,318)를 xx하였다. precommit0은 xx 무작위로 추출한 것인 반면, precommit1은 대학원 석박사xx에 xx 중인 보xxx원과 박사급 xxx구원의 작업자 층위를 분리하여 xx하였다. 이는 작업자 층위 간에 적합한 xx 담화를 판별하는 경향성 이 존재하는지 파악하기 위함이다. 이를 토대로 xx 워크숍 또는 작업자 교육을 실시하였다.
1차 사전 작업에서는 무작위로 담화 구조를 선별하였기에 문어와 xx 의 xx 내포문의 비율이 10% 미만에 그쳤다. 내포문이 포함되는 xx에 서만 술어와 결합하여 xx의 확xxx 달라지는 xx를 발견할 수 있기 때문에, 무작위 선별은 xx 담화 수집에 xx 부적합한 방법임을 알 수 있다. 또한, 구어는 문장의 xx가 불완전한 구어적 생략이 빈번하였다. 2차 사전 작업에서는 이를 xx하기 위하여 보문소를 xx으로 확장된 담화 구조를 xx하였다.
2차 xx xx 단계(precommit2)에서는 198개의 보문소를 xx으로 확장된 담화 구조(문어 2,500/xx 2,500/구어 5,000)를 xx하였다. 보 문소는 내포절이 전체 문장(모문)의 xx이 되도록 만드는 요소이다. 따 라서 보문소를 xx으로 xx하면 내포절이 포함된 xx이 정확하게 추 출될 가능성이 높아진다.
<xx 1. | 보문소 목록> | ||||
ㄴ_가능성 | ㄴ_xx | ㄴ_지_ | 다는_뜻 | ㄹ_답 | 라"고_ |
ㄴ_xx | ㄴ_반성 | ㄴ_질문 | 다는_말 | ㄹ_뜻 | 라_ |
ㄴ_개념 | ㄴ_분위기 | ㄴ_처지 | 다는_비판 | ㄹ_xx | 라고_ |
ㄴ_거_ | ㄴ_비판 | ㄴ_태도 | 다는_사실 | ㄹ_말 | 라고는_ |
ㄴ_거라고_ | ㄴ_사건 | ㄴ_xx | 다는_생각 | ㄹ_맘 | 라고도_ |
ㄴ_걸_ | ㄴ_사례 | ㄴ_xx | 다는_xx | ㄹ_xx | 라는_개념 |
ㄴ_것_ | ㄴ_사실 | ㄴ_xx | 다는_xx | ㄹ_비판 | 라는_거 |
ㄴ_것도_ | ㄴ_xx | ㄴ_희망 | 다는_xx | ㄹ_사건 | 라는_걸_ |
ㄴ_것만_ | ㄴ_xx | ㄴ가_ | 다는_얘기 | ㄹ_사실 | 라는_것 |
ㄴ_것으로 | ㄴ_생각 | ㄴ가는_ | 다는_xx | ㄹ_xx | 라는_게_ |
ㄴ_것은_ | ㄴ_xx | ㄴ가를_ | 다는_xx | ㄹ_생각 | 라는_뜻 |
ㄴ_것을_ | ㄴ_xx | ㄴ지_ | 다는_의지 | ㄹ_xx | 라는_말 |
ㄴ_것이_ | ㄴ_xx | ㄴ지가_ | 다는_의혹 | ㄹ_xx | 라는_비판 |
ㄴ_것이라고_ | ㄴ_xx | ㄴ지는_ | 다는_이야기 | ㄹ_얘기 | 라는_사실 |
ㄴ_게_ | ㄴ_신념 | ㄴ지도_ | 다는_일 | ㄹ_xx | 라는_생각 |
ㄴ_견해 | ㄴ_xx | ㄴ지를_ | 다는_입장 | ㄹ_xx | 라는_얘기 |
ㄴ_결과 | ㄴ_얘기 | 나_ | 다는_주장 | ㄹ_예측 | 라는_xx |
ㄴ_xx | ㄴ_어려움 | 나를_ | 다를_ | ㄹ_의도 | 라를_ |
ㄴ_xx | ㄴ_xx | 냐"고 | ㄹ_가능성 | ㄹ_xx | ㅁ도_ |
ㄴ_경험 | ㄴ_예측 | 냐_ | ㄹ_xx | ㄹ_xx | ㅁ만_ |
ㄴ_xx | ㄴ_욕구 | 냐가_ | ㄹ_개념 | ㄹ_의지 | ㅁ으로_ |
ㄴ_권리 | ㄴ_욕망 | 냐고_ | ㄹ_거_ | ㄹ_이야기 | ㅁ은_ |
ㄴ_기능 | ㄴ_xx | 냐는_ | ㄹ_거라고_ | ㄹ_일 | ㅁ을_ |
ㄴ_기대 | ㄴ_의도 | 느냐_ | ㄹ_걸_ | ㄹ_입장 | ㅁ이_ |
ㄴ_xx | ㄴ_xx | 니_ | ㄹ_것_ | ㄹ_자세 | 마_ |
ㄴ_기쁨 | ㄴ_xx | 니가_ | ㄹ_것도_ | ㄹ_전제 | 으면_ |
ㄴ_xx | ㄴ_의사 | 니는_ | ㄹ_것만_ | ㄹ_주장 | 자_ |
ㄴ_xx | ㄴ_xx | 니도_ | ㄹ_것으로 | ㄹ_xx | 자고_ |
ㄴ_논리 | ㄴ_의지 | 니를_ | ㄹ_것은_ | ㄹ_줄_ | |
ㄴ_뉴스 | ㄴ_의혹 | 다"고_ | ㄹ_것을_ | ㄹ_줄은_ | |
ㄴ_느낌 | ㄴ_이야기 | 다_ | ㄹ_것이_ | ㄹ_줄을_ | |
ㄴ_답 | ㄴ_일 | 다”고_ | ㄹ_것이라고_ | ㄹ_xx | |
ㄴ_뜻 | ㄴ_입장 | 다고_ | ㄹ_게_ | ㄹ_확률 | |
ㄴ_xx | ㄴ_자세 | 다고는_ | ㄹ_xx | ㄹ_희망 |
또한 내포절이 함의하는 사실에 xx xx의 확xxx xx가 되기 때 문에, 이와 밀접한 xx을 맺는 국어적 요소들이 존재한다. 이러한 기능 을 하는 요소를 함의 취소 xx소라고 한다. 함의 취소 xx소는 xx의 확신성 판단에 xx을 미치는 핵심적 요소로, 내포절이 함의하는 xx에
xx 진리치를 바꿀 수 있다. 이를 xxx하면 크게 xx/xx/조건/양 xx 함의 취소 xx소가 있다.
<xx 2. 함의 취소 xx소의 예>
xx xx
조건
xx
xx
xx
비xx
xx
못, 안/아니, 없, -지 말/아니하/않-, -지(는) 못하-
-까, -ㄴ가, -ㄴ데-, -나, -냐, -잖아, -지 등(의문형 종결어미)
-(으)면(야), -(ㄴ)다/라면, 어/아도
-(으)ㄴ가 싶-, -(으)ㄴ/-(으)ㄹ 것 같-, -(으)ㄹ 것이-,
-(으)ㄴ/-(으)ㄹ 듯하 듯하-, -(으)ㄹ 수 있/없-, -(으)ㄹ
텐데, -(으)ㄹ지 모르-, -겠(추측)-, -(으)ㄴ xxx-, - 나 보-, -어/아 보이-
xx: -(으)ㄹ 필요가 있-, -(으)면 되-, -어야 되-, -어 야 하-
능력(가능/불가능): -(으)ㄹ 만하-, -(으)ㄹ 수 있/없-,
-(으)ㄹ 줄 알/모르-
의지: -겠-, -고 싶-, -고자 하-, -(으)려 하-
그러나 xx xx에서 함의 취소 xx소를 쉽게 발견하기 어려웠다는 점 을 파악했다. 이러한 점은 자동 xx으로 확신성 담화를 xx xx하기는 어렵다는 점을 시사하며, 후속 xx에서 xx 분류를 거치는 작업이 필요 함을 보여준다.
xxxx의 성과는 다음과 같다. (1) 작업자 층위간 경향성 파악 (2) 유 사 보문소의 목록 작성으로 내포문을 포함한 xx xx의 정확성 제고
(3) xx의 확신성 판단에 핵심적인 함의 취소 xx소의 파악이다.
2.2 본 xx
본 xx의 주요 목적은 후속 xx의 xx이 되는 xx 담화를 자동적 으로 수집하여 수동적으로 선별하는 것이다. 앞선 xx xx에서 고려한 198개 유사 보문소가 xx 이상 반드시 포함되는지 자동수집 및 수xx 별 단계에서 검수하였다. 보문소는 xx가 내포절이 생성하는 가설의 사 실성에 xx 태도를 나타내는 언어적 구조와 xx이 있으므로 반드시 포 함되어야 한다. 이와 xx 함의 취소 xx소는 xx의 확신성 xx와 x x 있는 xx적인 요소로, 포함되거나 포함되지 않을 수 있다.
예를 들어, ‘xx가 밥을 먹었는지 모르겠다’는 xx xx 함의 취소 xx소 ‘-는지 모르다’가 내포 xx에 대하여 xx가 확신하고 있지 못함 을 보여준다. 반대로, 함의 취소 xx소가 없더라도 ‘철수가 밥을 먹었다 고 생각한다’는 문장에서 화자의 확신성 태도가 드러난다. 이때, 보문소 ‘_다고 생각’은 생략될 수 없다.
이러한 양상에 기초하여, 자동 수집 단계에서 유사 보문소 목록과 함의 취소 운용소를 모두 포함하는 자동 검색 알고리즘을 작성하여 대상 담화 를 추출하였지만, 수동 선별 단계에서는 함의 취소 운용소가 아닌 보문소 도 다수 포함되도록 허용하였다. 단, 보문소는 반드시 포함되도록 선별하 였다.
본 추출 단계에서는 후속 공정의 목적에 따라 장르별 추출 (commit0~3)과 내포명제 추출 (commit4~7)로 구성된다. 확신성 담화를 추출할 때, 무작위로 추출하지 않고 국어학적 분석에 의거하여 보문소 목 록과 함의 취소 운용소 목록을 작성하여 타당하고 일관된 기준에 따라 추출하였다는 점이 본 사업 공정의 특징이다. 이러한 방법론은 향후 관련 말뭉치를 확장하고 후속 사업을 기획함에 있어서 효율성과 정확성을 높 일 수 있다는 점에서 효과적이다.
2.2.1. 장르별 추출 (commit0-3)
장르별 추출은 특정 문형 패턴의 빈번한 출현으로 인한 데이터 불균형 해소의 관점에서 4단계로 접근하였다. 이 외에 유사 보문소 또는 함의 취 소 운용소와 관련 있는 특정 문형 패턴이 별도로 관리할 필요가 있다고 판단되면, commit(number) 파일로 관리하였다. 예를 들어, 보문소 ‘- 줄’은 화자의 확신성과 관련하여 다른 보문소 또는 함의 취소 운용소와 구별되므로 별도로 관리하였다. 이는 장르별로 특정 보문소가 매우 빈번 하게 출현하는 반면, 나머지 보문소는 상대적으로 빈도가 낮다는 점에 착 안하였다.
‘commit0 (478개 사례)’는 보문소 ‘-줄’이 매우 특이한 문형 패턴을 형성하므로 샘플 데이터에서 별도로 작업할 필요가 있었다.
‘commit1 (51,882개 사례)’은 “문어 장르”에서 추출하였다. 문어 장르 는 책, 잡지, 보고서 등으로 구성되었으나 세부 장르별 불균형이 매우 심 하였다. 따라서 5만 건 이상의 사례를 추출하여 빈도가 적어 주변화된 세 부 장르를 고르게 추출하였다.
‘commit2 (10,000개 사례)’는 문어 장르 불균형성을 해소하기 위하여 분포를 다양하게 하였다. 또한 다른 장르에 대하여 데이터 균형성을 확보 하기 위하여 표준적 크기인 10,000개로 줄였다.
‘commit3 (10,000개 사례)’는 신문 장르에서 추출하였다. 그러나 신문 장르의 특징인 빈번한 직접 인용으로 인하여 보문소 “다고”의 비율이 매 우 높았다. 따라서 실험과 인공지능 평가에서 특정 문형 패턴에 과적합될 수 있다는 문제가 존재하였다.
2.2.2. 내포명제 추출 (commit4-7)
commit4-7의 4단계는 함의/중립/모순의 라벨 부착과 균형 분포를 고 려하여 내포 명제를 추출하는 것을 목적으로 하였다. 이는 언어 실험과 인공지능 평가에서 특정 응답 패턴이 반복되어 실험 참여자 또는 인공지 능 휴리스틱(heuristic)에 의존하는 부정적인 패턴을 발생시킬 수 있기 때문이었다.
‘commit4 (803개 사례)’는 추출-주석-실험-평가의 전체 한국어 함의 분석 공정을 수행하기 위하여 구성되었다. 확신성 실험의 수행을 위한 240개의 적합한 문형을 잠정적으로 추출하였다.
‘commit5 (1,114개 사례)’는 commit4와 동일한 목적에서 수행되었으 며 commit5_101-105로 회차별 실험에 적합하게 다시 세분화하였다. 또 한 향후 확신성 실험의 수행과 인공지능 자연어 이해 평가를 위한 문형 추출을 고려하여 별도의 사례별 지침 작성을 위한 기초 자료로 활용하였 다.
‘commit6 (811개 사례)’는 데이터 불균형을 보완하기 위해 추출된 파 일이다. 확신성 판단의 패턴 중 내포 명제가 모순 또는 거짓인 담화 사례 가 8% 내외로 매우 낮은 빈도로 발견되었다. 이러한 불균형을 해소하기 위해 내포 명제가 모순 또는 거짓인 대상 담화를 추가로 수집하였다.
‘commit7 (945개 사례)’는 내포 명제가 모순 또는 거짓인 담화 사례의 비율을 20% 이상으로 보충하기 위해 추가로 수집되었다.
위의 대상담화 수집 절차를 거쳐 향후 실험 공정 및 언어정보 부착, 그 리고 인공지능 평가의 기초 자료로 사용할 대상 담화를 국립국어원 말뭉 치에서 추출하였다.
<표 4. 확신성 담화의 추출 단계>
예비추출 | 본 추출 | |
샘플링 | 장르 추출 | 내포명제 추출 |
precommit0 (10,041) - 별도의 기준을 두지 않 음 | commit0 (478) - 보문소 “줄” 추출 | commit4 (803) - 실험 240 문항 추출 |
precommit1 (10,041) - 작업자 층위별 적합성을 기준으로 함. | commit1 (51,882) - 문어 장르 1차 추출 | commit5 (1,114) - 실험 문항 작업 및 지침 |
precommit2 (10,000개) - 보문소 유형별 추출 | commit2 (10,000) - 문어 장르 2차 추출 | commit6 (811) - “모순” 문항 1차 추출 |
commit3 (10,000) - 신문 장르 추출 | commit7 (945) - “모순” 문항 2차 추출 | |
commit8 (55,948) - 구어 장르 추출 | commit9 (500) - 구어 장르 1차 추출 | |
commit14 (502) - 문어 장르 추가 추출 | commit10 (157) - 구어 장르 “모순” 추출 | |
commit15 (503) - 문어 장르 추가 추출 | commit11 (500) - 구어 장르 3차 추출 | |
commit12 (500) - 구어 장르 4차 추출 | ||
commit13 (500) - 구어 장르 5차 추출 |
2.2.3. 구어장르 추출 (commit8-13)
구어 장르의 경우, 문어 및 신문 장르와 다른 특성으로 인해 별도의 방
식을 적용하여 추출을 진행하였다. 구어는 문어에 비해 짧은 길이로 구성 되고, 발화자가 교체되는 구어의 특성이 존재한다. 이러한 상황에서 보문 소가 등장하는 담화의 문맥을 정확히 파악하기 위해, 대상 담화 이전 10 개의 문장과 이후 10개의 문장을 수집하였다.
‘commit8 (55,948개 사례)’는 국립국어원 구어 말뭉치를 대상으로 보 문소가 등장하는 문장을 추출하였다. 구어 장르에서 확신성 담화를 추출 하는 문제에 대해 다각적으로 탐지하기 위해 5만 건 이상의 사례를 추출 하여 확신성 담화의 유형을 살폈다.
‘commit9 (500개 사례)’는 구어 장르에서 이전 문맥의 파악 및 생략된 문맥의 복원 문제에 중점을 두고 수집하였다.
‘commit10 (157개 사례)’는 구어 장르의 모순 유형을 중점으로 수집하 여 그 특성을 살폈다.
‘commit11 (500개 사례)’는 구어 장르의 보문소 유형 및 분포에 대해 파악하기 위해 수집하였다.
‘commit12 (500개 사례)’는 수집한 문장에서 나타나는 정치적, 사회적 문제에 대한 스크리닝을 중점으로 수집하였다.
‘commit13 (500개 사례)’는 앞선 수집에서 등장한 문제를 다각적으로 살펴 실험이 가능한 문형 수집을 위한 목적으로 수집하였다.
2.2.4. 문어 추가추출 (commit14-15)
실험 및 정제 과정에서 문어 장르에 대해 정제한 결과, 특정 보문소별 로 충분한 수가 확보되지 않아, 빈도가 적게 등장한 보문소를 대상으로 기반으로 문어 추가추출을 진행하였다. ‘commit14 (502개 사례)’와 ‘commit15 (503개 사례)’ 모두 문어 장르의 보문소 편향을 완화하기 위 해 동일한 방식으로 수집하였다.
3. 확신성 담화의 주석 작업
3.1. 주석 작업자 교육
작업자 교육은 확신성 언어 정보 부착에 대한 기본적 이론을 익히고 작업 지침을 숙지하는 것뿐만 아니라, 작업자가 워크벤치를 이용하여 직 접 정보 부착 작업을 해 볼 수 있도록 국어학 전문가와 함께 실습하였다. 교육은 총 두 번의 워크숍을 통해 진행되었다. 작업자가 본격적인 작업에 들어가기에 앞서 국어학 전문가와 함께 실시한 Intensive 1-day Workshop에서는 확신성 언어 정보에 해당되는 시제, 인칭, 함의취소운 용소에 대한 기본적 이론을 중심으로 교육이 이루어졌다. 전문가와 함께 실제 워크벤치에서 다양한 예문을 이용하여 정보를 부착하며 작업에 대 한 이해도를 높였다.
또한, 함의 분석 사업 준비 단계 또는 화자의 확신성 담화를 추출하는 예비 샘플링 절차에 참여하였던 경험을 보완하였다. 이는 사업단 내부 워 크숍을 수 회 개최하는 방식으로 이루어졌다. 워크숍의 목적은 작업자의 직관 차이로 인해 발생할 수 있는 오류를 최소한으로 하기 위함이다. 이 를 위해 의견 공유 및 논의 시간을 갖고 전문가의 판단하에 정보부착 지 침을 마련하였다. 예시로, 내포절과 모절의 시제와 시제소 정보를 부착할 때, 시제와 시제소 내포명제를 기준으로 정보를 부착할 것인지, 혹은 대 상 문장 그대로의 형태를 기준으로 할 것인지에 대하여 작업자들의 기준 이 상이하였기 때문에 상위 작업자(박사급 공동연구원)의 지침을 숙지하 고 이행하였다. 이러한 워크숍 참여를 토대로 박사급 공동연구원과의 충 분한 논의 후 시제는 내포명제를 기준으로, 시제소는 형태를 기준으로 정 보를 부착한다는 기준을 세울 수 있었다. 이를 바탕으로 작업 결과물 중 간 점검 및 품질 관리를 위한 ‘Interim Check Workshop’을 실시했다.
박사급 공동연구원이 지금까지의 작업 결과물을 살펴보고 작업자에게 개선해야 할 부분을 설명하였다. 이후에는 각 작업자가 언어 정보 부착 작업을 진행하며 메모한 의문점 및 특이사항을 바탕으로 전문가에게 질 문하고 전문가는 이에 대해 답변을 하며 작업자들이 이후 언어정보 부착 작업을 진행할 때 숙지할 지침을 다시 한번 강화하였다.
3.2. 온라인 주석 작업 환경
주석 작업은 온라인 환경에서 제공하는 워크벤치에서 작업 공정이 진 행되었다. 아래의 그림은 온라인 워크벤치의 구성을 보여준다.
<그림 3. 온라인 워크벤치 (담화 사례 주석)>
내포 구문 해당 여부에 대하여 ‘해당 없음’ 버튼을 추가하여, 추출된 담 화 사례가 확신성 판단에 적합한지 먼저 판단할 수 있도록 하였다. ‘해당 함’의 버튼을 누르면 보문 술어, 내포 명제, 확신성 관계 등 추가적인 주 석 정보를 선택할 수 있도록 하였다.
마지막으로 가장 마지막 항목에서 ‘다음 문장’을 선택하거나, 가장 첫 항목에서 ‘이전 문장’을 선택하는 경우, 그리고 등록되지 않은 index로 이동하는 경우 빈 페이지로 이동하며, 그 이후 오류가 발생하게 되는데, 이러한 경우에 예외 처리를 하였다.
3.3. 주석 결과물
아래의 도표는 온라인 워크벤치에서 작업된 결과물을 도표로 나타낸 것이다. 온라인 워크벤치에서 내포 구문 해당 여부가 ‘해당함’으로 체크 된 사례만 추가적인 담화 사례 주석을 진행하였다. 좌측의 열은 대상 담 화의 메타 정보를 나타내고, 우측의 열은 실제 작업 결과물의 내용이다. 모든 작업 결과는 .csv 파일 형태로 저장되고 추후 .json 파일 등으로 변 환될 수 있다.
<표 4. 담화 사례 주석의 항목과 내용>
idx | NLRW2000000013.334 |
genre | 문어 |
prev | 아파트에 사는 광주와 전남 서민들이 다른 지역에 비해 높은 월세 부담에 시달리고 있는 것으로 나타났다. 광주·전남지역 아파트 전 월세 전환율이 전국에서 가장 높은 수준을 기록했기 때문이다. 특 히 전남지역의 아파트 전월세 전환율은 전국 최고를 기록했다. |
current | 한국감정원이 2018년 11월 신고 기준 실거래 정보를 활용해 전월 세 전환율을 산정한 결과, 전국 주택종합 전월세 전환율은 6.1%로 전달에 비해 소폭 하락했다고 11일 밝혔다. |
next | 유형별로는 아파트 4.7%, 연립다세대주택 5.7%, 단독주택 7.5% 순이었고 지역별로는 수도권 5.7%, 지방 7.2%로 조사됐다. 전월세 |
전환율은 전세금을 월세로 전환할 때 적용되는 비율로, 이 비율이 높으면 전세에 비해 상대적으로 월세 부담이 높다는 의미이며 낮 으면 반대이다. 다만, 전월세 전환율 상승(하락 또는 보합)이 절대 적인 월세부담 증가(감소 또는 보합)를 의미하는 것은 아니다. | |
pred | 밝히다 |
comp | 다고_ |
context+target | 특히 전남지역의 아파트 전월세 전환율은 전국 최고를 기록했다. 한국감정원이 2018년 11월 신고 기준 실거래 정보를 활용해 전월 세 전환율을 산정한 결과, 전국 주택종합 전월세 전환율은 6.1%로 전달에 비해 소폭 하락했다고 11일 밝혔다. 유형별로는 아파트 4.7%, 연립다세대주택 5.7%, 단독주택 7.5% 순이었고 지역별로는 수도권 5.7%, 지방 7.2%로 조사됐다. |
prop | 전국 주택종합 전월세 전환율은 2018년 11월에 6.1%로 전달에 비 해 소폭 하락했다 |
reLation | 함의 |
담화 구조에 대한 정보는 (1) 고유번호(idx) (2) 장르 (genre) (3) 선행 문맥 (prev) (4) 대상 문장(current) (5) 후행 문맥(next) (5) 모절 술어 (pred) (6) 보문소 (comp) (7) 선후행 맥락을 연결한 대상 문장 (context+target) (8) 내포 명제(prop) (9) 확신성 관계(relation)를 포함 하고 있다.
3.4. 주석 검증 절차
담화 사례 주석 작업의 정확성과 신뢰성을 확보하기 위하여 1차 주석 작업 이후에 작업자간 교차 검증 절차를 수행하였다. 교차 검증은 이전 작업자의 작업물을 전수로 재검수하는 방식으로 진행되었다. 검증 절차는 크게 세 단계로 나뉜다. 먼저 A작업자가 1차 작업을 수행한다. 1차 작업 중에 발생하는 의문 및 추가적인 검증이 필요할 것으로 판단되는 사례에 ‘확인 요망’ 또는 ‘민감 사안’과 같은 별도의 표시를 한 후 그 이유를 작 성하였다.
<그림 4. 주석 검증 절차 >
1차 작업을 마치면, B작업자가 동일한 자료를 대상으로 교차 검증을 수행하였다. 교차 검증 시, B작업자는 A작업자와 의견이 불일치하거나 여전히 추가적인 검증이 더 필요할 것으로 판단되는 사례에 1차 작업과 동일하게 별도의 표시를 한 후 그 이유를 작성하였다. 이러한 교차검증 과정을 체계화하여 매 워크벤치마다 이전 작업의 교차검증 작업자와는 다른 작업자를 배정하였다.
이후 두 작업자가 검증한 자료를 상위 층위의 검수자(박사급 공동연구 원)가 마지막으로 검수하는 절차를 거치며 이전의 작업자 간의 의견에 차 이가 있는 부분 또는 추가 검증이 필요한 부분에 대해 따로 판단하여 주 석 작업의 결과를 선택하였다. 즉, 이와 같은 세 단계를 과정을 통해 복 수의 작업자가 동일한 자료에 대한 분석을 수행하여 그 결과를 통합하였 다.
<표 5. 담화 사례 주석 검증 예시>
대상 문장 | 1차 작업자 메모 | 검증 내용 |
특히 이웃까지 다 들릴 큰 | 매를 맞을 줄 알았는데 | |
소리로 그들 형제를 방 안 | 뒷 문맥에서 매를 맞지 | * 검수 의견: 저 문장만 |
에 몰아 놓고 뒤따라 들어 | 않았음을 확인할 수 있 | 봐서는 중립이 맞는 것 같 |
올 때는 금세 매가 그의 ⑨ | 어서 관계를 모순으로 | 지만 뒷 문맥을 참고한다 |
허리에 떨어지ㄹ | 하였습니다만 다른 분의 | 면 모순으로 보는 것이 맞 |
/ V V + E T M ; _ / S Y ; 줄 | 의견도 필요할 듯 하여 | 는 것 같습니다. |
/NNG;_/SY;알았다. | 메모 남깁니다. | |
합산규제 연장 여부에 따라 | ||
인수합병(&) 판도가 달라질 | * 검수 의견: ~한 것이 아 | |
것으로 예상되는 가운데 합 | 니냐 의 경우는 아니다 로 | |
산규제가 자칫 유튜브나 넷 | 내포명제와 관계에 확신 | 내포명제를 설정할 수 없 |
플릭스 ⑨과의 경⑨을 제한 | 이 없어 메모 남깁니다. | 다고 생각함. 제한하다 로 |
하는 것 아니냐/EC;는 | 끝나야지 더 자연스러운 | |
/JX;_/SY;지적이 나온다. | 것 같습니다. |
4. 확신성 담화의 구축 지침 보완 방안
4.1. 지침 신구대조표
본 사업은 ‘2020년 함의 분석 및 연구’와 유사한 성격을 지니고 있으 나, 기존의 지침 내용을 변경하고 새롭게 규정하고 있다. <표 6.>에서는 주요 변경점 및 신규 내용이 요약되어 있다.1)
<표 6. 20년과 21년 지침 신구대조표>
20년 지침 | 21년 지침 | |
분석 대상 구조와 탐색 | (1) 시범 탐색 단계에서 ‘국립국어원 신문 말뭉치’ 6만 문장을 사용한다. (2) 대상 문장은 I) 내포절, ii) 보문소, iii) 모문 술어, iv) 함의취소운용소를 포함한다. | (1) (변동) 시범 탐색과 본 과업에서 동일하 게 장르의 균형성을 고려하여 문어, 신문, 구어 장르에서 추출한다. (2) (변동) 모절에 함의취소운용소는 포함되 지 않을 수 있다. |
분석 대상의 수 | 본 연구 과제의 목표는 내포절의 (비)사실 성 함의에 있어서 화자의 확신성에 영향을 주는 요인을 분석하고 1,800개의 문장으로 구성된 “한국어 확신성 말뭉치”를 구축하는 데 있다. | (변동) 본 연구 과제의 목표는 기존 사업을 보완하고, 1,500개 이상의 담화에 화자의 확신성 실험 결과를 포함여 말뭉치를 새롭 게 구축하는데 있다. |
(1) 보문소: 본 연구 과제에서는 문헌을 기 반으로 (비)사실성 구조를 구성하는 보문소 의 종류와 표기 형태를 다음 6가지로 한정 | (1) (변동) 보문소: 1차 연구보다 다양한 유 형(총 198개)의 보문소를 선정하여 다양한 한국어의 언어 사용을 반영한다. 보문소와 |
1) 보다 자세한 지침과 사례는 붙임 1.에서 부연하였다.
하여 사용한다. | 술어의 유형을 가급적 제한하지 않고, 내포 절에 대한 화자의 확신성을 담은 용례를 최 대한 다양하게 포착한다. (2) (변동) 1차 연구보다 넓은 맥락을 고려 하여 내포문 명제의 화자 확신성을 추론한 정보를 부착함으로써 문장을 넘어서는 맥락 이 내포문의 명제(가설)에 대한 확신성에 영 향을 미치는 경우까지 반영한다. | |
-음/ㅁ, -기, 것을, 것으로, -다고/라고, 줄 | ||
(2) 모문 술어: 사실성 여부를 기준으로 다 음 3가지로 나누어 쓴다. | ||
대상 담화의 보문소와 모문 술어 구조 | ① 사실성 술어 기억하다, 깨닫다, 발견하다, 밝히다, 이해 하다, 잊다, 지적하다, 확인하다, 후회하다 ② 비(非)사실성 술어 | |
받아들이다, 보다, 보이다, 생각하다, 알다, 여기다, 인정하다, 주장하다, 확신하다 | ||
③ 반(反)사실성 술어 | ||
기대하다, 당부하다, 믿다, 바라다, 예상하 다, 요구하다, 원하다, 착각하다, 희망하다 | ||
대상 담화의 맥락 구조 | (1) 대상 담화는 선행 문장과 대상 문장으 로 구성되어 있다. 선행 문장은 확신성을 판단하는데 영향을 미치는 경우에 한하여 제시한다. 최대 2개의 선행 문장을 제시할 수 있다. (2) 내포 명제는 대상 문장을 단문으로 바 꾼 것을 말한다. | (1-1) (변동) 대상 담화는 대상 문장과 선행 문장, 그리고 후행 문장 또한 포함한다. (1-2) (변동) 선행 문장과 후행 문장의 길이 를 장르별로 달리하여 제시한다. 문어는 3 문장까지 제시하고, 구어는 5~10문장까지 제시한다. (2) 변동 없음 |
대상 문장 선정 원칙 | (1) 모절에 함의 취소 운용소를 포함하는 내포문일 것 | (1) (변동) 모절에 함의취소운용소는 포함되 지 않을 수 있다. |
(2) 술어가 인용문, 관형절을 형성하고 있 어 함의 관계가 파악에 문제가 있는 문장 은 제외한다. (3) 난해하거나 부자연스러운 문장은 제외 한다. | (2-1) (신규) 부가절, 의사관계절, 의문사절, 낯선 옛글 또한 제외한다. 또한 장르별로 판 단을 달리할 수 있다. (2-2) 정보구조는 선후행 문장(문어 3문장, 구어 5~10 문장)을 참조하여 보강할 수 있 으면 제외하지 않고 사용한다. | |
(3) 변동 없음 | ||
내포 명제 기술 원칙: 오류, 복원, 인칭대명사, 대용어 | (1) 주어, 술어 및 문장 성분은 그대로 기 술하되, 맞춤법과 기호 사용 오류는 수정한 다. (2) 내포 명제의 주어가 없는 경우, 문맥 상 예측할 수 있는 선행 주어를 복원한다. 논항이 아닌 부가어는 제거할 수 있다. (3) 1⋅2인칭 대명사 ‘나’ 또는 ‘너’는 나 (필자), 나(화자), 너(청자), 나(사람이름), 너 (사람이름) 등으로 기술한다. 또는 대명사가 생략된 사례에 한정하여 직접적으로 ‘청자’ 를 복원할 수 있다. 다만, ‘우리’는 괄호 속 에 병기하지 않을 수 있다. 또한 구어 장르 와 달리 문어 장르는 2인칭 대명사가 독자 를 가리키므로 당신(청자 또는 독자)로 기 술하지 않는다. | (1) 대상 문장은 맞춤법과 기호 사용 오류 또한 그대로 두는 것을 원칙으로 한다. 대상 문장에서 생성된 내포 명제는 확신성 평가 에 사용되므로 오류를 수정한다. (2) (변동) 선행 주어와 선행 목적어를 복원 한다. 논항이 아닌 부사어나 수식어 또한 복 원한다. 주격 표지 ‘은/는’ ‘이/가’는 복원 과정에서 가장 자연스러운 것으로 한다. (3) (변동) 재귀사 ‘자기, 자신’은 선행어에 서 복원하되, ‘나, 너, 우리, 그’는 복원하지 않는 것을 원칙으로 한다. 단, 확신성을 파 악하기 어려운 경우 복원할 수 있다. ‘청자’ 와 ‘독자’는 모두 괄호 속에 병기하지 않는 다. 의인화된 문장은 제외한다. |
설문 조사 또는 언어 실험 | (1) 7점 척도를 사용한다 (-3 ~ +3). (2) 시험 공정은 말뭉치에서 추출한 100문 항과 인위적으로 생성한 344문항을 대상으 로 24명의 참여자가 설문 조사를 하였다. 설문 시간은 세트당 30분으로 한다. (3) 응답 세트는 본 문항 20개, 통제 문항 | (1) (변동) 리커트 7점 척도를 사용한다(1 ~ 7). 1은 확신성이 매우 낮은 것을 가리키며, 7은 확신성이 매우 높은 것을 가리킨다. (2) (변동) 기관윤리위원회의 심의 대상에 해당하므로 IRB 승인을 받았다. 참여자의 적격성 또는 “성실도”를 확인하기 위하여 |
3개로 구성되어 있다. 문어, 신문, 구어 장 르를 포괄하여 총 90세트이다. 각 세트별로 8명에서 20명 내외의 응답을 수집하였고, 총 응답자 수는 844명이다. 다만, 108명의 응답은 제외되어 최종적으로 736명의 응답 을 유효응답으로 하였다. (4) 기초통계분석(평균, 표준편차 등)외에 크리펜도르프 알파(Kripendorff’s aLpha)를 사용하여 응답자 신뢰성 분석을 한다. | 119명의 대상자에게 48개의 필러(fiLLer) 문 항을 풀게 하였다. 최종적으로 60명이 선정 되었다. 피로효과(fatigue effect)를 고려하 여 세트당 20분의 설문 시간을 두었다. (3) (변동) 응답 세트는 40~50개 문항으로 구성되어 있다. 응답자는 최종적으로 선정된 60명이며, 예비 설문을 풀고, 설문에 대한 해설과 사례를 교육받았다. 응답자는 무작위 로 20명으로 구성된 3개 그룹으로 나뉘어, 응답 세트를 풀도록 하였다. 응답자의 평균 응답 시간은 15분 내외로 측정되었다. (4) (변동) 기초통계분석(평균, 표준편차 등) 외에 급내상관계수(IntracLass correLation coefficient)를 사용하여 응답자 신뢰성 분 석을 한다. | |
언어 정보 주석 지침: 시제, 인칭, 함의취소 운용소 | (1) 모절 술어와 내포절 술어의 형태 (morph)를 기준으로 시제 정보를 부착한 다. 이형태(allomorph)를 구별하지 않는다. 의문형 종결어미는 시제소를 주석하지 않는 다. (2) 모절과 내포절의 인칭이 일치하는지 Y/N으로 주석한다. 주어가 표면에 드러나 지 않는 일반칭은 1인칭과 동일한 [1] 값 을, 필자/화자가 배제되는 경우는 3인칭과 동일한 [3]값을 부착한다. (3) 모절의 함의취소운용소 정보, 즉 ‘부정, 의문, 조건, 양태’ 정보를 부착한다. 함의취 소운용소정보가 중첩되는 경우 ,(쉼표)를 사 용한다 예: [부정, 의문]. | (1) 작년도 지침을 준용하여 변동은 없으나, 온라인 워크벤치에서 시제 목록을 보여주고 작업자가 적합한 시제를 선택하도록 한다. (2) (변동) 주어가 표면에 드러나지 않으면 복원하여 인칭을 주석하도록 하고, 복원할 수 없으면 ‘알 수 없음’으로 둔다. 마찬가지 로 인칭 목록을 먼저 제시하여 작업 오류를 방지한다. (3) (변동) 모절의 함의취소운용소는 수의적 인 정보이므로, 함의취소운용소가 있으면 그 종류를 표기하고, 없으면 ‘없음’으로 둔다. 함의취소운용소 정보가 중첩되면 +(덧셈)를 사용한다 예: [부정 + 의문]. |
4.2. 내포 명제 기술 원칙 (붙임 참조)
확신성 담화의 구축 지침은 ‘2020년 함의 분석 및 연구’ 사업에서 제 안된 구축 지침의 미비점을 보완하고, 보다 세밀하게 작성하였다. 지침 제안 사항은 내포 명제 기술 원칙과 관련하여 ‘오류’, ‘복원’, ‘인칭대명 사’를 중심으로 유형을 정리하고 기술하였다. 주요 용어 설명과 자세한 기술 원칙, 그리고 구체적인 사례는 붙임에 정리하였다.
4.3. 주요 내포 명제 기술 사례 (붙임 참조)
아래 사례는 내포 명제를 기술하는 방법론 중 (1) 오류, (2) 복원, (3) 인칭대명사와 관련된 기술 지침과 사례(문어 장르)들을 일부 소개하였다. 오류는 맞춤법 오류(한국(O), 헌국(X)), 잘못된 띄어쓰기(한국(O), 한 국
(X)), 인코딩 오류(한국(O), ⊡ (X)) 등을 말한다. 복원은 대상 문장에
포함된 대명사(이 책, 그 물건, 저것 등)가 가리키는 것을 선후행 문장에 서 가져와 바꿔쓰는 것을 말한다. 인칭대명사(그, 그녀 등) 또한 선후행 문장에서 해당 대명사가 가리키는 인물을 말한다.
4.3.1. 오류
◆ 맞춤법 오류, 띄어쓰기, 기호 사용 오류 등은 모델의 견고성 측면에서 오타를 임의로 수정하거나 배제하지 않는 것을 제안한다. 자연어 텍스트 환경에서도 오타가 존재하기 때 문이다.
<오류 사례 1: 맞춤법 오류>
<대상 문장>
하지만 A조합원장은 부숙토를 나눠주면서 전체 조합원들을 대상으로 공지하지 않아 특
<내포 명제>
부숙토를 나눠주면서 특정 조합원에게 특혜를 줬다.
정 조합원에게 특혜를 줬다 의혹을 하고 있다.
<오류 사례 2: 띄어쓰기>
<내포 명제>
삼성그룹의 이건희 회장은 매년 시간만 나면 일 본으로 새로운 사업을 구상하러 간다.
<대상 문장>
일본도쿄는 국내 유명 최고경영인들이 자료수집이나 휴가차 방문하는 도시이다. 특히 삼성그룹의 이건희 회장은 매년 시간만 나면 일 본으로 새로운 사업을 구상하러 간다고 한다.
◆ 단, 아래의 사례처럼 실험 문항에 포함될 수 있는 내포 명제에 오타가 발생하는 경우는 오타를 수정할 것을 제안한다.
<오류 사례 3: 맞춤법 오류>
<내포 명제>
100여편의 작품 중 다수의 우수작품들이 독특한 심상을 가지고 있어 우열을 가리기 어 렵다.
<대상 문장>
100여편의 작품 중 다수의 우수작품들이 독특한 심상을 가지고 있어 우열을 가리기 어 렸다고 전하면서 최종적으로 김용옥 수필가 겸 시인 작품‘지혜의 발견’수필을 선정했다.
4.3.2. 복원
◆ 내포 명제는 다음과 같은 방식으로 주어와 술어 및 다른 문장 성분을 가급적 그대로
기술하는 것을 원칙으로 할 것을 제안한다.
<복원 사례 1>
<내포 명제>
언어는 소통을 위한 도구이다.
<대상 문장>
성조와 발음이 아무리 중요하다고 해도 ‘언어는 소통을 위한 도구’임을 기억하면 문제 는 의외로 쉽게 풀린다
<복원 사례 2>
<내포 명제>
연초에는 지금과 정반대의 상황이 벌어졌다.
<대상 문장>
연초에는 지금과 정반대의 상황이 벌어졌던 것을 기억할 것이다.
◆ 대상 문장의 내포절에 주어가 없어 명제 내용을 파악하기 어려운 경우에는 문맥상 예 측할 수 있는 선행 주어를 복원하여 제시한다.
<복원 사례 3: 내포절의 주어 없음>
<내포 명제>
노동자들이 참다 못해 노조를 만들었지만, 한 달 만에 직장을 잃었다
<대상 문장2)>
참다 못해 노조를 만들었지만, 한 달 만에 직장을 잃었다"고 했다.
2) <선행 문장> 해고를 당한 노동자들은 "아사히글라스에서 일하는 9년 동안 최저임금 수 준만 받으면서 기계처럼 일했다
4.3.2. 인칭 대명사
◆ 내포절에 제시된 인칭 대명사의 선행어를 대상 담화에서 찾을 수 있는 경우에 는 선행어를 복원한다.
<인칭대명사 사례 1: 선행어 복원>
<내포 명제>
인간들의 마음속에 행복이 숨겨져 있다.
<대상 담화>
아무리 머리가 비상하고 탐험정신이 강한 인간들이라고 해도 자기들의 마음속에 행복이
···························································· 숨겨져 있다는 것을 깨닫기는 어려울 것이오.
<인칭대명사 사례 2: 선행어 복원>
<내포 명제>
한봉주는 병호의 요구를 피할 수 없다.
<대상 문장3)>
이제 그는 병호의 요구를 피할 수 없음을 깨달은 것 같았다.
◆ ‘자기’, ‘자신’ 등의 인칭 대명사의 선행어는 대상 담화에서 찾을 수 있는 경우 에는 선행어를 복원한다.
<대상 문장4)>
얼른 자신의 추태를 추스르고 지금까지 그 <재미있던 일>을 생각하고 있던 것처럼 얼
3) <선행 문장> 이 말에 한봉주는 한참동안 입을 다물었다.
<내포 명제>
미레야는 지금까지 그 <재미있던 일>을 생각하고 있었다.
버무리면서,이번에는 정말로 <재미있던 일>을 생각하기 시작했다.
위의 사례들은 향후 말뭉치 구축 과정에서 발생하는 오류를 일관되게 처리하고, 구축되는 말뭉치의 품질을 향상시킬 수 있다. 또한 대규모 말 뭉치 구축에 필요한 작업자 교육 자료로 활용 가능하다. 보다 구체적인 사례와 자세한 지침은 붙임에 기술하였다.
4) <선행 문장> 「미레야 씨?」 의아해하는 유트의 목소리에,미레야는 혼자 실실 웃고 있 던 것을 깨닫고 얼굴을 붉혔다. 「에,재미있던 일이라……
제 3 장 확신성 언어 실험
1. 확신성 실험의 대상과 범위
사업의 범위에는 일반 언어 사용자 대상 실험을 통해 내포문을 기반으 로 생성한 가설에 대하여 화자가 확신하는 정도를 점수화하는 것이 포함 된다. 또한 일반 언어 사용자 8명 이상, 평가 척도 7단계 이상으로 평가 하여야 한다. 그리고 관련 실험 결과 및 분석 방법론을 구체적으로 제시 하는 것이 포함된다.
이에 따라 본 사업은 수집된 대상 담화 1,650건(과업 요구량 대비 10% 추가 실험)을 실험에 적합한 형태의 가설로 변형하여 일반 언어 사 용자의 확신성 판단을 점수화하였다. 또한 일반 언어 사용자 60명(미응답 자 2명 제외)을 모집하여, 7단계 리커트 척도로 평가하였다. 60명은 한국 어가 모국어인 피험자이다. 피험자를 20명 내외의 3개 그룹으로 나누어, 각 그룹은 실험을 병진적으로 실시하였다. 그리고 관련 실험은 실험통사 론을 전공한 박사급 공동연구원이 설계하여 예비 실험과 본 실험을 진행 하였다.
관련 선행 연구인 Marneffe et al. 2019에 따르면 영어의 전제투사 원 리가 모절의 술어적 선택과 함께 화용론적 상호작용에 의하여 복잡한 양 상이 나타난다고 밝혔다. 이 때문에 영어의 사례에서는, 화자의 확신성 점수 또는 판단은 양극단에 치우치지 않고, 점진적으로 증가하거나 감소 하는 형태를 보였다.구체적으로는 내포 명제(가설)가 진리값 또는 사실성 이 거짓이거나 참이라도 화자의 확신성은 술어의 선택에 따라 다소 모호 한 태도로 나타날 수 있다. 예를 들어, “I know that John liked Mary” 와 “I suspected that John liked Mary”은 내포 명제 “John liked Mary”의 사실성에 대한 다른 태도를 취하고 있다. 또한 맥락에 영향을 주는 통사적 요소들, 인칭, 시제 등이 이러한 태도에 영향을 주는 것으로 나타났다. 특히, Marneffe et al. 2019는 영어 사용자의 확신성을 대규 모 언어 실험을 통해 포착하였다.
본 사업은 이에 착안하여 한국어의 문장 구조와 사용자의 특성에 적합 한 확신성 실험을 설계하고 대규모 실험을 수행하였다. 또한 관련 문항 설계 지침과 실험 수행 지침을 구체적으로 사례와 함께 정리하였다. 이와 관련하여 한국어의 확신성 판단이 어떠한 양상을 보이는지가 본 사업의 범위에 포함된다. 따라서 관련 통계분석을 진행하였다. 특히, 엄격한 통 계분석 방법은 급내상관계수를 활용하여 한국어 언어 사용자별, 그리고 문항별 응답 패턴의 신뢰성을 분석하였다.
2. 확신성 실험의 수행 지침 및 사례
2.1. 예비 실험 수행 절차
본 실험을 수행하기 이전에 확신성 판단 실험 설계를 수행하고 공정의 효율성을 도모하기 위해 예비 실험을 수행하였다. 예비 실험의 목적은 60명 이상의 확신성 판단 실험 참여자의 사전교육을 수행하고, 사전에 미응답자 또는 실험에 소극적인 참여자를 제외하기 위함이다. 본 사업은 9개의 예비 샘플 문항을 설계하여 60명의 실험 참여자 인원을 확정하고
2명의 참여희망자는 본 실험에서 제외하였다.
예비 샘플 문항은 각 함의 관계가 동일한 비율로 함의/중립/모순 각 세 문항이 선택되었다. 이는 후속 공정에서 내포 명제의 사실성에 대한 화자의 확신성이 어떠한 패턴으로 나타나는지 파악하기 위함이다. 이후 별도의 해설을 피실험자에게 제공하였다. 아래는 9개의 예비 실험 문항 중, 각각 ‘함의’ 관계와 ‘모순’ 관계에 대한 문항 예시들이다.
< 문항 예시 1 >
[문맥] 귀사는 자율규제단체를 통한 개인정보보호 자율규제 정책이 행정안전부 고시 「
개인정보보호 자율규제단체 지정 등에 관한 규정」을 통해 시행되고 있음을 알고 있습
니까?
[질문] 다음 문장에 대해 필자는 어느 정도로 확신한다고 생각하십니까?
자율규제단체를 통한 개인정보보호 자율규제 정책이 행정안전부 고시 「개인정보보호 자율규제단체 지정 등에 관한 규정」을 통해 시행되고 있다.
[라벨] 함의 [예상 점수] 5-7
[해설]
문항 1의 필자는 주어진 문장 “자율규제단체를 통한…”을 알고 있는지 질문하고 있습 니다. 여기서 필자는 법률 규정이 실제 시행되고 있고, 이러한 사실을 알고 있는지 묻는 의도를 가지고 있습니다. 따라서 필자는 주어진 문장이 사실임을 확신한다고 볼
수 있습니다.
[구성의도]
본 문항의 모절의 진실적(veridical) 응답(responsive)술어 알다(know)는 함의취소운 용소 “-ㅂ니까?”와 결합하였다. 또한 (비)사실성(veridicality) 술어와 연관성이 높은 보문소 “-음/ㅁ”과 결합하고 있다. 이 때, 화자(i.e., the holder of an attitude)가 “-음/ㅁ”이 이끄는 내포절의 명제에 대하여 진실한 답(true answer)을 알고 있다고 볼 근거가 문맥에 있다. 단, 내포절의 주어와 모절의 주어 “귀사”는 일치하지 않는다.
본 문항은 행정청의 시행령에 관한 이해당사자의 인식 수준을 조사하기 위한 설문조 사에서 추출되었다. 따라서 필자의 질문은 위의 「개인정보보호 자율규제단체 지정 등 에 관한 규정」이 적법하게 고시되어 구속력이 있음을 전제한다. 그러나, 응답자는 (1) 필자(내포절의 주어, 행안부) 가 누구인가를 유추하는 과정 또는 (2) 의문문의 통사적 형태가 확신성을 저해한다고 응답자가 추론할 수 있다는 점에서 확신성 판단이 유보 될 수 있다. 그러나 내포절에 대한 필자의 태도는 모호하거나 거짓임을 전제하지 않
으므로, 1-4점을 부여한 응답자는 실험문항을 구성의도와 다르게 해석한 것이다.
<문항 예시 2>
[문맥] 7월이 되니 날이 급하게 더워졌다. 습기로 가만히만 있어도 온몸이 축축했다.
여름에는 꽃이 별로 없을 줄 알았다. 집집마다 담장 아래 접시꽃이 한창이다. [질문] 다음 문장에 대해 필자는 어느 정도로 확신한다고 생각하십니까? 여름에는 꽃이 별로 없다
[라벨] 모순
[예상 점수] 1-3
[구성의도]
모절의 진실적 응답술어 “-알다”와 의문 보문소 “-줄”이 결합하였다. 화자는 내포절 의 명제가 거짓임을 알고 있으므로 사실성이 있다.
일간지의 수필 기고면에서 변형없이 그대로 추출하였다.
[해설]
필자는 여름에 꽃이 피지 않는다고 생각했지만 실제로 7월의 무더위를 겪어보니 집집 마다 꽃이 피어있는 경험을 했습니다. 때문에 주어진 “여름에는 꽃이 별로 없다”가 거짓이라고 확신하고 있다고 볼 수 있습니다. 이 때, 근거는 주어진 문장 뒤에 이어
지는 “집집마다 담장 아래 접시꽃이 한창이다”이다 입니다.
위의 사례를 포함한 9개 문항에 대하여 62명의 실험 참여 희망자가 응 답하였다. 사후 기술통계 분석을 실시한 결과, 아래의 도표처럼 피실험자 의 평균 확신성 점수와 문항 구성 의도가 일치하는 것으로 나타났다.
<표 7. 예비 실험 기술 통계 분석>
문항 1 | 문항 2 | 문항 3 | 문항 4 | 문항 5 | 문항 6 | 문항 7 | 문항 8 | 문항 9 | |
평균 | 6.34 | 5.88 | 6.18 | 3.49 | 3.57 | 3.15 | 2.4 | 2.17 | 2.48 |
표준편차 | 1.06 | 1.17 | 1.20 | 1.22 | 1.11 | 1.26 | 1.74 | 1.71 | 1.01 |
95% 신뢰구간 | [6.07, 6.59] | [5.59, 6.16] | [5.89, 6.47] | [3.11, 3.78] | [3.30, 3.84] | [2.85, 3.45] | [1.99, 2.83] | [1.75, 2.58] | [2.23, 2.71] |
예상점수 | 5 - 7 | 5 - 7 | 5 - 7 | 3 - 5 | 3 – 5 | 3 - 5 | 1 - 3 | 1 – 3 | 1 - 3 |
예비실험에서 평균은 실제 응답자 62명의 평균 확신성 점수를 말한다. 예상 점수는 연구원이 사전 실험 설계 단계에 함의 관계에 대한 확신성 점수를 추정한 값을 말한다. 모든 문항에 대하여 연구원이 추정한 점수와 95% 신뢰구간이 상당 부분 일치하므로, 연구원의 문항 설계가 응답자의 확신성 점수 패턴에 적합하였음을 알 수 있다.
또한 예비 실험의 결과를 토대로 적정 문항 응답 시간을 도출할 수 있 었다. 적정 문항 응답 시간은 1회의 실험에 적정한 개수의 문항을 제시하 는 기준이 된다. 함의 분석 응답의 정확도가 매우 높은 응답자 5인을 선 별하여 별도의 문항으로 정확한 응답시간을 재측정하였다. 선별된 5인의 응답자가 별도의 42개 문항에 대하여 응답한 시간을 측정하여 평균 소요 시간을 적정 문항 응답 시간으로 정하였다.
응답자 1. 820초 (13분 32초) 응답자 2. 600초 (10분 07초) 응답자 3. 900초 (15분 00초) 응답자 4. 930초 (15분 32초) 응답자 5. 1020초 (17분 00초) 평균. 854초 (문항당 20.33초)
문항 당 평균 20.33초 소요되는 것으로 파악되었다. 또한 응답자의 문 항이해도가 점진적으로 높아지므로, 추후 본 실험에서는 확신성 실험 1회 에 50개 문항을 실험하는 것으로 정하였다.
이러한 예비 실험 결과를 토대로, 본 실험에서 사용될 문항 구성에 대
한 설계 실험 수행 절차를 계획하였다.
2.2. 본 실험
2.2.1 문항 설계 지침 및 주요 사례 (붙임 참조)
본 실험에 사용된 문항에 대한 설계 지침 및 구체적인 사례는 별도 첨 부 파일에 정리하였다. 다양한 한국어 문형의 처리에 관한 지침을 정비하 였다. 작업자의 착오 또는 실험 참여자의 오해에서 발생하는 여러 오류 유형을 정리하고, 아래와 같은 39개 지침을 첨부하였다. 여기서는 문항 설계에 관한 개략적인 내용과 주요 사례를 소개한다. 보다 구체적인 사례 는 붙임에 자세히 기술되어 있다.
2.2.1.1. 한국어의 정보 구조
지침 (1) 내포 명제로 자연스러운 한국어 문장 기술이 힘든 경우, 앞뒤 문맥을 고려할 수 있다. 단, 앞문맥을 우선적으로 고려할 것을 제안한다. 그러나 아래의 예시처럼 뒷문맥이 지나치게 긴 경우, 뒷 문맥을 고려하지 않는다.
<내포 명제>
인천이라는 항구 도시가 이제는 지구상에서 영원히 말살되었을 것이다
<대상 담화5)>
포격은 잠시도 쉬지 않고 밤새도록 계속되었다. 그리고 그는 인천이라는 항구 도시가 이제는 지구상에서 영원히 말살되었을 것으로 생각했다.
지침 (2) 시제정보를 내포절에 기술하여 정보구조적으로 완성시키는 것을 제안한다.
<내포 명제>
그때까지 나는 여자와 잠을 자본 일이 없었다
<대상 담화>
나는 스스로가 경멸스러워질 지경이었다. 그때까지 여자와 잠을 자본 일이 없었다는 사 실은 또 얼마나 수치스레 여겨졌던가.
지침 (3) 구조적으로 내포명제가 명확하지 않더라고 하더라도, 의미적으 로 내포명제를 보강할수 있으면 사용할 것을 제안한다.
<내포 명제>
"민법" 제5편 상속법은 가족법이다
<대상 담화6)>
일반적으로 민법 제4편 친족법과 제5편 상속법을 가족법이라 한다.
2.2.1.2. 한국어의 통사 구조
지침 (4) 보문절이 아닌 부가절(adjunct)은 사용하지 않는 것을 제안한다. 따라서 실험에서 제외한다.
<대상 담화7)>
예준 역시 래프팅을 한 번도 해본 적이 없던 터라부가절 흔쾌히 ‘오케이 사인’을 보냈다.
5) <선행/후행 문장> … 한데 다음날 아침 상륙용 주정으로 도착해서 바라본 인천은, 그토 록 치열했던 함포의 포격에도 불구하고 그의 예상과는 달리 상당 부분이 파괴를 모면한 채 반 이상이 건재했다.
6) <선행/후행 문장> 정치ㆍ경제 용어사전 가족법 家族法 친족적 공동생활, 신분의 승계
(承繼), 신분에 기인하는 재산의 승계를 규율하는 실체법.
<내포 명제>
예준은 래프팅을 한 번도 해본 적이 없었다 (제외)
지침 (5) 의사관계절(pseudo relative clause)는 실험에서 제외한다.
<내포 명제>
온몸의 뼈가 무너져내리다. (제외)
<대상 담화8)>
그가 몸을 움직일 때마다 온몸의 뼈가 무너져내리는 것 같은 소리의사관계절가 났다.
지침 (6) 내포 명제에 의문사가 포함되는 경우는 제외할 것을 제안한다.
<내포 명제>
상처 난 마음을 어떻게 다독거려야 했다 (제외)
<대상 담화9)>
상처 난 마음을 어떻게의문사 다독거려야 하는지 그는 알 수 없었다
2.2.1.3. 한국어의 의미 구조
지침 (7) 내포절 안에 있는 양태 표지는 그대로 유지하는 것을 원칙으로 할 것을 제안한다.
7) <선행/후행 문장> 콘서트 관람을 마치고 서연이 불쑥 래프팅 제안을 했는데, 수철이 맞 장구를 쳤다.
8) <선행/후행 문장> 그녀의 머리는 헝클어져 있었고 드문드문 새로 자라난 흰머리가 보
였다. 회는 이불을 개어 안방에 가져다 놓고 나와 씽크대에 가래침을 뱉었다.
9) <선행/후행 문장> 울고 있을지도 모른다. 다케유키는 마음이 아팠다. 하지만 도와줄 방 법이 없었다.
<내포 명제>
국과수에서 넘겨주는 시신은 유병언 회장일 것이다. [인식-추측]
<대상 담화>
실제로 일반 구원파 신도들은 현재 유병언 씨에 장례식에 국과수에서 시신을 넘겨주면 그것이 유병언 회장일 것이라고 믿습니까?
<내포 명제>
상대방의 입장에서 ⑨각해야 한다. [비인식-의무]
<대상 담화>
상대방의 입장에서 ⑨각해야 한다는 것을 이해했다면 고민하거나 망설이지 말고 즉시 실행에 옮기면 된다.
<내포 명제>
윤리학은 어떤 쟁점에 대해 대답해 줄 수 있다. [비인식-능력(가능)]
<대상 담화>
나는 윤리학이 어떤 쟁점에 대해 대답해 줄 수 있다고 믿지 않는다.
지침 (8) 다만, 다음의 경우에는 양태 표지를 제거하고 기술할 것을 제안한다.
<내포 명제>
나(필자)는 목이 악화되었다.
<대상 담화>
의사 선생님은 제가 목이 악화됐을 거라고 예상하신 것 같았습니다.
위의 사례에서는, 주어가 1인칭인 명제가 내포절에 있으며, 이를 그대 로 내포 명제에 추측의 인식 양태 표지를 사용하여 기술하면 어색하다.
위의 지침과 사례들은 구체적인 지침의 일부이다. 보다 자세한 사항은
별도로 첨부된 지침 파일에서 종합적으로 관리되었다.
2.2.2. 실험 수행 지침 및 절차 (붙임 참조)
2.2.2.1 IRB 승인
본 사업의 언어 실험 수행에 앞서 고려대학교 생명윤리위원회의 심의 를 거쳐 IRB 승인을 받았다(연구과제명: 말뭉치 함의 분석을 위한 온라인 언어 실험 / 승인번호: KUIRB-2021-0192-02).
2.2.2.2 피실험자 모집
예비 실험에서 문항들을 가장 많이 맞힌 연구대상자를 “성실도”가 높 은 참여자로 판단하였고, 이 중 본 사업의 언어실험에 참여하기를 원하는 인원을 모집하였다. “성실도”가 높은 사람들 중 본 실험 참가 희망자는 총 63명이었으나, 이 중 참가 희망을 묻는 사전 설문 조사에 배치된 문 항 적응용 샘플 문항에서 한 번호로만 찍는 등의 아웃라이어(outlier)로 판단되는 인원 3명을 제외하였고, 이에 따라 총 60명의 피실험자를 모집 하게 되었다.
2.2.2.3 실험 수행
다음은 전자우편 안내문에 제시된 문항 설명문(문어/구어)이다.
<그림 5. 전자우편 상의 문항 설명문(문어/구어)>
주어진 [문장]에 대해서 [보기]로 주어진 내용의 말하는 이(화자) 혹은 글쓴이
(필자)가 어느 정도 확신하는 것 같으냐를 1~7의 정도로 평가해 주시는 방식 입니다.
[보기] 철수는 내일 날씨가 흐릴 것으로 예상한다. [문장] 내일 날씨가 흐릴 것이다
위 [보기]에서 "철수"는 주어입니다. "철수"가 판단한 것과 위 [보기]의 필자 및 화자의 견해가 반드시 같은 것은 아닙니다. 위 [문장]에 대한 필자 혹은 화자의 판단을 기준으로 평가해 주시면 됩니다.
또한 실험을 진행하시는 여러분들의 판단을 묻는 것이 아니니 이점도 참고 부탁드립니다.
언어 실험은 코로나 상황으로 인하여 비대면으로 실험을 진행하였다. 온라인 언어 실험 플랫폼은 피실험자의 편의와 친숙도를 고려하여 구글 서베이(Google survey)를 활용하였다. 먼저 문항 풀이 이전에 연구참여 설명서 및 연구참여동의서 등을 배치하였으며, 이후 실험에 대한 안내문 을 배치하였다. 구어/문어 및 대화문 실험 안내문의 예시는 아래와 같다.
<그림 6. 대화문 문항>
실험은 리커트 7점 척도로 진행하였으며, [보기](혹은 [대화]) 문장에 대한
[질문]의 답으로 거짓으로 확신할수록 낮은 점수를, 참이라고 확신할수록 높은 점수를 부여하도록 하였다.
실험 답례비는 1회당 문화상품권 10,000원권이다(개인 전자우편 계정 으로 문화상품권의 PIN번호를 발송하였다).
3. 확신성 실험의 결과
3.1. 응답자 점수 평균 분포
총 1,805 문항에 대하여 확신성 실험이 수행되었다. 최초 과제 제안서 는 1,500 문항을 대상으로 하였으며, 기타 사유로 인한 문항 손실과 실험 실패로 인한 오류율을 고려하여 목표량의 20%를 추가로 수행하였다. 전 체 문항에 대한 응답 분포는 아래 그림과 같다. 가로축은 1,805 문항에 대하여 20명 내외의 참여자가 응답한 점수이다.
<그림 7 확신성 실험의 문항별 응답점수 평균 분포>
위의 문항 응답 자료의 특징적인 부분은 평균점수 분포가 매우 편향되 어 있다는 점이다. 특히, 중립과 함의의 경계에 있다고 볼 수 있는 4~6점 구간에 분포하는 문항이 많다는 점은 화자의 확신성이 중립과 함의의 사 이에서 모호하게 나타날 수 있다는 점을 시사한다.
<그림 8. 확신성 실험 문항 분석과 함의 관계 라벨 부착>
실험 결과인 리커트 척도를 토대로 함의 관계 정보를 부착하였다. 구체 적으로는, 각 문항별 응답자의 확신성 점수의 평균을 구하고 95% 신뢰구 간을 도출하여 이를 고려하였다. 이때, 예비 실험과 동일하게 1~3점의 구 간을 모순으로 하였고, 3~5점 구간을 중립으로, 5~7점 구간을 함의로 하 였다. 예를 들어, 어떤 문항의 신뢰구간의 길이가 [5.5, 6.5]라면, 신뢰 구 간이 5~7점 사이에 모두 포함되므로 함의 관계 정보가 부착되었다.
반대로, 어떤 문항의 신뢰구간이 [1.5, 3.0]이라면 모순 관계의 구간에 포함되므로 함의 관계 라벨은 “모순”으로 부착되었다. 이를 엑셀 수식을 이용하여 자동적으로 개별 문항에 따라 부착하였고, 그 비율은 아래 표와 같다. <표 8>은 실제 확신성 실험에서 사용된 전체 문항 수의 함의 관계 가 라벨 분포를 보여준다. 1,805건의 문항에 대하여 20명 내외의 한국어 화자가 응답하였다. <표 9>는 전체 실험 문항 1,805건에서 내부 검토를
거쳐 243건을 제외한 최종 산출물의 함의 관계 라벨 분포이다.
<표 8. 전체 확신성 실험 문항 수> <표 9. 최종 산출물 수>
내포 명제 추론 관계 | 문항 수 | 비율 |
함의 | 1,314 | 72.80 |
중립 | 208 | 11.52 |
모순 | 282 | 15.62 |
전체 | 1,805 | 100 (%) |
내포 명제 추론 관계 | 문항 수 | 비율 |
함의 | 1,129 | 72.28 |
중립 | 172 | 11.01 |
모순 | 260 | 16.65 |
전체 | 1,562 | 100 (%) |
<표 8>과 <표 9>에서 나타난 바와 같이 중립/모순에 비하여 함의 관 계에 문항 분포가 상당히 편중되어 있다. 특히, 함의에 가까운 중립이나, 반대로 중립에 가까운 함의로 화자의 확신성이 나타나는 경우가 별도의 분류 없이 포함되었기 때문일 수 있다. 그러나 별도의 분류 범주를 설정 하더라도, 연속형 변수(continuous variable)을 범주적 변수(categorical variable)로 바꾸는 과정에서 상당한 정보의 손실이 발생하며, 자의적 (ad-hoc)이라는 약점을 충분히 방어하기 어렵다. 따라서 문항을 별도로 분류하여 목적에 맞게 사용하는 작업은 사용자의 의도에 따라 바뀔 수 있다.
3.2. 확신성 실험 결과의 통계적 분석
3.2.1. 급내상관계수를 활용한 응답자 신뢰도 분석
급내상관계수(Intra Class Correlation; ICC)를 이용한 확신성 언어 실
험에 참여한 응답자의 신뢰성을 평가를 하였다. 사회과학에서 흔히 사용 되는 급내상관계수는 평가자들의 응답에 대한 신뢰도를 측정하는데 사용 하는 통계적 도구이다. 본 사업에는 기존 연구에 따라 ICC1k 또는 ICC2k 중 하나가 확신성 실험과 관련하여 가장 신뢰할 만한 통계값이라 고 제안한다 (Yum et al., 2021). 해당 연구는 의학 전문가 10인의 언어 적 직관을 수집하기 위하여 실험언어학의 방법론을 사용한 것으로, ICC 를 이용하여 의학 전문가 직관의 신뢰성을 통계분석하였다.
ICC는 무작위로 응답자 그룹을 형성하여 응답자 간의 응답패턴을 분석 하는 방법이다. 이를 통하여 응답자의 응답 패턴이 일관적인지 확인할 수 있다. 각 평가별로 총 6가지 ICC값과 F값, 자유도값, p-value등이 나타 난다. ICC1 (단일 절대 평가)은 응답을 무작위로 하나 선정하여 각 문항 마다 매번 다른 응답으로 평가하는 단방향 ANOVA 모델이다. 응답과 절 대 합치도간의 편차에 민감하다. ICC2 (단일 무작위 평가)는 응답 번호 (1-7)의 절대 합치도(absolute agreement)를 평가하였다. 각 문항별로 k 개의 응답을 무작위로 추출한다. ICC3 (단일 고정 평가)는 더 큰 응답의 모수를 위한 일반화는 진행하지 않았다. 각 문항별로 고정된 k개의 응답 을 사용한다. ICC2와 ICC3는 평가자 간의 평균 편차를 없애는 역할을 하 지만 응답별로 평가자 간의 상호관계에 민감하다. ICC2와 ICC3의 차이는 랜덤한 추출에 얼마나 민감한가를 보여준다.
ICC1k (평균 절대 평가), ICC2k (평균 무작위 평가), ICC3k (평균 고 정 평가)는 각각 k명의 응답자를 반영한 결과이다. 본 과제에서는 급내상 관계수를 이용하여 응답 인원들의 내포 명제에 대한 확신성이 비슷한 패 턴을 보이는지 또는 상이한 패턴을 보이는지 파악하였다. 이때, 리커트 7 점 척도를 직접 사용하지 않고, 함의(5-7점) - 중립(3-5점) - 모순(1-3 점)으로 변환하였다. 이는 함의 관계 라벨의 분포와 응답자의 신뢰성을 파악하기 위함이다. 또한, 각 척도의 1-7점 점수에는 중요성을 부여하기 어렵지만, 이를 함의 관계별로 다시 그룹화하여 통계분석하면 확신성의 양상을 분석하는데 용이하다. 구체적으로는, 함의와 중립 사이에서 모호
한 응답이 상당수 분포하였는데, 모호한 응답이 많을수록 ICC값이 떨어 진다.
급내상관계수 측정은 총 3가지 방법으로 진행하였다. 첫 번째는 문항별 급내상관계수 종합 측정 (문항-인원-평가)이다. 1,805건의 실험 문항은 20명 내외의 응답이 있었고, 응답의 분포가 균일할수록 ICC값이 높다. 반대로, 20명의 응답자가 하나의 문항에 대하여 제각각의 점수를 부여하 면 ICC값이 떨어진다. 두 번째는, 함의 관계별 급내상관계수 종합 측정 (함의-인원-평가)이다. 함의관계라벨을 그룹화하여 급내상관계수를 측정 하는 것이다. 예를 들어, 1,805건의 실험 문항에서 1,314건이 ‘함의’에 해당하는 문항이었는데, 이 문항들이 하나의 그룹을 형성한다. 이때, 그 룹 내에서 ICC값을 측정하는 것이다. 따라서 ‘함의’ 문항 그룹에 비하여 ‘모순’ 문항 그룹의 응답이 제각각일 경우, ICC값이 상대적으로 떨어진 다.
세 번째는, 함의별 급내상관계수 조합 측정 (함의-인원-평가)이다. 이 분석은 문항 그룹 내부의 응답 간 신뢰성 분석이 아닌, 문항 그룹과 또 다른 문항 그룹을 대치시켜 신뢰성을 분석하는 것이다. 따라서 문항 함의 별 급내상관계수 조합의 경우, 3개의 함의 태그를 기준으로 2개의 조합 을 만들어 급내상관계수를 구하였다 (함의-중립, 함의-모순, 중립-모순).
아래 <표 10>~<표 14>는 전체 확신성 실험 문항 1,805건을 대상으로 ICC 신뢰성 분석하여 얻은 통계 결과이다. 일반적으로 상관관계가 0.40 미만이면 신뢰성이 매우 낮은 것으로 평가된다. 1.00에 가까울수록 신뢰 도가 높다. 또한 평가방법에는 ‘단일’ 평가가 있고 ‘평균’ 평가가 있다. 단일 평가는 하나의 응답자를 가정하며, 평균 평가는 하나 이상의 응답자 들의 응답 평균을 가정한다. 따라서 응답자의 수가 많을수록 단일 평가와 평균 평가의 신뢰도 계수(또는 상관관계)가 크게 차이날 수 있다. 아래
<표 10>~<표 14>에서 나타나듯이, 평균 평가의 신뢰성은 문항별, 라벨 별, 함의별로 매우 높게 나타나며(0.86 ~ 0.97), 따라서 확신성 실험의 응답은 신뢰할 만하다.
<표 10. 전체 데이터셋 기준 문항별 급내상관계수 종합>
유형 | 평가 방법 | 상관관계 | F 통계량 | 자유도 | 95% 신뢰구간 |
ICC 1 | 단일 절대 평가 | 0.715 | 43.83 | 1804 | [0.7 0.73] |
ICC 2 | 단일 무작위 평가 | 0.715 | 44.11 | 1804 | [0.7 0.73] |
ICC 3 | 단일 고정 평가 | 0.717 | 44.11 | 1804 | [0.7 0.73] |
ICC 1k | 평균 절대 평가 | 0.977 | 43.83 | 1804 | [0.98 0.98] |
ICC 2k | 평균 무작위 평가 | 0.977 | 44.11 | 1804 | [0.98 0.98] |
ICC 3k | 평균 고정 평가 | 0.977 | 44.11 | 1804 | [0.98 0.98] |
<표 11. 전체 데이터셋 기준 함의별 급내상관계수 종합>
유형 | 평가 방법 | 상관관계 | F 통계량 | 자유도 | 95% 신뢰구간 |
ICC 1 | 단일 절대 평가 | 0.662 | 34.43 | 1804 | [0.65 0.68] |
ICC 2 | 단일 무작위 평가 | 0.662 | 34.57 | 1804 | [0.65 0.68] |
ICC 3 | 단일 고정 평가 | 0.663 | 34.57 | 1804 | [0.65 0.68] |
ICC 1k | 평균 절대 평가 | 0.970 | 34.43 | 1804 | [0.97 0.97] |
ICC 2k | 평균 무작위 평가 | 0.970 | 34.57 | 1804 | [0.97 0.97] |
ICC 3k | 평균 고정 평가 | 0.971 | 34.57 | 1804 | [0.97 0.97] |
<표 12. 전체 데이터셋 기준 함의 라벨별 급내상관계수 (모순-중립)>
유형 | 평가 방법 | 상관관계 | F 통계량 | 자유도 | 95% 신뢰구간 |
ICC 1 | 단일 절대 평가 | 0.410 | 12.83 | 201 | [0.36 0.47] |
ICC 2 | 단일 무작위 평가 | 0.410 | 13.00 | 201 | [0.36 0.47] |
ICC 3 | 단일 고정 평가 | 0.413 | 13.00 | 201 | [0.36 0.47] |
ICC 1k | 평균 절대 평가 | 0.922 | 12.83 | 201 | [0.91 0.94] |
ICC 2k | 평균 무작위 평가 | 0.922 | 13.00 | 201 | [0.91 0.94] |
ICC 3k | 평균 고정 평가 | 0.923 | 13.00 | 201 | [0.91 0.94] |
<표 13. 전체 데이터셋 기준 함의 라벨별 급내상관계수 (모순-함의)>
유형 | 평가 방법 | 상관관계 | F 통계량 | 자유도 | 95% 신뢰구간 |
ICC 1 | 단일 절대 평가 | 0.966 | 493.092 | 221 | [0.96 0.97] |
ICC 2 | 단일 무작위 평가 | 0.966 | 493.44 | 221 | [0.96 0.97] |
ICC 3 | 단일 고정 평가 | 0.966 | 493.44 | 221 | [0.96 0.97] |
ICC 1k | 평균 절대 평가 | 0.997 | 493.092 | 221 | [1. 1.] |
ICC 2k | 평균 무작위 평가 | 0.997 | 493.44 | 221 | [1. 1.] |
ICC 3k | 평균 고정 평가 | 0.997 | 493.44 | 221 | [1. 1.] |
<표 14. 전체 데이터셋 기준 함의 라벨별 급내상관계수 (중립-함의)>
유형 | 평가 방법 | 상관관계 | F 통계량 | 자유도 | 95% 신뢰구간 |
ICC 1 | 단일 절대 평가 | 0.262 | 7.03 | 1281 | [0.24 0.28] |
ICC 2 | 단일 무작위 평가 | 0.262 | 7.09 | 1281 | [0.24 0.28] |
ICC 3 | 단일 고정 평가 | 0.264 | 7.09 | 1281 | [0.25 0.28] |
ICC 1k | 평균 절대 평가 | 0.857 | 7.03 | 1281 | [0.85 0.87] |
ICC 2k | 평균 무작위 평가 | 0.858 | 7.09 | 1281 | [0.85 0.87] |
ICC 3k | 평균 고정 평가 | 0.859 | 7.09 | 1281 | [0.85 0.87] |
아래 <표 15> ~ <표 19>는 데이터 필터링을 거친 1,562개 문항에 대 하여 동일한 방법으로 신뢰성 분석을 하였다 (단, 문항 오류 또는 문항의 적절성으로 인하여 5개 문항이 제외되기 이전의 1,567개 문항에 대하여 신뢰성 분석을 진행하였다). 마찬가지로, 신뢰성 분석의 방법에 상관없이 응답자의 신뢰성은 매우 높게 나타난다.
<표 15. 데이터 필터링 후 문항별 급내상관계수 종합>
유형 | 평가 방법 | 상관관계 | F 통계량 | 자유도 | 95% 신뢰구간 |
ICC 1 | 단일 절대 평가 | 0.723 | 45.53 | 1566 | [0.71 0.74] |
ICC 2 | 단일 무작위 평가 | 0.723 | 45.79 | 1566 | [0.71 0.74] |
ICC 3 | 단일 고정 평가 | 0.724 | 45.79 | 1566 | [0.71 0.74] |
ICC 1k | 평균 절대 평가 | 0.978 | 45.53 | 1566 | [0.98 0.98] |
ICC 2k | 평균 무작위 평가 | 0.978 | 45.79 | 1566 | [0.98 0.98] |
ICC 3k | 평균 고정 평가 | 0.978 | 45.79 | 1566 | [0.98 0.98] |
<표 16. 데이터 필터링 후 함의별 급내상관계수 종합>
유형 | 평가 방법 | 상관관계 | F 통계량 | 자유도 | 95% 신뢰구간 |
ICC 1 | 단일 절대 평가 | 0.671 | 35.80 | 1566 | [0.66 0.69] |
ICC 2 | 단일 무작위 평가 | 0.671 | 35.92 | 1566 | [0.66 0.69] |
ICC 3 | 단일 고정 평가 | 0.672 | 35.92 | 1566 | [0.66 0.69] |
ICC 1k | 평균 절대 평가 | 0.972 | 35.80 | 1566 | [0.97 0.97] |
ICC 2k | 평균 무작위 평가 | 0.972 | 35.92 | 1566 | [0.97 0.97] |
ICC 3k | 평균 고정 평가 | 0.972 | 35.92 | 1566 | [0.97 0.97] |
<표 17. 데이터 필터링 후 함의 라벨별 급내상관계수 (모순-중립)>
유형 | 평가 방법 | 상관관계 | F 통계량 | 자유도 | 95% 신뢰구간 |
ICC 1 | 단일 절대 평가 | 0.406 | 12.64 | 184 | [0.35 0.46] |
ICC 2 | 단일 무작위 평가 | 0.406 | 12.87 | 184 | [0.35 0.47] |
ICC 3 | 단일 고정 평가 | 0.411 | 12.87 | 184 | [0.36 0.47] |
ICC 1k | 평균 절대 평가 | 0.920 | 12.64 | 184 | [0.9 0.94] |
ICC 2k | 평균 무작위 평가 | 0.921 | 12.87 | 184 | [0.9 0.94] |
ICC 3k | 평균 고정 평가 | 0.922 | 12.87 | 184 | [0.91 0.94] |
<표 18. 데이터 필터링 후 함의 라벨별 급내상관계수 (모순-함의)>
유형 | 평가 방법 | 상관관계 | F 통계량 | 자유도 | 95% 신뢰구간 |
ICC 1 | 단일 절대 평가 | 0.967 | 503.78 | 190 | [0.96 0.97] |
ICC 2 | 단일 무작위 평가 | 0.967 | 504.50 | 190 | [0.96 0.97] |
ICC 3 | 단일 고정 평가 | 0.967 | 504.50 | 190 | [0.96 0.97] |
ICC 1k | 평균 절대 평가 | 0.998 | 503.78 | 190 | [1. 1.] |
ICC 2k | 평균 무작위 평가 | 0.998 | 504.50 | 190 | [1. 1.] |
ICC 3k | 평균 고정 평가 | 0.998 | 504.50 | 190 | [1. 1.] |
<표 19. 데이터 필터링 후 함의 라벨별 급내상관계수 (중립-함의)>
유형 | 평가 방법 | 상관관계 | F 통계량 | 자유도 | 95% 신뢰구간 |
ICC 1 | 단일 절대 평가 | 0.253 | 6.76 | 1107 | [0.23 0.27] |
ICC 2 | 단일 무작위 평가 | 0.253 | 6.81 | 1107 | [0.24 0.27] |
ICC 3 | 단일 고정 평가 | 0.254 | 6.81 | 1107 | [0.24 0.27] |
ICC 1k | 평균 절대 평가 | 0.852 | 6.76 | 1107 | [0.84 0.86] |
ICC 2k | 평균 무작위 평가 | 0.852 | 6.81 | 1107 | [0.84 0.86] |
ICC 3k | 평균 고정 평가 | 0.853 | 6.81 | 1107 | [0.84 0.87] |
결과를 종합하여 보면 응답자들은 모순-함의 라벨을 결정하는 데 매우 높은 일치도를 보였다(급내상관계수: 0.977). 즉, 모순과 함의를 구분하는 데는 극히 일부를 제외한 인원이 서로 일치하는 언어적 직관을 보여주었 다고 판단할 수 있다. 반면 중립-함의 라벨을 결정하는 데는 상대적으로 낮은 일치도를 보였으며 특히 단일 응답자를 기준으로 평가한 ICC1, ICC2, ICC3에서 매우 낮은 점수를 보였다(0.262, 0.262, 0.264). 이는 특 정 문장쌍이 중립인지 함의인지 판단하는 데 있어 개개인의 가치관이 다 르다는 것을 의미한다.
이와 달리, 중립-함의와 상대적으로 모순-중립의 경우에는 비교적 높
은 일치도를 보였다. 이는 응답자들이 문장을 함의라고 판단할 때보다 모 순이라고 판단할 때 특정 어구 등의 언어적 표현에 민감하게 반응한 결 과라고 해석할 수 있다.
3.2.2. 아웃라이어 응답자 분석
아웃라이어(outlier) 응답자는 다른 응답자와 달리 통계적으로 확연히 구 별되는 응답패턴을 가진 응답자를 말한다.
<그림 10. 개인별 제외 후 ICC 측정>
때문에, 아웃라이어 응답자가 부여한 화자의 확신성 점수는 신뢰하기 어렵다. 따라서 응답자들이 다양한 문항에 골고루 응답을 표시하였는지 판단할 필요성이 있었다. 또한, 특정 인원의 응답이 다른 사람들의 직관 과 크게 벗어나는가 그렇지 않은가를 판단하는 작업 또한 중요하다.
각 인원을 제외 후 최대 급내상관계수와 평균 급내상관계수를 측정하 여 비교해 보았을 때 차이가 많이 나는 인원의 경우 응답 기준이 일반적 이지 않다고 판단할 수 있었다. 평가 결과 각 인원을 제외한 이후임에도 전체적인 급내상관계수의 차이가 없는 것으로 보아 특이사항은 없음을 확인하였다.
<그림 11. 인원별 응답 분포 비교>
각 인원별 1에서 7까지의 선택지별 응답 빈도를 측정하여 얼마나 다양 한 응답을 하였는가 측정하여 3개 이하의 선택지를 고른 인원의 경우 설 문에 불성실하게 답변한 것으로 간주하였다. 모든 인원이 7개의 선택지를 모두 사용하였으므로 특이사항은 없는 것으로 확인되었다.
제 4 장
확신성 언어 실험 결과의 국어학적 분석
1. 확신성 언어 실험 결과의 활용과 범위
확신성 언어자원의 구축과 활용의 대상에는 언어정보를 부착하는 공정 과 인공지능 평가가 포함된다. 언어정보 부착의 범위는 수집된 대상 담화 사례 1,500건에 대하여 말뭉치의 형식으로 시제, 인칭 등의 언어정보를 부착하는 것이다. 작업에 대한 온라인 교육은 단기간의 집중 교육과 작업 의 완성도에 따라 수시로 이루어졌다(Intensive 1-day Workshop 또는 Interim Check Workshop). 또한 작업자(석박사과정 보조연구원)의 결 과물에 대하여 상위 층위의 작업자(박사급 공동연구원) 별도의 검증절차 를 수행하여 오류율을 낮추고 작업 품질을 향상시켰다.
언어정보 부착은 한국어 화자의 확신성을 계량적 척도에서 측정하는 방법과 달리, 함의 관계에 영향을 줄 수 있는 통사/의미 이론적 구성물을 보완적으로 태깅하는 것을 포함한다. 여기에는 전통적인 함의 취소 운용 소는 포함되거나 포함되지 않을 수 있으나, 시제와 인칭 정보, 주어 일치 여부, (유사)보문소 등 한국어 언어 이론에서 제안되어왔던 구성물에 대 한 태깅을 수행하였다. 이러한 언어 정보는 함의 관계에 대한 구체적인 관점을 제시할 뿐만 아니라, 제 3 장에서 수행되었던 한국어 언어 사용자 의 확신성 양상과 비교할 수 있는 토대를 제공한다. 이는 기존의 한국어 연구를 풍부하게 할 수 있다는 점에서 의의가 있다.
인공지능 평가는 확신성 언어실험의 통계적 결과를 종합분석하여 자연 어 추론 벤치마크로 재가공하는 공정이 포함되었다. 자연어 추론 벤치마 크는 인공지능의 한국어 능력을 평가하는 일종의 테스트 도구로 기능한 다. 인공지능 평가에서는 내포절의 사실성에 대한 일반 언어 사용자의 확 신성 판단과 한국어 인공지능 모델(KorBERT, KoBERT 등)이 유사한 패 턴을 보이는지 상관관계를 분석하였다. 상관관계는 일반적으로 Pearson’s r 척도로 측정한다.
2. 언어 정보 부착 수행
2.1. 확신성 언어정보 부착의 작업 지침 (붙임 참조)
해당 내용은 붙임에 작업 지침과 함께 구체적인 사례를 종합하여 정리하 였다.
2.2. 작업자 교육
작업자 교육은 확신성 언어정보 부착에 대한 기본적 이론을 익히고 작 업 지침을 숙지하는 것뿐만 아니라 작업자가 워크벤치를 이용하여 직접 정보 부착 작업을 해 볼 수 있도록 국어학 전문가와 함께 실습하였다. 교 육은 총 두 번의 워크숍을 통해 진행되었다. 작업자가 본격적인 작업에 들어가기에 앞서 국어학 전문가와 함께 실시한 Intensive 1-day Workshop에서는 확신성 언어 정보에 해당되는 시제, 인칭, 함의 취소 운용소에 대한 기본적 이론을 중심으로 교육이 이루어졌다. 전문가와 함 께 실제 워크벤치에서 다양한 예문을 이용하여 정보를 부착하며 작업에 대한 이해도를 높였다.
전문가와의 충분한 논의 후 시제는 내포명제를 기준으로, 시제소는 형 태를 기준으로 정보를 부착한다는 기준을 세울 수 있었다. 이를 바탕으로 작업자는 각자 정보부착 작업을 진행하였고 한 달 뒤에 다시 모여 작업 결과물 중간 점검 및 품질 관리를 위한 Interim Check Workshop을 실 시했다. 전문가는 지금까지의 작업 결과물을 살펴보고 작업자에게 개선해 야 할 부분을 설명하였다. 이후에는 각 작업자가 언어정보 부착 작업을
진행하며 메모한 의문점 및 특이사항을 바탕으로 전문가에게 질문하고 전문가는 이에 대해 답변을 하며 작업자들이 이후 언어정보 부착 작업을 진행할 때 숙지할 지침을 다시 한번 강화하였다.
2.3. 온라인 워크벤치
원활한 언어정보 부착 작업을 위해 확신성 담화의 주석 작업에 활용된 워크 벤치를 기능적으로 확장하였다. php 및 MySQL 소프트웨어를 사용 하여 온라인 워크벤치를 준비하였다. 해당 워크벤치의 구성은 아래 사진 과 같다. 앞선 워크벤치와 마찬가지로 선행, 후행 맥락은 버튼을 클릭하 였을 때만 등장하도록 하였으며, 맥락 정보와 내포명제 정보는 더 이상 수정하지 못하되 표시만 되도록 구상하였다.
<그림 12. 언어정보 부착 워크벤치>
해당 워크벤치는 내포절과 모절에 대한 시제, 시제소, 인칭 정보 및 함의 취소운용소(ECO) 정보 등을 태깅할 수 있도록 설계되었다. 이에 더해, 국 립국어원에서 제시한 수정 사항을 내부 정보와 더불어 표기하여 내부 정 보를 수정하고, 국립국어원에서 남긴 의견에 효율적이며 체계적으로 답변
할 수 있도록 하였다.
이때, 아래 그림과 같이 보문소와 보문술어의 경우 국립국어원 제안 사 항을 항상 표시하되, 내부 정보와 다를 경우에는 UI상 색깔을 다르게 표 시하여 작업자가 이를 반영할 수 있도록 하였다. 맥락정보와 내포명제의 경우, 워크벤치 화면이 너무 길어지는 경우를 방지하기 위하여 내부 맥락 및 내포명제가 국어원에서 제시한 맥락 및 내포명제와 차이가 있을 경우 에만 표시되도록 하였다.
또한 해당 워크벤치에서는 미처 거르지 못한 정치적, 성적 내용 등의 민감할 수 있는 사항을 거르기 위하여 ‘민감 사항’이라는 체크박스를 제 공하였으며, 이전 워크벤치와 마찬가지로 ‘확인 요망’ 체크박스를 통해 작업자가 재검토를 요청할 수 있도록 하였다.
<그림 13. 국립국어원 제안 내용과 내부 정보가 다른 예시>
위의 작업 예시는 언어정보 부착에서 보문소와 보문술어에 대한 작업 과정이다. 확신성 담화의 핵심적인 정보인 보문소와 보문술어는 국립국어 원 제안 사항을 표시하여 참조할 수 있도록 하였다. 본 사업팀의 작업자 들이 도출한 견해와 국립국어원의 제안 사항이 상이할 경우 인터페이스 의 색을 달리하였다. 위의 작업 절차는 발주기관인 국립국어원과 본 사업 팀의 의사소통을 원활히 하기 위함이다.
또한 언어정보 부착은 3개 층위에서 종합적으로 작업 검수를 하였다. 낮은 층위에서는 기초작업자 또는 보조연구원이 언어정보를 부착하였고,
높은 층위에서는 의미론을 전공한 박사급 공동연구원이 검수하고, 공동연 구원이 보완하였다.
2.4. 작업 결과물
내포절과 모절의 시제정보와 주어의 인칭, 내포절과 모절의 주어 일치 여부에 대해 처리하였다. 모절과 내포절 모두 과거, 현재, 미래를 확인하 여 해당 정보를 부착하였다. 내포절의 시제소는 내포절 명제를 따로 추출 한 것이 아닌 문장 상에서 나타난 시제소에 대해 처리하였다. 이때 시제 소는 현재를 나타내는 은/는, 과거를 나타내는 었/았, 미래를 나타내는 (으)ㄹ_것/겠으로 작성하였다. 그 중 문장에서 시제소가 뚜렷하게 나타나 지 않는 경우 ‘없음’으로 설정하였다.
<표 20. 언어 정보 부착의 기준>
내포절 | 모절 | ||||||||
시제 | 과거 | 현재 | 미래 | 시제 | 과거 | 현재 | 미래 | ||
시제 소 | 은/는 | 었/았 | (으)ㄹ _것/ 겠 | 없음 | |||||
시제 소 | 은/는 | 었/았 | (으)ㄹ _것/ 겠 | 없음 | |||||
인칭 | 1인칭 | 2인칭 | 3인칭 | 알 수 없음 | |||||
모절 과의 주어 일치 여부 | 일치 | 불일치 | |||||||
인칭 | 1인칭 | 2인칭 | 3인칭 | 알 수 없음 |
주어의 인칭은 문장과 context에서 주어가 명확하게 드러나지 않은 경 우에는 ‘알 수 없음’으로 처리하였고 그 외 1인칭, 2인칭, 3인칭임을 부
착하였다.
내포절의 주어는 모절의 주어와 일치하는 경우 일치, 그렇지 않은 경우 는 불일치로 작성하였다. 아래의 도표는 시제 및 주어 및 함의 취소 운용 소에 대한 언어 정보를 부착한 결과물을 도표로 나타낸 것이다.
담화 구조에 대한 정보는 (1) 고유번호(idx) (2) 장르 (genre) (3) 선행 문맥 (prev) (4) 대상 문장(current) (5) 후행 문맥(next) (5) 모절 술어 (pred) (6) 보문소 (comp) (7) 선후행 맥락을 연결한 대상 문장 (context+target) (8) 내포 명제(prop) (9) 확신성 관계(relation)를 포함 하고 있다.
<표 21. 언어정보 부착의 예시>
idx | SBRW1900010062.1 |
genre | 구어 |
prev | P4: 실제로 한 대학에서 실험을 했는데 P2: 예. P4: 같은 염도 하 지만 매운맛의 정도만 다르게 했었는데 P1: 예. P4: 이~ 실험자의 대부분이 더 매운 음식도 싱겁다 이렇게 느꼈었다고 합니다. P2: 오~ P4: 그 이유를 보니까 P2: 예. P4: 매운맛의 정도가 올라갈수 록 짠맛을 정상적으로 느끼지 못했다는 건데 P1,P2: 음~ |
current | P4: 결과적으로는 데 많은 양의 소금이 들어가야 짠맛을 느낄 수 있었다라는 이야기가 되겠죠. |
next | P1: 그랬다. 예. P2: 예. P1: 쭈여니 님이 지금 스트레스도 풀리고 건강에도 좋은데 실제로 그런 건가요 느낌인 건가요라고 질문을 주셨어요. P6: {laughing} P5: 그~ 스트레스와 관련해서는 실제로 매운 것을 먹으면 스트레스에 더 취약하다는 쪽이 정설입니다. P1: 예. P5: 매운 걸 먹게 되면 통증을 느끼잖아요. P2: 음~ P5: 아리 니까 통증을 느끼게 되면 다른 스트레스 일시적으로 잊어버릴 수 가 있거든요. P1: 예. |
pred | 되다 |
comp | 라는_이야기 |
context+target | P4: 실제로 한 대학에서 실험을 했는데 P2: 예. P4: 같은 염도 하 지만 매운맛의 정도만 다르게 했었는데 P1: 예. P4: 이~ 실험자의 |
대부분이 더 매운 음식도 싱겁다 이렇게 느꼈었다고 합니다. P2: 오~ P4: 그 이유를 보니까 P2: 예. P4: 매운맛의 정도가 올라갈수 록 짠맛을 정상적으로 느끼지 못했다는 건데 P1,P2: 음~ P4: 결과 적으로는 데 많은 양의 소금이 들어가야 짠맛을 느낄 수 있었다라 는 이야기가 되겠죠. P1: 그랬다. 예. P2: 예. P1: 쭈여니 님이 지 금 스트레스도 풀리고 건강에도 좋은데 실제로 그런 건가요 느낌 인 건가요라고 질문을 주셨어요. | |
prop | 매운맛의 정도가 올라갈수록 많은 양의 소금이 들어가야 실험자의 대부분이 짠맛을 느낄 수 있었다 |
내포절-모절 주어 일치 여부 | 불일치 |
내포절 시제 | 과거 |
내포절 시제소 | 었/았 |
내포절 주어 인칭 | 3rd |
모절 시제 | 현재 |
모절 시제소 | 없음 |
모절 주어 인칭 | 3인칭 |
함의 취소 운용소 표지 | -겠- |
함의 취소 운용소 | 양태 |
워크벤치의 언어정보 부착 결과물을 기준으로 하여 작업자들이 제작한 prop과 국어원의 prop이 다를 경우에는 서로 다른 두 개의 prop 중 어 떠한 것을 고를지에 대한 소견을 정리하여 기술하였다. 이 외에도 국어원 비고를 통해 개별 결과물의 불완전성에 대해 지적이 있는 경우, 재검수 후 검수자의 판단에 따라 상황에 적절한 답변을 기술하였다. 또한 국어원 으로부터 정치/사회적으로 민감하거나 논란의 소지가 있는 이슈이기에 제외 요청이 있는 경우에는 재검수 후 제외에 대한 동의 의사를 밝힌 후 제거하였다.
국어원과의 소통을 더욱 원활히 하기 위해 워크벤치에 국어원에 대한 답변란을 추가하여 개별 결과물에 대한 수정 및 제거 여부를 명확히 밝
히고자 하였다. 아래의 두 사례는 각각 국어원과 prop에 있어서 견해가 다른 경우와 prop에 대한 국어원의 질의가 있는 경우에 답변을 기술한 것이다. 첫 번째 사례에서는 작업자들이 선정한 prop을 유지하겠다는 견 해를 밝히고 있으며 두 번째 사례에서는 시제 서술에 대한 국어원의 질 의에 대해 답변을 하며 근거를 밝히고 있음을 확인할 수 있다.
<표 22. 언어 정보 부착의 예시>
idx | NLRW2000000005.437 |
genre | 신문 |
prev | 울산시에 따르면 울산 지역 악취 민원은 2016년 739건, 2017년 637건, 2018년 735건에 달한다. 빛공해의 경우 2016년 62건에 불 과하던 민원이 2018년에는 88건으로 45%가량 급증했다. 민원이 가장 많이 들어오는 소음ㆍ진동 관련 민원은 2016년 3007건, 2017 년 4344건, 2018년 2773건으로 집계됐다. |
current | 특히 대규모 아파트 공사와 원룸 공사가 많았던 2017년 울주군과 북구에서 소음ㆍ진동 민원이 최대 3배 가까이 증가한 것으로 확인 됐다. |
next | 이중 울산시에 환경분쟁조정 신청이 접수된 분쟁은 2016년 3건, 2017년 8건, 2018년 4건으로, 2016년 지반침하 분쟁 조정신청 1건 을 제외하곤 나머지 14건이 전부 소음과 관련된 민원이다. 환경부 와 울산시에서는 환경분쟁 민원의 원인을 규명하고 신속하게 해결 하기 위해 환경분쟁조정위원회를 구성해 운영하고 있다. 환경분쟁 조정위원회는 민사소송에 비해 상대적으로 적은 비용으로 피해 구 제를 받을 수 있다는 장점이 있으나, 주민들이 이용하기엔 절차가 복잡하다. |
pred | 확인되다 |
comp | ㄴ_것으로_ |
context+target | 민원이 가장 많이 들어오는 소음ㆍ진동 관련 민원은 2016년 3007 건, 2017년 4344건, 2018년 2773건으로 집계됐다. 특히 대규모 아 파트 공사와 원룸 공사가 많았던 2017년 울주군과 북구에서 소음 ㆍ진동 민원이 최대 3배 가까이 증가한 것으로 확인됐다. |
prop | 2017년 울주군과 북구에서 소음ㆍ진동 민원이 최대 3배 가까이 증 가하였다 |
국어원 prop | 2017년 울주군과 북구에서 소음ㆍ진동 민원이 최대 3배 가까이 증 가했다 |
내포절-모절 주어 일치 여부 | 불일치 |
내포절 시제 | 과거 |
내포절 시제소 | 없음 |
내포절 주어 인칭 | 3rd |
모절 시제 | 과거 |
모절 시제소 | 었/았 |
모절 주어 인칭 | 3rd |
함의 취소 운용소 표지 | 없음 |
함의 취소 운용소 | 없음 |
기타 (민감 사안/확인 요망) | |
국어원에 대한 답변 | 하였다/했다는 직관의 차이인 것 같으며 큰 의미가 없으므로 내포 명제를 유지하는 것이 좋을 것으로 사료됩니다. |
2.5. 검증 절차 수행
언어정보 부착 작업의 정확성과 신뢰성을 확보하기 위하여 1차 부착 작업 이후에 작업자간 교차 검증 절차를 수행하였다. 예를 들어, 연구보 조원 A가 모절의 시제소 ‘–었/았’이 없다고 판단하여 언어 정보가 누락 되었다면, 연구보조원 B가 검수하여 누락된 정보를 보완하였다. 교차 검 증은 1차 작업자의 작업 결과를 전수로 재검수하는 방식으로 진행되었다. 이와 함께, 교차검증 작업자는 1차 작업자와 의견이 불일치하거나 여전히 추가적인 검증이 더 필요할 것으로 판단되는 사례에 ‘확인 요망’ 또는 ‘민감 사안’과 같은 별도의 표시를 한 후 그 이유를 작성하였다.
또한 1차 작업자가 작업 중 재확인이 필요하다고 판단하여 남긴 메모 에 대해 교차검증 작업자는 이를 참고하여 작업물을 수정하거나, 수정을 하지 않을 시에도 그 이유를 메모에 남겨 주요 이슈를 공유할 수 있도록 하였다. 아래 <표 22> 모절의 시제소(-었/았)와 인칭(1인칭, 3인칭)에 관 한 1차 작업 및 2차 검증 내용 예시이다. 실제 작업은 온라인 워크벤치 를 경유하여 이루어졌다.
<표 23. 언어 정보 부착 작업 예시>
대상 문장 | 1차 작업 내용 | 2차 검증 내용 |
당연히 대궐 안에 그녀가 없음을 알면서도 그녀의 존재감이 너무도 또렷해 자신의 모든 감각을 의심했 다. | 모절 시제소 (없 음), 모절 인칭 (1인칭) | 주석 이슈: 모절 인칭을 1인칭에서 3 인칭으로 수정할 것. |
혼사를 꺼내놓고 이처럼 쉽게 물러 선다는 건 이미 만반의 준비를 해 놓았다는 뜻인지도 몰랐다. | 모절 시제소 (없 음) 모절 인칭 (불명 확, 논의 필요) | 주석 이슈: 모절 시제소를 없음에서 있음으로 변경할 것. (‘았’) 검토 의견: 공동연구원에 문의 |
또한 명확한 언어 정보 부착이 어려울 경우, 보조연구원 보다 상위의 공동연구원에 검토의견을 문의하도록 하였다. 이와 함께, 교차검증 과정 을 체계화하여 워크벤치에 주석 작업이 보완되지 않은 새로운 원시 데이 터를 업로드를 하면 이전 단계의 교차검증 작업자와는 다른 작업자를 배 정하였다.
3. 확신성 언어 실험 결과의 인공지능 평가 활용 방안
본 사업은 함의 분석과 관련된 확신성 언어자원을 재가공하여 인공지 능 평가에 활용하는 구체적인 방법론을 모색하였다. 이를 토대로 대표적 인 한국어 인공지능 모델의 평가결과를 도출하였다. 먼저 확신성 언어자 원을 인공지능 평가 도구로 활용하기 위해서는 데이터의 불균형을 해소 할 필요가 있었다. 이는 인공지능이 통계적 정보에 굉장히 민감하기 때문 이다. 또한 인공지능은 판별의 대상이 되는 문장의 길이(토큰 수)에 매우 민감하므로, 언어적 정보가 아닌 텍스트 구조적 특징이 인공지능의 성능
에 문제가 될 수 있다. 이러한 점은 오류 분석에서 다루었다.
또한 확신성 언어자원을 이용한 인공지능 평가에는 회귀 과제가 아닌 분류 과제를 인공지능 평가 과제로 제안하였다. 이는 가장 일반적인 인공 지능 평가 방법 중 하나인 GLUE 벤치마크 또는 자연어추론(Natural language inference; NLI) 과제가 회귀과제가 아닌 분류과제로 인공지 능을 평가하고 있기 때문이다. 본 사업에서는 이를 준용하여 인공지능 평 가를 시행하였다.
마지막으로 언어자원을 재가공하는 공정에서 함의/중립/모순의 비율을 1:1:1에 가깝게 조정하려고 노력하였다. 이는 정답 비율이 편향되어 있으 면, 인공지능 평가에 착오적 결과를 초래할 수 있기 때문이다. 따라서 인 공지능에게 제시하는 선택지가 되는 함의/중립/모순의 정답 비율이 매우 중요하며, 비율이 균형적 분포를 이루고 있지 않으면 평가가 왜곡될 우려 가 있다. 그러나 국어 말뭉치에서 관찰되는 일반적인 언어 사용에서는 내 포 명제의 사실성 또는 확신성이 모순 관계인 사례의 비율이 4%에 불과 하였다. 본 사업에서는 이 비율을 제 2 장에서 상술하는 것처럼 보완하려 고 하였으나, 공정의 어려움으로 이를 크게 보완하지는 못하였다. 따라서 향후 과제에서는 다른 자료(국어 연구 논문 등)에서 내포 명제의 사실성 이 모순 관계인 담화 구조를 추가적으로 선별하여 300개 사례 이상이 포 함되도록 할 필요가 있다.
3.1. 자연어추론 벤치마크와 인공주석물
자연어추론 벤치마크는 인공지능의 언어이해 수준 또는 언어추론 능력 을 객관적으로 평가하기 위한 데이터셋을 말한다. 최근에는 인공지능의 취약점이 추론능력으로 지적되고 있어 평가 데이터셋의 중요성을 더하고 있다. 일반적으로, 논리적 관계가 존재하거나 존재하지 않는 서로 다른
두 문장을 주고, 그 관계를 인공지능에게 묻는 것이다.
문장 1 | 철수는 영희에게 비둘기를 보았냐고 물었다. |
문장 2 | 영희는 비둘기를 보았다. |
선택지 | 함의/중립/모순 |
정답 | 중립 관계 |
위의 예시에서 문장 1과 문장 2는 ‘영희’ ‘비둘기’ ‘보다’와 같은 동일 한 단어로 구성되었지만, 문장 1이 사실이라고 할 때, 문장 2가 반드시 참이라고 할 수 없으므로 논리적 관계는 중립이다. 만약 인공지능이 단순 히 어휘가 유사하다고 서로 다른 두 문장이 논리적으로도 유사하다고 판 별한다면, 인공지능의 언어추론 능력은 부족하다고 볼 수 있다.
인공지능 모델에 따라 차이가 있지만 자연어추론 벤치마크에서 인공지 능은 80 ~ 90% 내외의 정답률을 보인다. 그러나 최근 컴퓨터과학 연구 에서는 인공주석물(annotation artifact)에 의하여 정답률이 부풀려지고 있다는 지적이 있었다. 이는 평가 데이터셋이 엄격하게 논리관계를 묻지 못하고, 인공지능이 논리관계가 아닌 패턴을 포착하여 잘못된 방법 또는 휴리스틱으로 높은 정답률을 보인다는 것이다.
해외 선행 연구에서는 이러한 평가의 취약성을 해소할 방법으로 함의 분석 말뭉치 또는 CommitmentBank (de Marneffe et al. 2019)를 재 가공하여 활용하는 것이 제안되었다. 이는 복잡한 언어구조에 대한 이해 없이는 정확한 함의 분석이 어렵다는 점에 착안하여, 인공지능이 잘못된 휴리스틱으로 정답률을 부풀리는 것을 최소화할 수 있기 때문이다.
3.2. 평가 방법
자연어추론 벤치마크와 인공주석물에 대한 문제의식에서 출발하여, 최 신 한국어 인공지능 모델의 언어추론 능력을 평가하기 위해 본 사업의
결과물을 활용할 것을 제안한다. 또한 한국어의 특성에 적합한 형태로 확 신성 판단 실험 결과와 언어정보 주석을 재가공할 수 있는 구체적인 방 법론을 제시하였다.
본 사업의 결과물은 자연어추론 벤치마크와 달리 서로 다른 문장의 관 계가 인위적이지 않다. 이는 국립국어원 말뭉치에서 추출된 일반 언어 사 용자의 자연스러운 발화를 대상으로 하기 때문이다. 또한 대상 담화에서 생성된 가설이 원래 문장의 내포절이기 때문이다.
문장 1 | 식약청에서 허가한 치료약을 사용해 개발도중 독성문제로 인 해 실패할 확률이 거의 없다는 장점이 있다. |
문장 2 | 식약청에서 허가한 치료약을 사용하면 개발도중 독성문제로 인해 실패한다 |
선택지 | 함의/중립/모순 |
정답 | 모순 관계 |
위의 예시에서 문장 2는 문장 1의 내포절에서 구성된 내포 명제로, 모 문의 술어인 ‘-ㄹ 할 확률이 거의 없다는 장점이 있다’와 자연스럽게 호 응한다.
그러나 모문의 술어가 형태적으로 ‘없다’ ‘못하다’ ‘아니다’의 부정어 표현인 경우, 내포 명제의 사실성을 반드시 모순으로 확신하는 것은 아니 다. 예를 들어, ‘우리 집이 허물어지지 않았으면 좋겠어’는 부정어 표현 ‘않았으면’이 있지만 내포 명제 ‘우리 집이 허물어진다’는 사실을 함의하 지 않는다. 이러한 평가 데이터를 보완하는 것은 중요한데, 이는 인공지 능이 단순히 부정어의 형태적인 정보만 학습하여 논리적 관계에 대한 이 해 없이 정답을 맞힐 수 없도록 하기 때문이다. 따라서 인공주석물 문제 를 해소하기 위한 중요한 평가자료이다.
3.3. 평가 결과
본 연구의 인공지능 평가 방법과 절차, 그리고 결과는 다음과 같았다. 학습 데이터가 인공지능 언어모델에 얼마나 잘 활용될 수 있는지 판단하 기 위해 한국어를 지원하는 대표적인 BERT 모델인 M-BERT, KoBERT, KR-BERT를 이용하였다. 전체 데이터 가운데 70%(1,256쌍)는 훈련 데이 터로, 30%(313쌍)는 검증 데이터로 활용하였다. 정답 라벨과 예측 라벨 간에 학습에 따른 선형적인 상관관계의 강도를 파악하기 위해 상관계수 를 측정하였다. 예측 정확도를 측정하여 모델의 실질적인 활용도를 측정 하였다.
<표 24. Google Multilingual BERT (M-BERT)>
학습횟수 | 손실값 | 학습률 | 피어슨 상관계수 | 스피어맨 상관계수 | 정확도 |
1 | 3.42 | 1.60E-05 | 0.04 | 0.04 | 0.39 |
2 | 3.20 | 1.87E-05 | 0.08 | 0.02 | 0.44 |
3 | 3.20 | 1.69E-05 | 0.08 | 0.02 | 0.45 |
4 | 3.18 | 1.51E-05 | 0.07 | 0.01 | 0.45 |
5 | 3.17 | 1.33E-05 | 0.08 | 0.05 | 0.45 |
6 | 3.16 | 1.15E-05 | 0.08 | 0.01 | 0.45 |
<표 25. M-BERT 검증 데이터셋 결과>
학습횟수 | 손실값 | 학습률 | 피어슨 상관계수 | 스피어맨 상관계수 | 정확도 |
1 | 3.42 | - | 0.07 | 0 | 0.05 |
2 | 3.20 | - | 0.17 | 0.10 | 0.48 |
3 | 3.20 | - | 0.17 | 0.10 | 0.48 |
4 | 3.18 | - | 0.17 | 0.10 | 0.48 |
5 | 3.17 | - | 0.17 | 0.10 | 0.48 |
6 | 3.16 | - | 0.17 | 0.10 | 0.48 |
<표 26. KoBERT>
학습횟수 | 손실값 | 학습률 | 피어슨 상관계수 | 스피어맨 상관계수 | 정확도 |
1 | 1.72 | 2.00E-05 | 0 | 0 | 0.37 |
2 | 1.59 | 1.78E-05 | 0.11 | 0.06 | 0.45 |
3 | 1.58 | 1.55E-05 | 0.11 | 0.06 | 0.45 |
4 | 1.58 | 1.33E-05 | 0.11 | 0.06 | 0.45 |
5 | 1.58 | 1.11E-05 | 0.11 | 0.06 | 0.45 |
6 | 1.57 | 1.11E-05 | 0.11 | 0 | 0.06 |
<표 27. KoBERT 검증 데이터셋 결과>
학습횟수 | 손실값 | 학습률 | 피어슨 상관계수 | 스피어맨 상관계수 | 정확도 |
1 | 1.72 | - | 0.10 | 0.06 | 0.46 |
2 | 1.59 | - | 0.10 | 0.06 | 0.46 |
3 | 1.58 | - | 0.10 | 0.06 | 0.46 |
4 | 1.58 | - | 0.10 | 0.06 | 0.46 |
5 | 1.58 | - | 0.10 | 0.06 | 0.46 |
6 | 1.58 | - | 0.10 | 0.06 | 0.46 |
<표 28. KR-BERT >
학습횟수 | 손실값 | 학습률 | 피어슨 상관계수 | 스피어맨 상관계수 | 정확도 |
1 | 1.77 | 5.34E-6 | 0.00 | 0.00 | 0.34 |
2 | 1.54 | 1.07E-05 | 0.09 | 0.04 | 0.46 |
3 | 1.39 | 1.60E-05 | 0.24 | 0.19 | 0.49 |
4 | 0.99 | 1.98E-05 | 0.69 | 0.66 | 0.66 |
5 | 0.46 | 1.93E-05 | 0.88 | 0.88 | 0.86 |
6 | 0.21 | 1.87E-05 | 0.96 | 0.96 | 0.95 |
<표 29. KR-BERT 검증 데이터셋 결과 >
학습횟수 | 손실값 | 학습률 | 피어슨 상관계수 | 스피어맨 상관계수 | 정확도 |
1 | 1.61 | - | 0.167 | 0.10 | 0.45 |
2 | 1.59 | - | 0.167 | 0.10 | 0.45 |
3 | 1.55 | - | 0.367 | 0.32 | 0.43 |
4 | 1.52 | - | 0.482 | 0.40 | 0.47 |
5 | 1.66 | - | 0.546 | 0.48 | 0.44 |
6 | 1.92 | - | 0.539 | 0.47 | 0.46 |
모델마다 학습의 효율성에 큰 차이를 보였다. M-BERT, KoBERT와 달 리 소규모 언어모델을 지향한 KR-BERT에서 학습 효율을 보여주었다. 훈 련 성과를 보았을 때 지속적으로 성능 향상이 나타나는 것으로 보아 올 바르게 학습이 이루어지는 것으로 관찰할 수 있었다. 검증 성과를 보아 4 에포크에서 최적의 성능을 나타냈으며 이후로 훈련 데이터에 과적합되어 나머지 새로운 테스트 데이터에 대한 일반화에 실패할 수 있었다.
최적의 결과를 보인 에포크 4에서는 피어슨 점수가 0.5에 근접하여 어 느 정도 상관관계를 보인 것이라고 볼 수 있으나, 이는 해석의 여지에 따 라 다르며, 일반적으로 0.6 이상을 유의미한 상관관계로 볼 수 있다는 관 점에 따라 인공지능 모델의 확신성 이해 능력이 충분하지 않은 것으로 볼 수 있었다. 다만, 정확도 또한 0에서 6까지 라벨을 예측하는 7분지 예 측 태스크라는 점을 감안할 때, 매우 어려운 분류과제의 성격에 비하여
일정 부분 유의미한 성과를 보인 것으로 판단되었다.
3.4. 인공지능 모델 오류 분석
본 사업팀에서는 인공지능 모델이 내포 명제의 확신성과 관련하여 한 국인어 사용자의 직관과 상이한 패턴을 보이는 사례를 대상으로 오류 분 석을 실시하였다. 이는 인공지능과 인간의 언어 능력이 어떤 차이를 보이 는지 살펴볼 수 있는 중요한 사례이다.
분석 결과를 제시하면, 한국어 인공지능(KR-BERT)은 모순적 추론 관 계를 가진 내포 가설을 잘 이해하지 못하는 것으로 나타났다. 한국어의 자연스러운 발화와 한국어 화자의 직관을 토대로 인공지능을 평가하였다 는 점에서 인공주석물에 취약하지 않은 평가이다. 그러나 아래 사례에서 관찰되듯이, 일부 오류는 다음의 요소들 중 하나 이상이 관여하였을 수 있다. (1) 전제 문장이 매우 길거나(60단어 이상) 복잡하여 충분한 교육을 받은 성인도 어려워할 문장이며, (2) 구어적 특성이 많은(어떻게 -> 어뜨 케) 전제 문장은 문어체 텍스트로만 학습한 인공지능에게는 알 수 없는 어휘가 많은 텍스트(Out of Vocabulary (OOV) 문제)로 처리되었을 수 있으며, (3) 내포 명제를 생성하는 과정에서 휴리스틱을 의도적으로 배제 하였다는 점에서 오류가 발생하였을 수 있다.
<그림 14. BERT를 이용한 예측 결과 분석 접근법>
위의 분류체계에 따라 각 함의 관계별로 인공지능 모델이 확신성 평균 점수를 정답으로 할 때, 예측이 맞거나 틀리는 경우를 분류하여 사례를 수집하였다.
<표 30. 오류 분석의 예시 (함의)>
확신성 함의 | |||
전제 문장 | 내포 명제 | 정답 | 예측 |
지난 십오일 경남 김해의 한 이십 | |||
대 여성이 사십 대 남성을 살해한 | |||
끔찍한 사건이 벌어졌습니다.처참했 | |||
던 사건 현장 살해 직후 여자는 바 | 김해의 한 이십 대 여 | ||
로 경찰에 자수를 했다고 하는데요. | 성과 사십 대 남성은 | ||
그녀는 왜 이런 범행을 저지른 것 일까요? 피의자 어머니의 미용실에 | 피의자 여성 어머니의 미용실에서 처음 만난 | 5 | 5 |
서 처음 만난 두 사람 이후 가끔 | 이후 가끔 연락을 주고 | ||
연락을 주고 받았다고 하는데요. 거 | 받았다 | ||
부에도 불구하고 사건 당일 남자는 | |||
여자의 집까지 찾아와 실랑이를 벌 | |||
였다고 합니다. | |||
경직된 분위기를 부드럽게 바꿀 수 | |||
있는 가장 좋은 방법이 바로 웃음 | |||
을 이용하는 것이다. '웃음은 만국 공통어'라는 말이 있을 정도로, 웃 음에는 사람들의 마음을 열어 주는 | 웃음은 만국 공통어이 다 | 5 | 5 |
힘이 있다. 대화는 통하지 않아도 | |||
함께 웃을 수 있다면 서로의 마음 |
은 이미 반은 열려 있는 것이나 다 름없다. | |||
분리대와 경계블럭 등 안전시설물 | |||
이 설치돼 있었지만 버스 정류장을 | |||
제외한 자전거 전용도로의 일부 구 | |||
간이 군데 군데 끊겨 있었다. 일부 | |||
자전거 운전자들은 자전거 전용도 | |||
로가 끊기자 인도ㆍ자전거 겸용도 로로 이동했지만 상당수는 자전거 전용도로가 끊겨있다는 것을 모른 | 자전거 전용도로가 끊 겨있다 | 6 | 5 |
채 차도를 그대로 내달렸다. 그때마 | |||
다 뒤따르던 차량들은 차도를 달리 | |||
는 자전거 운전자들을 향해 경적을 | |||
울리거나 아슬아슬하게 스쳐 지나 | |||
갔다. | |||
정말 그이들은 '혜성처럼 갑자기' | 김준호와 손심심이 거 둔 우리 소리의 충격이 우리들 고정관념의 빈 틈을 찌르는 변법자강 이다 | ||
등장한 것일까. 그이들의 이력을 조 | |||
금이라도 아는 이라면 결코 '갑자기 | |||
'라는 단어를 쓸 수 없으리라. 나는 김준호와 손심심이 거둔 우리 소리 | 6 | 5 | |
의 충격이 우리들 고정관념의 빈틈 | |||
을 찌르는 변법자강이라고 단언한 | |||
다. |
위와 같은 분석체계에 따라 인공지능 모델의 함의판단에 대하여 오류 분석을 진행하였다. 인공지능 모델이 문장의 함의 판단에 대해서는 어느 정도 정확한 모습을 보이나 그 정도에 대해서는 파악이 어려운 것으로 보였다.
<표 31. 오류 분석의 예시 (중립)>
확신성 중립 | |||
전제 문장 | 내포 명제 | 정답 | 예측 |
누가 보아도 치욕스러운 결혼이었 | |||
다. 그렇다 해도 평범하고 행복한 여인으로 살 수 있기를 바라는 마 음은 죄가 아닐 것이다. “오라버니, 아무 걱정 마세요.” 오히려 덕혜가 | 덕혜는 평범하고 행복 한 여인으로 살 수 있 을 것이다 | 2 | 2 |
영친왕을 위로했다. | |||
센터에는 총 5명의 운영 인력을 투 | 센터 개소를 통해 지역 청년의 능동적 사회참 여기회를 보장하고, 자 립기반을 형성해 권익 증진에 기여할 것이다. | ||
입된다. 동구는 센터 개소를 통해 | |||
지역청년의 능동적 사회참여기회를 보장하고, 자립기반을 형성해 권익 | 4 | 4 | |
증진에 기여할 것으로 기대하고 있 | |||
다. | |||
추모객들의 눈물 속에서 '천개의 바 | |||
람이 되어'를 부르고 내려온 합창단 | |||
은 무대 위에서 끝끝내 참아냈던 | |||
눈물을 터뜨리기도 했다. 친구의 품 | |||
에 안겨 서럽게 울던 정명여자중 2 학년 박주경(17·여)양은 "세월호 선 체가 있는 목포신항에 와서 노래를 부르려니 사고 당시가 생각나서 | 안전을 더 소중하게 생 각하는 사회가 될 것이 다 | 3 | 4 |
I57눈물이 멈추질 않는다"며 "안전 | |||
을 더 소중하게 생각하는 사회가 | |||
됐으면 좋겠다"는 바람을 전했다. | |||
추모객들은 맹골수도 깊은 바다에 |
서 부식된 세월호 선체 앞에서도 슬픔을 감추지 못했다. | |||
Comenius 같은 교육사상가는 인류 | |||
의 이상주의에 호소하여 그들로 하 | |||
여금 제도적인 생활보다도 이성을 | |||
존중하게 했다. Comenius는 엄격 | |||
한 계급적인 차별이 심한 사회에서 | 심한 계급적인 차별을 | ||
는 이것을 없애기 위해서 교육을 | 없애기 위해서 교육을 | 3 | 5 |
널리 보급해야 할 것이라고 생각했 | 널리 보급해야 한다 | ||
다. 그러나 Machiavelli는 교육은 | |||
전쟁의 씨를 뿌리고 집권자의 권역 | |||
을 높이는 데 이용되어야 할 것이 | |||
라고 생각했다. |
또한 인공지능이 중립의 범주에 들어서는 판단은 대부분 옳게 하였으 나 그 정도에 대한 판단을 옳게 하지 못한 것으로 보였다. 이때, 중간에 섞인 ‘Comenius’와 같은 영어가 모델의 판단에 혼란을 준 것으로 보인 다.
<표 32. 오류 분석의 예시 (모순)>
확신성 모순 | |||
전제 문장 | 내포 명제 | 정답 | 예측 |
‘그럼 저 여자는 제2 황비인가? 근 데 서로 꽤 친한가 보네.’ 그들의 대화를 들으면서 지스는 보통 귀족 이나 왕족들은 가족 간에 사이가 | 보통 귀족이나 왕족들 은 가족 간에 사이가 안 좋다 | 1 | 1 |
안 좋다고 생각했던 편견을 바꿨다. 카인이야 원체 성격이 그러니까 넘 어가더라도 황후와 다른 황비들 간 의 사이는 좋아 보였다. | |||
화석이 간직한 비밀은 또 없을까 요? 생물들이 나타난 차례를 알 수 있어요 지구에는 수많은 생물이 살 아가고 있어요. 하지만 모든 생물이 한꺼번에 생겨난 것은 아니에요. | 모든 생물이 한꺼번에 생겨났다 | 0 | 0 |
여기에 고기만 있었더라면 어트게 보면 쪼금 더 물릴 수가 있고 쪼금 더 퍽퍽할 수 있는 그런 느낌들을 이 취나물이 향기와 그 맛으로 함 께 포장을 또 해주니까 먹는 데 있 어서 불편함이 없는데요. 네. 음~ 언제 씹었냐는 듯이 입안이 개운해 지는 거 같은데요 | 취나물은 고기와 함께 먹을 때 불편하다 | 0 | 5 |
희재: 옛날 생각나네. 꼭 춘천 가는 열차 탄 기분이야. 희자: 대체 어딜 가는데 그래? 혜신: (미소로) 아주 괜찮은 맛집이 있대요. 희자: 지금 그 맛집 찾아가는 거야? 혜신: ... 네. 희재: 야, 경치 좋다. 누님, 바 깥 구경 좀 하세요. 희자: 우리 인 생이 이 기차 같으면 얼마나 좋겠 냐? 볼 거다 보면서 여유부릴 수 있다면 말이다. 희재: 그러게요. 요 | 우리 인생이 기차 같다 | 1 | 4 |
즘 사람들은 다들 빨리 가려고만 해요. |
모순의 경우 절대적인 학습 데이터의 부족으로 비교적 정확한 예측이 어려운 양상을 보여준다. 이는 향후 과제에서 모순 함의 관계 데이터를 추가로 수집할 필요가 있음을 시사한다. 담화문의 경우나 전제 문장이 지 나치게 긴 경우 예측이 어려워지는 모습을 보여주었다.
제 5 장 결론 및 제언
1. 결론
본 사업의 대상과 범위는 한국어 확신성 담화를 수집하고, 관련 확신성 언어 실험과 1,500건의 언어정보 부착 공정을 수행하는 것이었다. 본 사 업이 달성한 성과는 아래 표에 요약되어 있다.
<표 33. 사업 요약>
확신성 담화 추출 자료 수 | 필터링 이전 실험 문항 수 | 필터링 이후 실험 문항 수 | 언어정보 부착 수 | |
문어/신문 | 106,115 | 1,264 | 1,021 | 1,021 |
구어 | 59,110 | 421 | 420 | 420 |
대화 | - | 121 | 121 | 121 |
종합 | 165,225 | 1,806 | 1,562 | 1,562 |
단위(수)는 어절 수 또는 문장 수가 아닌 개별 확신성 담화의 사례를 단위로 하였다. 확신성 담화 추출 자료 단계에서는 ‘대화’가 ‘구어’에 포 함되었다. 필터링은 윤리적으로 민감한 사례이거나, 실명이 언급되어 논 란의 여지가 있을 수 있는 실험 문항을 제외한 것이다. 본 사업에서는 필 터링된 실험 문항을 일률적으로 제거하지 않고, 별도로 마킹하여 관리하 였다. 언어정보 부착은 확신성 실험 종료 후, 보문소, 시제, 인칭 등의 정 보를 부착한 것이다.
위 사업 수행을 통해 본 사업팀이 달성한 성과는 다음과 같다. 첫째,
고품질의 한국어 확신성 언어 자원을 구축하였다. 기존 국어 말뭉치를 토 대로 하여 사업의 연속성을 확보하면서 1,500건 이상의 정제된 확신성 담화를 구축하였다. 또한, 60명 이상의 한국어 화자가 대규모 언어 실험 에 참여함으로써 신뢰할만한 실험 결과를 도출하였다. 한편 다양한 컴퓨 터 도구를 활용하여 공정을 자동화함으로써 향후 추가적인 말뭉치 구축 에 필요한 공정 구축의 토대를 마련하였다. 이처럼 언어학계와 전산학계 에 기여할 수 있는 실용적 성과를 거두었다는 점에서 본 사업은 소기의 목적을 달성하였다고 말할 수 있다.
둘째, 박사급 공동연구원과 다수의 (보조)연구원의 면밀한 검토를 거쳐 확신성 말뭉치 구축 지침을 정비하였다. 이는 향후 관련 사업의 효율성 제고에 도움을 줄 것이다. 말뭉치 구축에 참여하는 작업자들의 일관성 있 는 작업을 위해 구체적인 지침 마련은 매우 중요하다. 본 사업은 담화 추 출, 실험 수행, 언어정보 부착의 공정별로 체계화된 지침을 마련하였고, 구체적인 사례와 함께 별도의 지침 가이드라인을 정비하였다. 확신성 말 뭉치 구축 사업이 단발성이 아닌 연속적, 장기적으로 발전할 수 있는 토 대가 마련된 것이다.
셋째, 한국어의 함의 관계와 화자의 확신성 이해에 관한 대규모 언어 연구 수행 결과, 기존의 관련 영어 연구에서 나타난 확신성 패턴과 유사 한 패턴을 한국어에서도 발견하였다. 다만 연구원과 자문단의 종합적인 견해에 따르면, 영어와 유사하게 내포 가설의 함의 관계와 한국어 화자의 확신성은 반드시 일치하는 것은 아니었다. 한국어 화자의 직관에 따라 이 론적 함의 관계를 이해하는 양상은 다소 차이가 있었으며, 이는 화용론적 맥락 요소 등이 관여하였기 때문이라고 볼 수 있다.
넷째, 확신성 국어 자원을 활용하여 인공지능 평가를 수행함으로써 4차 산업 혁명과 정보 산업의 발전에 직접적으로 기여하는 실용적인 성과를 거두었다. 최근의 대규모 인공지능 개발에서는 자연어이해 수준을 점검할 수 있는 벤치마크의 필요성이 더욱 강조되고 있는 상황이지만 구조화된 자연어이해 평가가 부족하다는 문제가 있었다. 본 사업이 확신성 국어 자
원을 재가공하여 수행한 공정은, 한국어 인공지능 평가의 준거기준을 보 강하여 제시했다는 점에서 가치가 있다.
종합하면, 본 사업은 확신성 담화 주석 정보 부착과 관련 대규모 언어 실험 수행을 통해 한국어 화자의 국어 사용 양상을 정량적으로 기술하였 다. 특히 한국어 연구의 측면에서 대규모 언어 실험을 계획하고 성공적으 로 수행하였다는 점에서 주목할 만하며, 이를 활용하여 인공지능 평가의 한 방향을 구체적으로 제시했다는 점에서 의의가 있다.
2. 제언
본 사업은 고품질의 확신성 언어자원을 구축하였다는 점에서 사업의 목적을 달성하였다고 평가할 수 있다. 그러나 사업 수행의 과정에서 발견 된 두 가지 문제점은 한계로 남아 있다.
첫째, 구축된 한국어 확신성 담화의 함의 관계가 상당히 편향되어 있 다. 이는 실제 언어 사용에서 내포 명제의 사실성과 이에 대한 확신성 정 도가 고르게 분포하는 것이 아니라, 편향된 패턴을 보임을 의미할 수 있 다. 이러한 언어 사용 패턴을 재가공하여 7분지 분류 문제로 만들 때, 데 이터 편향의 문제가 발생할 수 있다. 예를 들어, 전체 분류 문제에 대하 여 문제의 이해와 상관없이 하나의 응답만 답변하여도 데이터 편향에 따 라 정답률이 매우 높게 나올 수 있기 때문이다. 이러한 문제는 인공 주석 물 문제와 연관이 있으며, 본 사업은 이러한 문제를 충분히 해소하지 못 하였다. 따라서, 향후 함의 분석 과제에서는 문항 응답의 평가가 고르게 분포할 수 있도록 모순/중립 함의관계와 관련된 추가적인 실험과 문항 추출 작업이 필요할 것이다.
둘째, 확신성 언어 실험 수행 과정에서 문항 응답이 유실되거나 일부 실험 참여자가 응답을 완료하지 않는 등의 문제가 있었다. 하나의 문항에 20명의 실험 참여자가 응답을 하는 것이 원칙이었으나, 실험 수행에 사
용된 구글 서베이가 전산적 오류로 인하여 응답을 누락시켜 19명의 응답 만 기록된 문항이 일부 존재하였다. 또한 동시 접속한 인원이 중복 응답 하여 21명의 응답을 기록한 문항도 존재하였다. 이는 대면 오프라인 실 험을 진행할 수 없는 환경에서 불가피하게 발생한 문제로, 향후 온라인 환경에서 관련 언어 실험을 수행할 경우 사전에 이러한 전산 오류 문제 를 예방해야할 것이다.
마지막으로 본 사업팀은 향후 연구과제로 인공지능 평가를 포함한 산 업적 활용방안과 국어 말뭉치 연구자원으로서의 활용방안을 제안한다. 인 공지능 산업의 성장으로 언어모델의 크기가 기하급수적으로 증가하게 되 면서 자연어 이해의 중요성 역시 폭발적으로 증가하고 있다. 자연어 이해 의 평가 방법론으로 함의 분석과 확신성 말뭉치가 적극 활용된다면 한국 어 언어 모델의 성능 평가에 기여할 수 있다. 또한 지식 그래프 (knowledge graph)를 활용하여 모델의 학습이 추가적으로 이루어졌을 때, 함의 분석과 같은 언어적으로 복잡한 현상을 이해하는 성능이 향상되 는지 살펴볼 필요가 있다.
<그림 15. ConseqNet 시스템의 아키텍쳐 (Wang et al. 2019)>
Wang et al. (2019)에 따르면, 단순히 텍스트 정보를 분류하는 것을 넘어서 구조화된 정보를 이용한 지식 추론을 통해 상당한 수준의 성능 향상을 이루어낼 수 있다. 지식 추론이란 전제와 가설이 되는 텍스트로부 터 상식 그래프(commonsense knowledge graph)를 성하고, 이를 임 베딩하여 두 문장 각각의 그래프 기반 함의 모델을 만들어 분류하는 방 식이다. 단순히 텍스트 정보뿐만 아니라 상식 그래프 또한 추가적으로 이 용하기 때문에 모델의 성능 향상이 가능한 것이다.
상식 그래프를 이용한 자연어 이해 과제에서도 본 사업에서 구축한 텍스트 데이터가 유용하게 활용될 수 있어 향후 보완적인 시도가 필요하 다. 구체적으로는, 향후 과업에서는 상식 그래프(knowledge graph)를 학 습한 한국어 인공지능이 그렇지 못한 한국어 인공지능보다 더 뛰어난 성 능을 보이는지 평가할 수 있다. 이 때, 본 사업이 구축한 확신성 언어자 원을 활용하면, 한국어 문장구조에서 자연스럽게 나타나는 복잡한 추론 구조를 인공지능에 물어봄으로써 상식 그래프의 효과성을 입증할 수 있 다. 본 사업의 확신성 언어자원은 부자연스럽게 성된 인공주석물이 아 닌 말뭉치의 자연스러운 발화와 한국어 화자의 직관을 계량화한 언어자 원이므로 더욱 유용할 것이다.
붙임 1.
추론_확신성 분석 말뭉치 2021 구축 지침서
1. 개요
1.1. 본 과제의 목적
어떤 발화에서, 화자(필자)가 전달하는 메시지를 이해하려고 할 때, 우리는 화자 가 확신하고 있는(또는 화자가 확신하고 있다고 알리고자 하는) 내용이 무엇인 지 알아야 한다. 언중간의 일반적인 화행과 관습적인 문법 형식에 따라 화자의 확신(speaker’s commitment)은 사건의 내용을 객관적으로 진술하는 평서문의 형태로 서술될 때 가장 명확하게 판단할 수 있다(남기심·고영근 2014). 하지만 실제 언어 사용에서 화자의 각은 서법(mood)의 범주 내에서 의문문, 명령문, 청유문 등으로 다양하게 표현될 수 있으며(임동훈 2008, 2011), 청자(독자)는 평 서문으로 실현되지 않은 자리에서 명제를 인식해 낸 후, 인식한 명제에 대한 화 자의 확신성(참/거짓의 정도)을 추론한다.
본 사업의 목적은 다양한 문법 범주의 내포문에서 인식되는 명제에 대한 화자 의 확신성 정보를 부착한 한국어 말뭉치를 구축하는 것으로, 내포문에서 추출한 명제에 대해 화자가 확신하는 정도를 모문 및 주변 맥락과 관련지어 분석한다. 전통적인 의미 이론에서는 내포 명제의 (비)사실적 함의는 모절(matrix clause) 의 술어에 의해 결정되는 것으로 알려져 왔다. 이 술어들은 ‘사실성 술어 (factive predicate)’와 ‘비사실성 술어(non-factive predicate)’의 이분법 체계 로 분류되었다(Kiparsky & Kiparsky 1971; Karttunen 1971, 2013). 예를 들 어 (1)에서 know와 같은 동사는 대표적인 사실성 술어인데, 아래와 같이 화자 가 내포절에 가지는 참의 진리값을 전제한다. 반면 (2)에서 비사실성 술어인 believe는 내포절의 참의 진리값을 전제하지 않는다.
(1) ㄱ. Mary says: John knows that it is snowing. ⇒ It is snowing. ㄴ. know(p) ⇒ p
(2) ㄱ. Mary says: John believes that it is snowing. ⇏ It is snowing. ㄴ. believe(p) ⇏ p
범언어적으로 이러한 (비)사실성 전제는 여러 언어에서 발견되며(Iatridou 2000; Horn 2014), 한국어에서도 내포절의 (비)사실성에 영향을 미치는 보문소와 보
문 술어에 대한 많은 연구가 진행되었다(강범모 1983; 이정민 2018, 2020; Han 1996, 2006; Lee 2019a, 2019b).
하지만 최근 코퍼스와 실험을 통한 연구에서 (비)사실성 술어의 구분은 전통 적인 이분법으로 이루어지는 것이 아니라 척도 양상을 나타낸다고 주장되었다 (Marneffe et al. 2019). 이에 따라 확신성 말뭉치에 기반한 화자의 확신성 실 험을 통해 45개의 영어 (비)사실성 술어들의 문맥을 함의(entailment), 중립 (neutral), 모순(contradiction)의 삼분적 구조로 구분하였다.
국립국어원에서 2020년에 수행한 ‘말뭉치 함의 분석 및 연구’(국립국어원, 2020) 사업(이하 1차 연구)은 Marneffe et al.(2019)의 연구에 따라, 함의 취소 운용소(entailment canceling operator)를 포함한 7개의 보문소와 27개의 술 어로 이루어진 담화 구조를 분석하여 어떠한 문맥에서 주어진 언어 표현에 대한 화자의 확신성이 영향을 받는지를 분석하였다.
1차 연구의 결과물은 내포문의 사실성 연구를 수행할 때 유용한 자료이며, 인 공지능 언어모델이 내포문과 모문 사이의 함의 관계를 추론할 수 있는지 평가하 는 용도로 활용할 수 있다. 그러나 1차 연구에는 다음과 같은 한계가 있다. 우 선, 제한된 수의 술어, 보문소, 함의 취소 운용소로 구성된 문맥만을 대상으로 하였기 때문에 내포문과 모문간 함의 관계에 대한 다양한 사례를 반영하지 못한 다. 따라서 언어 모델이 이 결과물에 기반한 추론 과제를 모두 해결하였다고 하 더라도, 내포문과 모문 간의 함의 관계를 잘 추론한다는 근거로는 충분하지 않 다. 다음으로, 실제 언어 사용에서 화자의 확신성은 문장 이상의 범위를 고려하 여야 파악할 수 있는 경우들도 있으나, 1차 연구는 내포문과 모문 간의 관계만 을 고려하는 경향이 있었다.
따라서 ‘2021년 말뭉치 함의 분석 및 연구’는 1차 연구를 다음과 같은 방향으 로 확장한다. 첫째, 1차 연구보다 다양한 유형(총 198개)의 보문소를 선정하여 다양한 한국어의 언어 사용을 반영한다. 보문소와 술어의 유형을 가급적 제한하 지 않고, 내포절에 대한 화자의 확신성을 담은 용례를 최대한 다양하게 포착한 다. 둘째, 본 과제에서는 함의취소운용소를 포함하지 않는 문맥도 자료에 포함 한다. 1차 연구는 보문소, 술어, 함의취소운용소를 모두 포함한 문맥만을 추출 하였다. 이는 특정 연구를 위해서는 바람직한 수집 방법일 수 있으나, 내포문에 서 인식되는 명제의 확신성을 인공지능이 전반적으로 추론할 수 있는지 평가하