Study on DeveLopment of Corpus for TextuaL EntaiLment under TextuaL Commitment Perspective
국립국어원 2020-01-03
11-1371028-000814-01
발 간 등 록 번 호
말뭉치 함의 분석 및 xx
사업 책임자 x x x
x x 문
국립국어xx 귀하
국립국어원과 체결한 xx용역 계약에 따라 ‘말뭉치 함의 분석 및 xx’에 관한 xx 보고서를 작성하여 xx합니다.
■ 사업기간: 2020년 5월 ~ 2020년 12월
2020년 12월 12일
사업 책임자: x x x (㈜xxxxxx)
사업 수행자 ㈜xxxxxx
사업 책임자 xxx
사업 참여자 xxx xxx xxx xxx
xxx xxx
xxx xxx
xxx xxx
xxx xxx
xxx xxx xxx
<사업 수행자> ㈜xxxxxx
사업 책임자 | xxx((주)xxxxxx) |
사업 참여자 | xxx((주)xxxxxx) |
xxx((주)xxxxxx) | |
xxx((주)xxxxxx) | |
xxx((주)xxxxxx) | |
xxx((주)xxxxxx) | |
xxx((주)xxxxxx) | |
xxx((주)xxxxxx) | |
xxx((주)xxxxxx) | |
xxx((주)xxxxxx) | |
xxx((주)xxxxxx) | |
김수이((주)xxxxxx) | |
xxx((주)xxxxxx) | |
xxx((주)xxxxxx) |
<국문 xx>
말뭉치 함의 분석 및 xx
본 사업의 목적은 인공 지능 xx 개발 및 국어학 xx를 위해 실제 언어 자료인 말뭉 치를 xx으로 함의 xx를 xx하고 분석하는 방법론을 개발하고 이를 실제로 적용함으 로써 정밀한 언어 xx가 부착된 말뭉치를 구축하는 것이다. 구체적으로는 내포절의 (비) 사실성 함의에 xx xx의 확신성에 xx을 주는 요인을 분석하고, 언어 xx를 부착한 함의 분석 말뭉치를 구축하는 것이 목표이다.
이를 위하여 2018년부터 2019년까지 국립국어원에서 구축한 문어, xx, 구어 말뭉치에 서 말뭉치 유형별로 총 1,800건(문어 700건, xx 700건, 구어 400건)을 분석 xx으로 xxx여 분석 지침을 xx하고 설문 조사를 실시하였다. 내포 xx에 xx 확신성 xx 를 평가하기 위해 설문 응답 자료를 바탕으로 술어, 보문소, 함의 취소 xx소, xx 등 각종 언어 xx를 부착하고 언어 xx 간의 xxxx를 통계적으로 확인하였다.
본 사업의 시사점은 다음과 같다. 첫째, 본 사업을 통해 구축된 함의 분석 말뭉치는 한 국어 xx 언어 추론 시스템 개발 등 다양한 분야에 xx될 수 있을 것이다. 둘째, 한국 어는 술어뿐만 아니라 보문소, 함의 취소 xx소 등이 결합된 단위를 입체적으로 고려해 야 확신성 판단의 신뢰도를 높일 수 있다. 셋째, 본 사업은 말뭉치에 나타나는 자연스러 운 담화를 xx으로 내포 xx에 xx 확신성 판단을 객관적으로 파악하기 위한 본격적 시도로, 본 사업의 xx 결과를 바탕으로 기구축된 언어 자원의 활용도를 높이기 위해서 는 정밀하게 분석된 언어 자료의 축적도 함께 xx되어야 할 것이다.
주요어: 함의 분석, 확신성, 술어, 보문소, 함의 취소 xx소
<Abstract>
Study on DeveLopment of Corpus for TextuaL EntaiLment under TextuaL Commitment Perspective
We aim to develop a methodology for extracting and analyzing information pertaining to commitment from big corpora and further build a commitment corpus to shed light on the artificial intelligence technology development and data-based linguistics research. Specifically, the goal is to analyze the factors that affect the speaker's confidence in the (non-)factual meaning of the nested clause and to establish a "Korean Commitment Bank" with language information.
Total of 1,800 cases(400 cases of spoken language, 700 cases of newspapers, 700 cases of written books) were selected for analysis from corpora built by the National Institute of Korean Language between 2018 and 2019. To evaluate the degree of confidence in the nested proposition, we attach various language information and statistically verify the correlation between language information based on survey data from more than eight people per question.
The implications of building a corpus presented through this task are as follows: First, "Korean Commitment Bank," which was built through this task, will be used in various fields such as developing a Korean natural language inference system and upgrading artificial intelligence technology. Second, considering the features of Korean language, we
argue that commitment were affected by the combination of verb and complementizer and various kinds of entailment canceling operator such as modal rather than a single predicate. Third, this study is the first attempt in Korea to objectively identify the certainty of proposition with large corpora.
The results of this analysis have confirmed that the attachment of more diverse and precise language information on natural language processing can increase the utilization of accumulated language resources, and it is expected that research on this will expand.
Keywords: RTE, Commitment, Natural Language Understanding Evaluation
Project Director: Xxx Xxxxxx(NARA information)
차 례
제1장 서론
1. 사업의 목적 3
2. 사업 xx 범위 4
제2장 xx xx 및 말뭉치 구축 지침 xx
1. 주요 개념 및 목록 7
2. 함의 분석 말뭉치 구축을 위한 xx 탐색 9
2.1. 보문소 10
2.2. 모문 술어 11
2.3. 함의 취소 xx소 15
2.4. 기타 15
3. xx xx 16
3.1. xx xx xx 16
3.2. xx xx xx 16
3.3. xx xx 결과 17
4. 말뭉치 구축 지침 xx 18
4.1. 내포 xx xx 원칙 18
4.2. 언어 xx 부착(xx) 지침 19
제3장 설문 조사
1. 설문 조사 설계 23
1.1. 시험 xx 23
1.2. 본조사 설계 24
1.3. 웹 설문 구축 26
2. 설문 xx 28
3. 설문 결과 신뢰도 분석 36
차 례
제4장 결과 분석
1. 조사 결과 통계 분석 41
1.1. 말뭉치 유형별 분석 41
1.2. 언어 xx별 분석 43
2. 레이블 분류 53
2.1. 레이블 분류 방법 53
2.2. 레이블의 분포 55
3. 확신성에 xx을 주는 언어 xx의 탐색 56
3.1. 단일 언어 xx가 확신성에 미치는 xx 분석 56
3.2. 언어 xx의 결합이 확신성에 미치는 xx 분석 67
4. 결과 분석 요약 84
제5장 결론
1. 요약 89
2. 시사점 90
참고 xx 91
부록 1. 함의 분석 말뭉치 구축 xx xx 방법론 및 지침 부록 2. 함의 분석 말뭉치 구축 분석 지침
표 차 례
<표 1> 보문소 목록 7
<표 2> 모문 술어 목록 8
<표 3> 함의 취소 xx소 목록 9
<표 4> 분석 예시 10
<표 5> 분석 xx 보문소 총 6개 빈도 10
<표 6> 보문소 + 술어 출현 빈도 11
<표 7> xx 사실성 xx 분포(-3~+3) 12
<표 8> 함의 취소 xx소의 종류 15
<표 9> xx xx 결과 17
<표 10> 시험 xx xx 결과 23
<표 11> 시험 xx xx 응답 소요 시간 24
<표 12> 문어, xx, 구어의 통제 xx 25
<표 13> 말뭉치 유형별 평가용 설문 문항 및 응답 세트 26
<표 14> 응답 세트별 조사 참여자 및 xx 응답자 28
<표 15> 통제 xx에 xx 응답 수와 응답 xx 31
<표 16> 전체 응답자 특성 31
<표 17> 세트별 응답자 특성 31
<표 18> 응답 세트별 신뢰도 36
<표 19> 종합 말뭉치의 자료 구조 예시 41
<표 20> 말뭉치 유형별 xx 통계량 41
<표 21> 술어별 xx 통계량 43
<표 22> 술어 유형별 xx 통계량 44
<표 23> 보문소별 xx 통계량 45
표 차 례
<표 24> 보문소 + 술어별 문항 수 46
<표 25> 보문소 + 술어별 xx 통계량 47
<표 26> 함의 취소 xx소별 xx 통계량 51
<표 27> 말뭉치 유형별 함의 취소 xx소에 xx xx 통계량 51
<표 28> 술어와 함의 취소 xx소별 xx 통계량 52
<표 29> xx 유형별 xx 통계량 53
<표 30> 레이블 분류 방법에 따른 담화x x 55
<표 31> 말뭉치 xx에 따른 레이블별 xx 통계량 55
<표 32> 술어 xxx을 독립 xx로 하는 모델의 xx 59
<표 33> 술어 xxx을 독립 xx로 하는 모델의 적합성 검증 60
<표 34> 요인별 모델의 적합성 검증 61
<표 35> 사실성 술어 효과를 고려한 술어의 효과 62
<표 36> 보문소와 술어 결합 효과 67
<표 37> 보문소와 술어 결합 모델 xx 68
<표 38> 술어와 인칭 결합 효과 71
<표 39> 술어와 인칭 결합 모델 xx 72
<표 40> 보문소와 함의 취소 xx소 결합 효과 79
<표 41> 보문소와 함의 취소 xx소 결합 모델 xx 79
<표 42> 함의 취소 xx소와 말뭉치 유형별 응답 xx 및 신뢰 구간 83
x x 차 례
<xx 1> 웹 설문 질의 xx 27
<xx 2> 말뭉치 유형별 응답 xx xx 분포도 42
<xx 3> 말뭉치 유형별 xx xx도 42
<xx 4> 술어별 xx xx도 44
<xx 5> 보문소별 xx xx도 45
<xx 6> 레이블별 xx 분포표 56
<xx 7> 술어별 확신성 신뢰 구간 57
<xx 8> 술어 유형별 응답 xx xx xx도 60
<xx 9> ‘알다’를 포함한 담화에 xx xx 응답 및 신뢰 구간 63
<xx 10> ‘이해하다’를 포함한 담화에 xx xx 응답 및 신뢰 구간 64
<xx 11> ‘주장하다’를 포함한 담화에 xx xx 응답 및 신뢰 구간 64
<xx 12> ‘착각하다’를 포함한 담화에 xx xx 응답 및 신뢰 구간 65
<xx 13> ‘xx하다’를 포함한 담화에 xx xx 응답 및 신뢰 구간 65
<xx 14> 인칭에 따른 술어별 응답 xx(전체) 71
<xx 15> 인칭에 따른 술어별 응답 xx(문어) 75
<xx 16> 인칭에 따른 술어별 응답 xx(xx) 76
<xx 17> 인칭에 따른 술어별 응답 xx(구어) 77
<xx 18> 보문소 + 함의 취소 xx소 결합 유형별 응답 xx(전체) 78
<xx 19> 보문소 + 핵심 함의 취소 xx소 결합 유형별 응답 xx(전체) 78
<xx 20> xx와 모문 주어 인칭별 응답 xx 및 신뢰 구간 81
<xx 21> xx와 모문 주어 인칭별 응답 xx 및 신뢰 구간(사실성 술어) · 81
<xx 22> xx와 모문 주어 인칭별 응답 xx 및 신뢰 구간 (비사실성 술어) 82
<xx 23> xx와 모문 주어 인칭별 응답 xx 및 신뢰 구간(반사실성 술어) 82
<xx 24> 함의 취소 xx소와 말뭉치 유형별 응답 xx 및 신뢰 구간 · 83
제 1 장
서 론
1. 사업의 목적
4차 산업 xx을 xx하여 다양한 분야 및 산업에 있어 기반 xx 개발 및 인공 지능 xx과 이의 xx에 핵심적으로 xx되는 학습 데이터 구축이 xx 중에 있다. 그리고 특 히, xx 언어 처리 분야에서도 폭발적으로 새롭게 xx되고 발표되는 각종 언어 모델과 관련된 알고리즘과 이를 뒷받침하는 말뭉치 xx를 xx하여 다양한 서비스와 xx이 가 능할 것으로 기대하고 있다.
기본적으로 언어 모델이 처리하는 xx 언어 처리 핵심 과제로 자연어 이해(Natural Language Understanding)가 있다. 자연어를 이해한다는 것은 xx 분석(Sentiment Analysis), 유사도 예측(Similarity Prediction), 자연어 추론(Natural Language Inference), 언어 수용성(Linguistic Acceptability) 판단, xx 독해(Reading Comprehension), 의도 분류(Intent Classification) 등을 xx할 수 있다는 xx이다. 이 중에서 자연어 추론에 xx xx는 전제와 가설의 쌍을 xx으로 하며, 전제가 주어졌을 때 가설이 참xx, 거짓xx를 판단하는 xx로 일반화된다. 그리고 전체적인 맥락xx 전 제에 내포된 가설을 xx하는 xx로 볼 수 있기 때문에 문장의 함의 xx (Recognizing Textual Entailment)이라고 통칭되기도 한다.
영미권의 xx, 언어 모델의 자연어 추론 기능을 평가하기 위한 다양한 말뭉치가 존재 한다. 그러나 한국어의 xx, 상대적으로 자연어 추론을 검증하고 평가하기 위한 말뭉치가 거의 존재하지 않는다. 한편, 전제와 가설이라는 xx으로 의도적으로 문장을 분류하고 이 를 생성하는 것은 다양한 xx으로 시도될 수 있지만 일관성을 위해서는 명확한 원칙이 필요하므로 많은 xx가 선결되기 전에는 시도하기 어렵다.
xx에 자연어 이해에 xx 평가를 목적으로 슈퍼글루(SuperGLUE) 벤치마크가 발표되 었다. 이 벤치마크는 기존의 글루(GLUE) 벤치마크보다 더 xx적이고, 더 다양하며, 복합 적인 인간의 xx를 모방하는 xx으로 xx되었다. xx에서 자연어 추론을 위한 고난도 의 평가용 말뭉치가 다양하게 제시되었는데, 이 가운데 함의 추론과 xx하여 기존의 말 뭉치에서 추출한 복합문에 대해 xx의 확xxx라는 개념을 접목한 확신성 말뭉치 (CommitmentBank)가 포함되어 있다. 이와 xx하여 본 사업은 자연어 추론을 위한 함 의 분석 말뭉치를 구축·분석하는 방법론을 개발하고, 이를 실제로 국립국어원 말뭉치를 x x으로 적용함으로써 정밀한 언어 xx가 부착된 자연어 추론을 위한 말뭉치를 구축하고 자 한다. 구체적으로는 문어, xx, 구어 등 말뭉치 유형별 300건 이상, 총 1,500건 이상 에 대해 내포절의 (비)사실성 함의에 xx xx의 확신성에 xx을 주는 요인을 분석하고, 언어 xx를 부착하여 최종적으로 함의 분석 말뭉치를 구축하는 것이 목표이다.
2. 사업 xx 범위
본 사업의 범위는 다음과 같다.
첫째, 본 사업의 목적을 xx하고 xx 결과물을 xx하기 위한 xx의 원칙과 조건, xx 방법을 포함한 방법론을 마련하는 것이다. 크게 본 xx은 함의 분석 xx xx 방 법론, 함의 분석 방법론으로 구분된다.
함의 분석 xx xx 방법론에서는 xx 문장 1개와 xx 문장 최대 2개로 구성된 x x 담화를 탐색하고 xxx는 방안을 xx한다. 단, 확신성 판단의 xx이 되는 xx 문 장의 xxx 모절에 함의 xx를 달라지게 하는 표현(xx, xx, 조건, xx 등)이 포함된 내포문으로 xxx다. 그리고 xx 문장으로부터 내포 xx xx 방안을 xx한다.
함의 분석 방법론에서는 내포 xx에 xx xx의 태도, 즉 어떻게 믿는가(참 또는 거 짓), 그것을 얼마나 확신하는가에 xx 분석 방안을 xx한다. 연xxx 정밀하게 분석한 xx을 바탕으로 예측한 결과와 실제 언어 사용자의 확신성 판단은 다르게 나타날 수 있 으므로 본 사업에서는 실제 언어 사용자의 응답을 기본으로 하여 함의 xx를 판별한다. 이를 위해 일반 언어 사용자 xx의 설문 조사 절차 및 방안을 xx한다. xx에는 조사 결과의 분석 방안 xx(응답 신뢰도 판단 및 응답 제외 xx), 함의 xx(함의, xx, x x) 판정 xx 및 방안 등을 제시한다. 그리고 해당 방법론에서는 구체적인 사례를 포함 하는 분석 지침을 제시한다.
둘째, 본 사업의 xx 결과인 함의 분석 말뭉치를 구축하는 것이다. 위에서 xx된 함 의 분석 xx xx 방법론에 따라서 국립국어원 문어 말뭉치, xx 말뭉치, 구어 말뭉치 에서 분석 xx을 총 1,500건 이상을 xxx 후, 함의 분석 방법론에 따라 함의 xx를 분석한다. 또한 설문 조사를 실시하여 xx 문장과 xx 문장으로 구성된 xx 담화, 그 리고 내포 xx의 xx에 xx 실제 언어 사용자의 응답을 수집한다. 마지막으로 조사 결 과를 종합하여 분석하고, 그 결과를 xx 문장, 모문 술어, 내포 xx, 보문소, 함의 취소 xx소 xx 등을 포함하여 제시한다.
제 2 장
xx xx 및 말뭉치 구축 지침 xx
1. 주요 개념 및 목록
xx 본 사업을 xx하기 위해 필요한 주요 개념을 xx한다. 아울러 분석을 위해 xx 문장에 출현하는 모문 술어, 모문 술어와 결합하는 보문소 및 함의 취소 xx소의 종류와 목록을 함께 제시한다.
① xx 담화: 내포 xx에 xx xx의 확신성을 파악하기 위한 xx xx 문장과 xx 문장을 포함한 전체 문장들. xx 문장은 확신성 판단에 xx을 끼치는 xx에 한하여 함께 제시한다.
② xx 문장: 내포 xx의 (비)사실성에 xx 확신성을 판단하는 데 xx을 주는 문장들 로 xx 문장 앞에 출현하는 문장. 사실성 판단에 xx을 미치는 xx에 한하여 xx 적으로 제시한다.
③ xx 문장: 확신성 판단의 xx이 되는 문장. 내포절과 보문소 등이 포함되어 있다. 문 맥에 따라 ‘모문’도 xxx다.
④ 내포 xx: (비)사실성 판단의 xx이 되는 xx. xx 문장에 xx으로 쓰인 내포절을 xx의 xx xx(단문)으로 바꾼 문장을 말한다. 문맥에 따라 ‘내포절’도 xxx다.
⑤ 보문소: 내포절이 전체 문장(모문)의 xx이 되도록 만드는 요소.
본 사업에서는 다음 표와 같이 말뭉치 빈도를 바탕으로 모문 술어와 결합하여 (비)사실 성 구조를 xxx는 보문소를 6가지로 xxx여 xx한다. 해당 보문소는 총 3회에 걸친 xx xx(xx 탐색, 말뭉치 xx 시험 xx, 인위 생성 시험 xx) xx에서 연구진의 토론을 통하여 xx되었다(xx xx에 xx xx은 ‘분석 지침’ 참조).
<표 1> 보문소 목록
-음/ㅁ, -기, 것을, 것으로, -다고/라고, 줄
⑥ 모문 술어: 사실성 여부를 xx으로 다음 3가지로 나누어 쓴다.
ㄱ. 사실성 술어(factive verb): 내포절의 xx이 참임을 전제하는 술어. 즉, 내포절이 지닌 참의 xx값이 함의 취소 xx소를 넘어 투사되는 술어([+factive]).
ㄴ. 비(非)사실성 술어(non-factive verb): 내포절의 전제를 보장하는 않는 술어. 함의 취소 xx소에 의해 내포절의 전제가 취소될 수도 있는 술어. 내포절의 xx이 사 실일 수도(참) 사실이 아닐 수도(거짓) 있어 xx값을 판단할 수 없는 술어 ([±factive]).
ㄷ. 반(反)사실성 술어(counter-factive verb): 사실성 술어와 반대로 내포절의 xx이 거짓임을 전제하는 술어. 즉, 내포절이 지닌 거짓의 xx값이 함의 취소 xx소를
넘어 투사되는 술어([-factive]).
모문 술어를 3가지 xx으로 분류한 다음, 아래와 같이 각 xx에 해당하는 술어 목록 을 xxx였다. 술어의 xxx xx xx xx에서 연구진의 토론을 통해 확정하였다.
<표 2> 모문 술어 목록
술어 xx | 목록 |
사실성 | ① xx하다, ② 깨닫다, ③ 발견하다, ➃ 밝히다, ⑤ 이해하다, ⑥ 잊다, ⑦ 지적하다, ⑧ 확인하다, ➃ 후회하다 |
비사실성 | ① 받아들이다, ② 보다, ③ 보이다, ➃ 생각하다, ⑤ 알다, ⑥ 여기다, ⑦ xx하다, ⑧ 주장하다, ➃ 확신하다 |
반사실성 | ① 기대하다, ② 당부하다, ③ 믿다, ➃ 바라다, ⑤ xx하다, ⑥ xx하다, ⑦ 원하다, ⑧ 착각하다, ➃ 희망하다 |
⑦ 함의 취소 xx소(entailment cancelling operator: ECO): 내포 xx에 xx xx의 확신성 판단에 xx을 미치는 요소로서 술어에 따라 (비)사실성 전제의 투사 여부를 판단할 수 있는 요소를 말한다. 내포절의 사실성을 전제하는 사실성 술어는 xx, x x, 조건, xx 등의 함의 취소 xx소를 투사한다. 이에 반해 비사실성 술어들은 사실 성 전제를 투사하지 못하고, 반사실성 술어들은 내포 xx를 거짓이라고 판단하게 된 다. 본 사업에서 xx으로 삼은 함의 취소 xx소는 ‘xx, xx, 조건, xx’ 네 가지 이다. 본 사업에서 다룬 함의 취소 xx소의 목록은 <표 3>과 같다.1)
1) 실제로 말뭉치에 함의 취소 xx소 xx를 어떻게 부착했는지에 대해서는 별첨한 「함의 말뭉치 구축 xx xx 방법론 및 지침」의 ‘4.2. 언어 xx 부착(xx) 지침’을 참고할 것
<표 3> 함의 취소 xx소 목록
xx
안, 못, -지 아니하다/않다, -지 못하다
xx
-니, -ㅂ니까, -ㄴ가 등(의문형 종결어미)
조건
-(으)면, -(ㄴ)다/라면
xx
xx
-ㄴ 것 같다, -ㄴ 듯 싶다, -ㄴ 듯하다, -ㄴ xxx다, -ㄴ 셈이다, -ㄴ지 모르다, -ㄹ 것
같다, -ㄹ 것이다, -ㄹ 듯하다, -ㄹ 리 없다, -ㄹ 만하다, -ㄹ 수 있다, -ㄹ까 싶다, -ㄹ지
모르다, -겠-, -기 쉽다, -기 십상이다, -기 어렵다, -기 힘들다, -나 보다, -리-
xx
비xx
xx
가능 불가능 xx 당위 xx 의지 허락 희망
-ㄹ 수 있다, -겠-
-ㄹ 수 없다
-면 안 되다, -어서는 안 되다
-ㄹ 수밖에 없다
-어야 되다, -어야 하다
-ㄹ 것이다, -ㄹ게, -겠-, -고자 하다, -려 하다, -어야 하다
-어 주다, -어도 되다, -어도 좋다
-고 싶다, -면 좋다, -면 하다
2. 함의 분석 말뭉치 구축을 위한 xx 탐색
본 사업의 목표는 내포절의 (비)사실성 함의에 있어서 xx의 확신성에 xx을 주는 요 인을 분석하고 1,800개의 문장으로 구성된 함의 분석 말뭉치를 구축하는 데 있다. 본 사 업을 xx하기에 앞서 xx 탐색 xx을 거쳐 전체 xx xx을 xx 점검, xx하는 절 차를 밟았다. xx 탐색 xx으로는 ‘국립국어원 xx 말뭉치(버전 1.0)’에서 추출한 약 6 만 문장을 xx하였다. 구체적인 단계는 다음과 같다.
① xx 탐색 xx xx 말뭉치에서 내포절, 보문소, 모문 술어, 함의 취소 xx소(xx, xx, 조건, xx)의 네 가지 요소를 지닌 xx 문장을 xx하였다.
② 모문의 술어만으로 내포절의 xx적 (비)사실성이 결정되는 영어의 xx와는 xx, 한 국어는 모문 술어 단독이 아닌 보문소와 술어의 결합으로 내포절의 사실성이 결정됨에 xx하였다(xxx 2018, 2020). 전제 투사 xx에 따라 함의 취소 xx소와 결합했을 때 내포절의 사실성이 취소되지 않고 유지된다면 xxx ‘보문소 + 술어’ 구조를 사실 성 구조로 분류한다. 그렇지 않다면 비사실성 구조이다. 사실성 구조와 비사실성 구조 의 대표적인 예는 아래와 같다. (1)에서 내포 xx ‘눈이 왔다’는 사실성이 유지되는 반면 (2)에서는 사실성이 유지되지 않는다. 이에 따라 (1)의 ‘것을 + 알다’ 구조는 사실 성 구조로, (2)의 ‘것으로 + 알다’ 구조는 비사실성 구조로 판단한다.
(1) 보문소 ‘것을’ + 술어 ‘알다’ + 함의 취소 xx소(xx): xx는 눈이 온 것을 아니?
(2) 보문소 ‘것으로’ + 술어 ‘알다’ + 함의 취소 xx소(xx): xx는 눈이 온 것으로 아니?
③ 그 밖에 de Xxxxxxxx et al.(2019)에 따라 모문과 내포절의 xx2), 인칭 등이 사실성 xx에 xx을 줄 수 있는 부가적인 요소로 작용한다고 보았다. xx <표 4>는 이러한 요소들을 xx 고려하여 작업자가 xx 문장을 xx적으로 분석한 예시이다.
<표 4> 분석 예시
2.1. 보문소
xx 탐색을 통해 본 사업의 분석 대상인 6개 보문소의 빈도를 추출한 결과는 xx
<표 5>와 같다.
<표 5> 분석 xx 보문소 총 6개 빈도3)
보문소 | 빈도 |
-음/ㅁ | 404 |
-기 | 199 |
것을 | 959 |
것으로 | 3,163 |
-다고/라고 | 6,846 |
줄 | 122 |
합계 | 11,693 |
2) xxx(2020)에서는 보절의 xx xx이 사실성 판단에 xx을 미친다는 분석을 제시한 바 있다. 보절 술어 어미의 xx xx가 완결의 사건을 나타내느냐 미완결의 사건을 나타내느냐에 따라 보절 xx의 진위 여부가 결정된다는 것이다(김천학2020:195). 이 처럼 내포 xx의 사실성 판단에 관한 논의에서는 xx소(xx)를 통해 파악되는 동작xx 개념을 포함하여 ‘xx’라는 용어를 x x하는 것이 일반적이다. 본 사업에서도 이러한 관점에서 ‘xx’라는 용어를 xx한다.
3) 본 사업에서는 “~라는 생각이다”와 같은 관형절 xxx나 “(~라는 것이) 나타났다, 밝혀졌다, 입증되었다, 확인되었다” 등 명사절 내포절이 주어로 쓰인 xx은 다루지 못하였다. xx 대상인 명사절 내포절이 목적어절로 쓰인 xx은 말뭉치에서 ‘음/ㅁ/기/것/ 줄+을’의 xx을 기계적으로 xx하여 선별하였다.
2.2. 모문 술어
2.2.1. 술어 분류
xx <표 6>은 1.2.1에서 xx된 보문소와 결합하는 빈도를 기반으로 xx된 모문 술어 의 목록 및 출현 빈도이다. 크게 다음과 같은 3가지 xx(사실성 술어, 비사실성 술어, 반 사실성 술어)으로 분류되었다. 술어와 보문소가 반복적으로 동시에 등장하는 것은 그 연결 강도가 높음을 xx한다.
<표 6> 보문소 + 술어 출현 빈도4)
분류 | 보문소 술어 | -음/ㅁ | -기 | 것을 | 것으로 | -다고 | -라고 | 줄 | 합계 |
사실성 | ① xx하다 | 4 | 1 | 1 | 1 | 7 | |||
② 깨닫다 | 9 | 5 | 14 | ||||||
③ 발견하다 | 5 | 5 | |||||||
➃ 밝히다 | 19 | 2 | 1,208 | 1,004 | 204 | 2,437 | |||
⑤ 이해하다 | 9 | 1 | 10 | ||||||
⑥ 잊다 | 1 | 1 | 2 | ||||||
⑦ 지적하다 | 9 | 1 | 107 | 79 | 28 | 224 | |||
⑧ 확인하다 | 24 | 33 | 1 | 1 | 4 | 63 | |||
➃ 후회하다 | 3 | 3 | |||||||
비사실성 | ① 받아들이다 | 3 | 1 | 2 | 6 | ||||
② 보다 | 1 | 97 | 246 | 247 | 105 | 75 | 771 | ||
③ 보이다 | 76 | 841 | 2 | 919 | |||||
➃ 생각하다 | 2 | 312 | 155 | 157 | 626 | ||||
⑤ 알다 | 30 | 58 | 88 | ||||||
⑥ 여기다 | 3 | 21 | 14 | 7 | 1 | 46 | |||
⑦ xx하다 | 15 | 4 | 2 | 16 | 2 | 39 | |||
⑧ 주장하다 | 4 | 175 | 112 | 63 | 354 | ||||
➃ 확신하다 | 1 | 3 | 6 | 3 | 8 | 21 | |||
반사실성 | ① 기대하다 | 38 | 7 | 63 | 3 | 7 | 118 | ||
② 당부하다 | 10 | 9 | 9 | 28 | |||||
③ 믿다 | 4 | 14 | 21 | 19 | 58 | ||||
➃ 바라다 | 97 | 1 | 98 | ||||||
⑤ xx하다 | 7 | 2 | 5 | 14 | |||||
⑥ xx하다 | 44 | 59 | 59 | 162 | |||||
⑦ 원하다 | 10 | 18 | 28 | ||||||
⑧ 착각하다 | 2 | 2 | 1 | 5 | |||||
➃ 희망하다 | 11 | 1 | 1 | 13 | |||||
합계 | 189 | 156 | 318 | 3,077 | 1,663 | 679 | 77 | 6,159 |
4) 간접 인용절에 쓰이는 ‘-다고’와 ‘-라고’는 xxx(異形態, allomorph)로 이해되며 본 사업에서도 동일한 보문소로 보고 있다. 그 러나 이들은 xx론적으로 조건 지어진 xxx라는 특성에 따라 출현 빈도나 사실성 xx 분포에서 다소 차이를 나타내기도 한다. 이에 그 수치를 구분하여 제시한다.
한국어에서도 술어의 특성에 따라 xx의 확신성 xx가 달라지는지 예측하기 위해 추 출된 문장들에 xx 사실성 xx를 부여하는 작업을 하였다. xx 척도는 내포 xx의 사 실성에 xx 확신이 xx 약한 -3에서 시작하여 확신이 xx 강한 +3까지를 범위로 하였 다. xx 부여 시에는 전제와 함의를 구분하는 취소 전략(cancelling strategy)을 xx하 여 객관적으로 판단하였다. 취소 전략의 예는 아래와 같다.
(3) ㄱ. xx는 어제 눈이 온 것을 잊었다. #사실, 어제 눈이 오지 않았다.
→ 취소 불가, 내포절의 사실성(true)이 전제됨. ‘것을 잊다’는 사실성 구조 ㄴ. xx는 어제 눈이 왔다고 착각했다. 사실, 어제 눈이 오지 않았다.
→ 취소 가능, 내포절의 반사실성(false)이 전제됨. ‘-다고 착각하다’는 반사실성 구조
xx 사실성 xx의 분포는 xx <표 7>과 같다. 이 분포는 각 xx 문장에 대해 참여 연구원 3xx 부여한 xx를 바탕으로 xx한 것이다.
<표 7> xx 사실성 xx 분포(-3~+3)
분류 | 보문소 술어 | -음/ㅁ | -기 | 것을 | 것으로 | -다고 | -라고 | 줄 |
사실성 | ① xx하다 | +3 | +3 | |||||
② 깨닫다 | +3 | +1~+3 | ||||||
③ 발견하다 | +3 | |||||||
➃ 밝히다 | +3 | +3 | +2~+3 | +1~+2 | ||||
⑤ 이해하다 | +1 | +3 | ||||||
⑥ 잊다 | +3 | |||||||
⑦ 지적하다 | +3 | +3 | +2~+3 | +1~+2 | ||||
⑧ 확인하다 | +3 | +3 | +3 | +3 | ||||
➃ 후회하다 | +3 | |||||||
비사실성 | ① 받아들이다 | +3 | +1 | +2 | ||||
② 알다 | -3 | -3 | -2~+1 | |||||
③ xx하다 | +3 | -2 | +2~+3 | +2 | ||||
➃ 보다 | +1 | -3~+3 | -1~0 | -3~+2 | -2 | |||
⑤ 보이다 | -3 | -3~+2 | -3~+2 | +1~+3 | ||||
⑥ 생각하다 | 0~+3 | -3~+3 | +1~+3 | +2 | ||||
⑦ 여기다 | +1~+3 | 0~+3 | +2~+3 | |||||
⑧ 주장하다 | +2~+3 | +1~+3 | ||||||
➃ 확신하다 | -3 | -3 | -2 | +2 | ||||
반사실성 | ① 기대하다 | -3 | -3~-2 | -3~0 | -2 | |||
② 당부하다 | -3 | -1 | ||||||
③ 믿다 | -3~+1 | -3 | -3 | -2~+1 | ||||
➃ 바라다 | -3 | -1 | ||||||
⑤ xx하다 | -2 | -2 | ||||||
⑥ xx하다 | -3~0 | -1 | ||||||
⑦ 원하다 | -3 | -3 | ||||||
⑧ 착각하다 | -3~-1 | -2 | ||||||
➃ 희망하다 | -3 | -2 |
2.2.2. 술어의 특징
이제까지 분석된 (비)사실성 술어의 이론적인 특징은 다음과 같이 요약될 수 있다.
① 사실성 술어
사실성 술어로 분류된 ‘xx하다/깨닫다/발견하다/밝히다/이해하다/잊다/지적하다/확 xx다/후회하다’류의 동사를 xx으로 xx 탐색 xx 말뭉치를 분석한 결과, 3인 이상 에서 xx xx 사실성 xx +1 이상 +3에 가까운 xx를 받았다. 이 술어들의 특징은 다 음과 같다.
ㄱ. 보문소 ‘-음/ㅁ’, ‘것을’과 자주 결합xxx ‘-기’, ‘것으로’와 잘 결합하지 않는다. 이를 기반으로 보문소가 지닌 고유한 사실성 속성을 추측할 수 있으며 이 보문소들 이 해당 술어들과 어떠한 xx으로 xx xx하여 xx 사실성 xx을 발생시키는 지 분석을 xx한다.
ㄴ. 사실성 술어의 xx 내포절의 xxx x발생 xx일 때 결합이 제한된다. xx 예 에서처럼 ‘후회하다’가 모문의 술어일 xx (4ㄱ)처럼 내포절이 xx xx를 나타낼 때 xx 어색하다. 반면 (4ㄴ)처럼 과거의 xx 발생한 사건이 내포절에 나타날 x x 자연스러운 문장이 된다.
(4) ㄱ. *xx 회사에 갈 것을 후회했다. ㄴ. 어제 회사에 간 것을 후회했다.
ㄷ. 내포절에 xx xx 표지가 있으면 사실성 술어와 결합하는 xx가 드물다. xx (5 ㄱ)처럼 사실성 술어 ‘xx하다’의 내포절에 추측의 xx xx ‘-(으)ㄹ 수 있다’가 결합된 문장은 어색하다. 반면 (5ㄴ)처럼 반사실성 술어 ‘xx하다’는 내포절에 추측 의 xx xx ‘-(으)ㄹ 수 있다’가 자연스럽게 결합될 수 있다. xx는 xx의 xx 에 xx 태도를 나타내고 ‘-(으)ㄹ 수 있다’와 같은 xx xx(epistemic modal)는 xx에 xx xx/주어의 확신(commitment)을 xx시키는 역할을 한다고 볼 때 사실성 술어의 내포절이 xx xx와 결합하는 것이 어색한 것은 당연한 결과이다.
(5) ㄱ. ?기상청은 xx 비가 올 수 있다고 xx했다. (사실성 술어) ㄴ. 기상청은 xx 비가 올 수 있다고 xx했다. (반사실성 술어)
② 비사실성 술어
비사실성 술어로 분류된 ‘받아들이다/알다/xx하다/보다/보이다/생각하다/여기다/주
장하다/확신하다’ 등의 술어는 특정 보문소와 결합했을 때 사실성 판단이 달라질 수 있다 고 판단되는 술어이다. 영어에서는 대표적인 사실성 술어로 알려진 ‘알다’가 한국어에서는 비사실성 술어로 분류되는 것이 특징적이다. xx처럼 ‘것을’xx ‘것으로’ 중 어떤 보문소 와 결합하느냐에 따라 내포절의 사실성은 달라진다.
(6) ㄱ. xx는 어제 눈이 온 것을 안다. (내포절의 사실성 전제)
ㄴ. xx는 어제 눈이 온 것으로 안다. (내포절의 사실성 판단 불가)
xx 탐색 말뭉치에서는 다음과 같은 예를 살펴볼 수 있다.
(7) ‘-다고 + 생각하다’ (xx)
xx 문장: 장애인을 이유로 특별xx를 바란 적은 없습니다. 원하면 숙직에서 빼준다고도 했지만 사양했어요.
xx 문장: 걸음걸이가 다소 불편할 뿐, 다른 직원과 다르다고 생각해본 적은 없어요.
내포 xx: xx는 다른 직원과 다르다. (내포절의 사실성 취소)
이러한 비사실성 술어는 다음과 같은 특징을 갖는다. ㄱ. 다양한 보문소 및 xx 표현과 결합한다.
ㄴ. xx 분석 결과를 보면, xx 사실성 xxx x의 xx와 음의 xx를 고루 받았다.
ㄷ. 기발생 사건과도 결합이 가능한 술어로서 인칭에 따라 확신xx 판단이 달라질 수 있을 것으로 xx된다.
③ 반사실성 술어
반사실성 술어로 분류된 ‘기대하다/당부하다/믿다/바라다/xx하다/xx하다/원하다/희 망하다’류의 동사는 대부분 -1 이하 –3에 가까운 사실성 xx 분포를 보인다. 이 술어들 의 특징은 다음과 같다.
ㄱ. 보문소 ‘-기’, ‘것으로’와 자주 결합xxx ‘-음/ㅁ’, ‘것을’과 잘 결합하지 않는다. ㄴ. 내포절의 xx가 xx의 가능 xxx x발생 xx를 xxx는 xx가 많다.
(8) ㄱ. xx는 xx 눈이 xx를 바라고/원하고/기대하고/희망하고 있다. ㄴ. 엄마는 xx에게 그만 놀고 공부하라고 당부했다/xx했다.
ㄷ. 그 밖에 ‘착각하다’와 같은 반사실성 술어는 내포절의 사실성이 거짓임을 전제한다. xx에서 나타나듯 내포절의 사실성이 담긴 문장이 이어 오면 담화는 xx 어색해 진다.
(9) xx는 어제 눈이 왔다고 착각했다. #어제 눈이 왔다.
2.3. 함의 취소 xx소
앞서 언급했다시피, 내포절의 사실성을 전제하는 사실성 술어는 xx, xx, 조건, xx 의 함의 취소 xx소를 투사하는 특징이 있다. xx된 ‘보문소 + 술어’ 구조가 나타난 문 장 가운데 모절에 함의 취소 xx소를 포함하는 내포문은 따로 선별하여 xx적으로 분석 하는 작업을 xx하였다. 이 xx에서 파악한 함의 취소 xx소의 구체적인 예는 xx
<표 8>과 같다.
<표 8> 함의 취소 xx소의 종류
xx
안, 못, -지 아니하다/않다, -지 못하다
xx
-니, -ㅂ니까, -ㄴ가 등(의문형 종결어미)
조건
-(으)면, -(ㄴ)다/라면
xx
xx
xx
-(으)ㄹ 수 있다, -(으)ㄹ 것이다, -(으)ㄴ/(으)ㄹ 것 같다, -(으)ㄴ지/-(으)ㄹ지
모르다, -(으)ㄴ/-(으)ㄹ 듯하다, -겠-(추측) 등
비xx
xx
xx: 어야 하다, -어야 되다
능력(가능/불가능): -(으)ㄹ 수 있다/없다, -(으)ㄹ 줄 알다/모르다 의지: -겠-, -고자 하다, -(으)려 하다
xx 분석 결과, 위 함의 취소 xx소들과 결합하는 사실성 술어들(<표 6> 참고)x x 두 사실성 전제를 투사하였고 비사실성 술어들은 사실성 전제를 투사하지 못하였다. 반사 실성 술어들의 xx 사실성이 거짓이라는 특징을 보였다.
2.4. 기타
보문소와 술어의 결합 구조 및 함의 취소 xx소 외에도 모문과 내포절에서 유표적으로 표현되는 xx, 상, 인칭 xx는 사실성 판단에 영향을 주는 부가적인 요소들로 작용할 수 있다. 따라서 추출된 문장들을 대상으로 모문과 내포절의 언어 정보를 시범적으로 분
석하고 주석하는 작업을 수행하였다. 이를 통해 본 과업인 함의 분석 말뭉치 구축 시 부 착할 언어 정보의 종류와 형식을 선별하고 계획하였다.
3. 대상 선정
3.1. 대상 후보 추출
대상 후보 추출을 위해 국립국어원 문어 말뭉치(버전 1.0), 신문 말뭉치(버전 1.0), 구어 말뭉치(버전 1.0) 등 세 종류의 기구축 말뭉치를 이용하였다. 이들 말뭉치를 대상으로 시 범 탐색을 통해 선정한 6개의 보문소와 27개의 모문 술어의 조합을 자동 추출하였다. 이 중에서 다음의 대상 선정 기준에 따라 1,800개의 대상 문장을 선별하였다.
3.2. 대상 선정 기준
다음의 대상 문장 선정 기준에 따라 대상 문장을 선정하였다.
① 모절에 함의 취소 운용소를 포함하는 내포문일 것
- 내포문의 모절에는 ‘부정, 의문, 조건, 양태’ 중 한 가지 이상의 표지가 있어야 한다.
- 의문사를 포함하는 의문문은 제외한다.
- 직접 인용문은 제외한다.
② 함의 관계 파악에 무리가 없는 문장일 것
- 분석 대상 술어가 문장의 최상위 술어(root)인 문장을 선별한다(분석 대상 술어가 인 용문 안에 있거나, 관형절을 이루는 문장 제외).
- 내용이 지나치게 복잡하거나 난해한 문장은 제외한다.
- 어법상 오류가 많거나 부자연스러운 문장은 제외한다.
③ 언어 정보 간 균형을 고려할 것
- 분석하고자 하는 언어 정보를 충분히 포함할 수 있도록 문장을 선별한다. 즉, 모문과 내포절의 과거/현재/미래 시제 및 그 조합, 모문과 내포절 주어의 1/2/3인칭 및 일 치/불일치 유형이 가능하면 다양하게 포함될 수 있도록 문장을 선별한다.
대상 담화는 담화의 문맥을 파악할 수 있도록 최대 2개의 선행 문장을 제시하였다. 이 에 따라 선정된 대상 담화는 최대 2개의 선행 문장과 1개의 대상 문장으로 구성된다.
3.3. 대상 선정 결과
대상 선정 결과는 다음과 같다. 내포문의 모절에는 부정, 의문, 조건, 양태 중 한 가지 이상의 표지가 있어야 한다. 여러 표지가 함께 존재할 수도 있는데, 이럴 경우는 부정, 의 문, 조건, 양태의 순으로 우선순위를 두어 대표되는 함의 취소 운용소를 표기하였다
<표 9> 대상 선정 결과
보문소 | -음/ㅁ | -기 | 것을 | 것으로 | -다고 | -라고 | 줄 | ||||||||||||||||||||||
함의 취소 운용소 술어 | 부 정 | 의 문 | 조 건 | 양 태 | 부 정 | 의 문 | 조 건 | 양 태 | 부 정 | 의 문 | 조 건 | 양 태 | 부 정 | 의 문 | 조 건 | 양 태 | 부 정 | 의 문 | 조 건 | 양 태 | 부 정 | 의 문 | 조 건 | 양 태 | 부 정 | 의 문 | 조 건 | 양 태 | |
사 실 성 | ① 기억하다 | 0 | 1 | 8 | 9 | 0 | 0 | 0 | 0 | 0 | 10 | 5 | 20 | 0 | 1 | 0 | 0 | 1 | 0 | 2 | 0 | 0 | 0 | 2 | 2 | 0 | 0 | 0 | 0 |
② 깨닫다 | 5 | 0 | 9 | 15 | 0 | 0 | 0 | 0 | 19 | 4 | 12 | 22 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 2 | 0 | 0 | 0 | |
③ 발견하다 | 1 | 0 | 3 | 8 | 0 | 0 | 0 | 0 | 8 | 2 | 7 | 7 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |
➃ 밝히다 | 7 | 0 | 4 | 4 | 0 | 0 | 0 | 0 | 6 | 0 | 3 | 3 | 0 | 0 | 0 | 0 | 3 | 2 | 5 | 2 | 2 | 0 | 4 | 0 | 0 | 0 | 0 | 0 | |
⑤ 이해하다 | 0 | 1 | 1 | 10 | 0 | 0 | 0 | 0 | 0 | 0 | 2 | 13 | 1 | 2 | 0 | 9 | 0 | 1 | 3 | 8 | 0 | 0 | 0 | 4 | 0 | 0 | 0 | 0 | |
⑥ 잊다 | 6 | 1 | 0 | 4 | 5 | 0 | 0 | 0 | 12 | 1 | 0 | 6 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |
⑦ 지적하다 | 11 | 0 | 1 | 18 | 0 | 0 | 0 | 0 | 5 | 0 | 0 | 7 | 0 | 0 | 0 | 1 | 5 | 0 | 2 | 8 | 2 | 0 | 1 | 3 | 0 | 0 | 0 | 0 | |
⑧ 확인하다 | 0 | 0 | 1 | 18 | 0 | 0 | 0 | 0 | 2 | 1 | 1 | 52 | 0 | 0 | 0 | 2 | 0 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | |
➃ 후회하다 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 32 | 3 | 0 | 7 | 0 | 0 | 0 | 0 | 2 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |
비 사 실 성 | ① 받아들이다 | 1 | 0 | 0 | 5 | 0 | 0 | 0 | 0 | 1 | 3 | 2 | 10 | 3 | 1 | 1 | 8 | 2 | 2 | 1 | 1 | 5 | 3 | 7 | 5 | 0 | 0 | 0 | 0 |
② 알다 | 3 | 0 | 3 | 18 | 0 | 0 | 0 | 0 | 3 | 8 | 7 | 18 | 1 | 0 | 1 | 3 | 0 | 1 | 1 | 0 | 0 | 0 | 1 | 1 | 2 | 17 | 3 | 4 | |
③ 인정하다 | 0 | 2 | 4 | 5 | 0 | 0 | 0 | 0 | 5 | 4 | 0 | 4 | 1 | 1 | 1 | 0 | 0 | 0 | 5 | 3 | 1 | 1 | 1 | 7 | 0 | 0 | 0 | 0 | |
➃ 보다 | 1 | 0 | 0 | 4 | 0 | 0 | 0 | 0 | 1 | 1 | 7 | 3 | 3 | 19 | 0 | 10 | 5 | 3 | 3 | 7 | 1 | 4 | 1 | 13 | 0 | 0 | 0 | 0 | |
⑤ 보이다 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 10 | 21 | 12 | 8 | 3 | 2 | 3 | 1 | 2 | 0 | 0 | 2 | 0 | 0 | 0 | 0 | |
⑥ 생각하다 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 2 | 0 | 4 | 0 | 3 | 2 | 0 | 7 | 15 | 11 | 3 | 11 | 5 | 10 | 1 | 8 | 2 | 0 | 0 | 0 | |
⑦ 여기다 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 4 | 0 | 5 | 3 | 8 | 9 | 15 | 16 | 5 | 2 | 12 | 13 | 0 | 1 | 0 | 0 | |
⑧ 주장하다 | 0 | 0 | 0 | 5 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 16 | 3 | 10 | 12 | 3 | 4 | 3 | 5 | 0 | 0 | 0 | 0 | |
➃ 확신하다 | 0 | 1 | 1 | 7 | 0 | 0 | 0 | 0 | 0 | 4 | 0 | 6 | 0 | 1 | 1 | 2 | 2 | 8 | 6 | 9 | 4 | 5 | 4 | 7 | 0 | 0 | 0 | 0 | |
반 사 실 성 | ① 기대하다 | 0 | 0 | 0 | 0 | 3 | 1 | 4 | 14 | 6 | 0 | 2 | 4 | 6 | 6 | 5 | 6 | 1 | 0 | 1 | 1 | 6 | 4 | 5 | 12 | 1 | 0 | 1 | 0 |
② 당부하다 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 0 | 0 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |
③ 믿다 | 1 | 0 | 3 | 4 | 0 | 0 | 0 | 0 | 14 | 1 | 7 | 5 | 4 | 5 | 5 | 2 | 6 | 9 | 6 | 9 | 7 | 10 | 6 | 8 | 0 | 0 | 0 | 1 | |
➃ 바라다 | 0 | 0 | 0 | 0 | 18 | 16 | 21 | 39 | 21 | 1 | 6 | 4 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |
⑤ 예상하다 | 1 | 0 | 1 | 9 | 0 | 0 | 0 | 0 | 4 | 2 | 4 | 1 | 4 | 6 | 4 | 4 | 0 | 0 | 2 | 1 | 4 | 4 | 1 | 7 | 16 | 4 | 0 | 1 | |
⑥ 요구하다 | 0 | 0 | 0 | 1 | 2 | 1 | 1 | 0 | 6 | 0 | 4 | 7 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 2 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |
⑦ 원하다 | 0 | 0 | 0 | 0 | 11 | 9 | 8 | 21 | 24 | 3 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |
⑧ 착각하다 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 26 | 0 | 1 | 2 | 5 | 0 | 3 | 5 | 11 | 0 | 2 | 1 | 7 | |
➃ 희망하다 | 0 | 0 | 0 | 0 | 0 | 0 | 10 | 26 | 2 | 0 | 0 | 2 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 2 | 0 | 0 | 0 | 0 |
4. 말뭉치 구축 지침 수립
함의 분석 말뭉치 구축을 위해 내포 명제 기술 원칙과 언어 정보 부착(주석) 지침을 수 립하였다. 내포 명제 기술 원칙은 대상 문장에 포함된 내포절의 정보를 문장 형식의 내포 명제로 바꾸어 설문 응답자가 쉽고 빠르게 이해할 수 있게 하기 위함이다.
모문에 포함된 내포절에는 주어, 격조사, 인칭 대명사, 시제 등이 모문의 영향이나 맥락 에 따라 생략되거나 교체되는 경우가 많다. 이를 내포 명제로 기술하기 위해 다음과 같은 기술 지침을 수립하였다.
또한 대상 문장이 갖고 있는 각종 언어 정보를 별도의 주석을 통해 부착해 놓았다. 이 주석에는 향후 연구자들이 함의 분석 말뭉치를 활용하는 데 필요한 범용적이고 포괄적인 정보를 담고 있다. 여기에는 모절의 시제 정보, 내포절의 시제 정보, 모절 주어의 인칭 정 보, 내포절 주어의 인칭 정보, 모절의 함의 취소 운용소 정보 등이다.
아래는 내포 명제 및 언어 정보 부착(주석)의 주요 원칙을 기술한다.
4.1. 내포 명제 기술 원칙
① 일반 원칙
- 주어와 술어 및 다른 문장 성분을 가급적 그대로 기술하는 것을 원칙으로 한다.
- 대상 문장의 내포절에 주어가 없어 명제 내용을 파악하기 어려운 경우에는 문맥상 예 측할 수 있는 선행 주어를 복원하여 제시한다.
- 필자/화자가 전달한 내용을 가능하면 유지할 수 있도록 내포절에 쓰인 보조사 및 부 사류를 변경하지 않는다.
② 토픽 마커(topic marker)
- 내포절 주어가 문맥상 주제/화제 표지 ‘은/는’인데 ‘이/가’로 중화되어 있는 경우, ‘은/는’으로 바꾸어 표시하는 것을 원칙으로 한다.
- 모문에만 주어가 있고 내포절에는 없는 경우, 피실험자에게 제시하는 내포 명제에는 문맥에 따라 주어와 함께 ‘은/는’이나 ‘이/가’를 복원하여 제시한다.
③ 인칭 대명사
- 내포절에 제시된 인칭 대명사의 선행어를 대상 담화에서 찾을 수 있는 경우에는 선행 어를 복원한다.
- 구어 말뭉치에서 선정한 담화의 경우, 담화에 제시된 화자(speaker)의 정보를 활용하 여 1·2인칭 대명사의 지시 대상을 괄호 속에 병기한다.
- 문어와 신문 말뭉치에서 선정한 담화의 경우, 1인칭 대명사 ‘나’는 괄호 속에 ‘필자’
를 병기하여 ‘나(필자)’로 기술한다.
- 1인칭 대명사의 복수형 ‘우리’의 경우, 지시 대상이 누구인지 명확히 알 수 있으면 괄호 속에 병기하고, 필자나 화자로 명시할 수 없으면 병기하지 않는다.
- 담화 내에 1인칭 대명사 ‘나’가 명시되지 않았으나 내포절의 주어가 ‘나’로 파악되는 경우에는 내포 명제의 주어를 ‘필자’로 복원한다. 소설의 대화문이나 신문의 인터뷰처 럼 구어적 특성이 강한 담화에서는 ‘화자’로 복원한다.
- 문어와 신문 말뭉치에서 선정한 담화의 경우, 2인칭 대명사 ‘당신’ 등이 지시하는 대 상은 대부분 글을 읽는 독자들이다. 따라서 괄호 속에 ‘청자’ 등을 병기하지 않는 것 을 원칙으로 한다.
- 담화 내에 2인칭 대명사가 명시되지 않았으나 내포절의 주어가 대화 상대자로 파악 되는 경우에는 내포 명제의 주어를 ‘청자’로 복원한다.
④ 시제
- 내포 명제는 내포절 술어의 시제를 그대로 쓰는 것을 원칙으로 한다.
- 내포절에 시제 표시가 없거나(null), 시제 해석이 모문에 의존적인 경우에는 모문의 시제를 기준으로 복원한다. 모문의 술어는 과거 시제로, 내포절의 술어는 현재 시제 로 표시되는 경우가 많은데, 이럴 경우 과거 시제를 복원하여 표시한다.
- 내포절의 명제가 초시간적 명제인 경우에는 모문의 시제를 따르지 않고 현재 시제로 기술한다.
- ‘현재’로 분석되는 시제소(형태)는 문맥에 따라 현재 또는 미래를 지시할 수 있다. 현 재로 해석될 경우에는 ‘-ㄴ다’로, 미래로 해석될 경우에는 ‘-ㄹ 것이-’로 표시한다.
4.2. 언어 정보 부착(주석) 지침
① 시제
- 모절 술어와 내포절 술어의 형태(形態, morph)를 기준으로 시제 정보를 부착한다. 시제 정보는 모절 술어에서 내포절 술어의 순서로 제시한다. 이때 이형태(異形態, allomorph)를 구분하지 않고 대표형으로 주석한다.
- 시제소가 드러나지 않는 경우에는 [null, 현재] 값을 부착한다.
- 함의 취소 운용소가 ‘조건’인 경우, 어미 ‘-(으)면’과 ‘-ㄴ/는다면’의 쓰임을 구분한다.
- 함의 취소 운용소가 ‘의문’인 경우, 의문형 종결어미(-ㄴ가, -는가, -느냐 등)의 일부 분(ㄴ, 는, 느 등)을 시제소로 주석하지 않는다.
- 내포절 술어의 경우, 보문소 앞의 표지까지를 시제소로 파악한다. 따라서 보문소 ‘것 을, 것로, 줄’을 취하는 대상 문장은 내포절 시제소를 관형형으로 주석한다.
- 관형형 시제소 ‘ㄴ’의 경우 술어가 동사일 때는 [과거] 값을, 형용사나 지정사일 때는 [현재] 값을 지닌다. 따라서 술어가 동사인 경우를 ‘VVㄴ’으로 주석하여 구분한다.
- 모절 또는 내포절의 서술부에 시제소가 둘 이상 나타나는 경우에는 쉼표로 구분하여 주석한다.
② 인칭
- 모절 주어와 내포절 주어의 인칭 정보를 1, 2, 3으로 구분하여 부착한다. 모절 주어 와 내포절 주어가 일치하는 경우에는 [Y] 값을, 일치하지 않는 경우에는 [N] 값을 부 착한다.
- 모절 술어 ‘보이다’의 경우 통사 구조상 모절의 의미적 주어가 대부분 드러나지 않는 다. 이때는 내포 명제의 내용이 ‘누구에게’ 그렇게 보이는가를 기준으로 인칭 정보를 부착한다.
- 주어가 표면에 드러나지 않는 일반칭의 경우에는 [1] 값을 부착한다.
③ 함의 취소 운용소(ECO)
- 모절의 함의 취소 운용소 정보, 즉 ‘부정, 의문, 조건, 양태’ 정보를 부착한다.
- 모절에 함의 취소 운용소가 둘 이상인 경우에는 ‘부정, 의문, 조건, 양태’의 순서로 쉼표를 사용하여 주석한다.
- [부정]의 경우 부정 표지를 추가로 부착한다.
- [양태]의 경우 양태 분류, 양태 표지를 추가로 부착한다. 양태 분류는 인식 양태에 대 해서는 [인식] 값을, 비인식 양태에 대해서는 [가능, 불가능, 의무, 의지] 등 2차 분류 값을 부착한다. 양태 표지는 이형태를 구분하여 주석하지 않는다.
제 3 장
설문 조사
1. 설문 조사 설계
1.1. 시험 공정
본조사 진행에 앞서 일반 언어 사용자를 대상으로 평가 작업의 구체적 절차 및 작업 방 안을 검토하고자 국립국어원 말뭉치에서 추출한 100문항, 연구를 위해 대표되는 술어와 시제를 조합하여 인위적으로 생성한 344문항을 대상으로 시험 공정을 진행하였다. 다음은 시험 공정에 활용된 문항 예시이다.
(1) 말뭉치 추출
대상 담화: 아직 김선영은 완성된 연기를 할 정도로 연기자로서 성숙한 상태가 아니었다는 증거인 셈이다. 또한 이 비판이 유치진의 지적이었음을 기억할 필요가 있다.
질문: “이 비판이 유치진의 지적이었다”에 대한 글쓴이의 태도는 어떠한가요?
(2) 인위 생성
대상 담화: 철수는 눈이 온 것을 기억하지 못했다.
질문: “눈이 왔다”에 대한 글쓴이의 태도는 어떠한가요?
이때 인위적으로 생성한 문항에는 불량 응답자를 제거하는 목적의 통제 문제(control question) 20개를 포함하였다. 다른 응답자와 명백하게 다른 경향의 응답을 제시한 응답 자의 응답은 제거를 원칙으로 하며, 세부 판단 기준은 de Marneffe et al.(2019)의 기준 을 준용하였다. 구체적으로는 함의(참 확신) 문제를 +2나 +3이 아닌 –3에서 +1까지의 응 답으로 답변하거나, 모순(거짓 확신) 문제를 –2나 –3이 아닌 –1에서 +3까지의 응답으로 답변한 응답자는 부실 응답자로 간주하여 제외하기로 하였다.
시험 공정은 본 사업 연구진 8명과 서울·경기 성인 남녀 16명이 설문 응답자로 참여하 여 2020년 8월 8일부터 8월 14일까지 7일간 진행하였다. 시험 공정에 참여한 참여자 정 보는 다음과 같다.
<표 10> 시험 공정 진행 결과
구분 | 참여자 | 제외 (부실 응답 등) | 유효 응답자 |
본 사업 연구진 | 8 | 0 | 8 |
서울 ․ 경기 성인 남녀 | 16 | 0 | 16 |
합계 | 24 | 0 | 24 |
본조사의 적절한 설문 분량을 설정하기 위하여 시험 공정 결과에 나타난 응답 소요 시 간을 측정하였다. 시험 공정 결과에 나타난 응답 소요 시간 및 이에 따른 응답자 피로도 등을 고려하여, 설문 시간이 30분이 초과되지 않도록 세트당 설문 문항을 20문항으로 설 정하기로 하였다.
<표 11> 시험 공정 유효 응답 소요 시간
구분 | 세트 | 세트 문항 | 응답 소요 시간 | |||||
본 사업 연구진 | 서울 ․ 경기 성인 남녀 | |||||||
최단 응답 | 최장 응답 | 평균 응답 | 최단 응답 | 최장 응답 | 평균 응답 | |||
말뭉치 추출 | A | 100 | 38분 27초 | 47분 12초 | 41분 52초 | 42분 37초 | 1시간 12분 08초 | 57분 05초 |
인위 생성 | A | 172 | 24분 34초 | 38분 18초 | 33분 38초 | 42분 48초 | 56분 17초 | 51분 45초 |
B | 172 | 22분 41초 | 38분 07초 | 30분 35초 | 39분 58초 | 57분 43초 | 49분 14초 |
1.2. 본조사 설계
본조사는 전국 만 19세 이상 성인 남녀를 대상으로 제2장에서 선정한 대상 문장을 통 해 내포 명제에 대한 화자의 태도를 평가하는 방식으로 설계하였다. 본조사는 대상이 되 는 1,800개의 문항을 분할하여 응답 세트를 구성하고, 이를 다시 여러 명의 응답자를 서 로 다른 집단으로 구성하여 설문을 수행하는 방식이므로 집단 간 편차가 발생할 수 있다. 조사 결과의 신뢰도를 확보하기 위해서는 응답 일관성이 중요하다. 이를 위해 본 사업은
i) Hill et al.(2016)의 일관성 확인 문제(questions from consistency set)를 활용한 응 답자 간의 편차(difference between annotaters)와 응답 세트별 편차(difference between tranches)를 확인하고 보정하기 위한 전략과 ii) de Marneffe et al.(2019)의 통제 문제(control question) 검증 전략, 그리고 iii) 일반적으로 설문에 요구되는 응답 신 뢰성 검토를 설계 시 고려하였다.
Hill et al.(2016)의 일관성 확인 문제는 응답자 또는 여러 개의 분할된 집단 간에 존재 할 수 있는 응답 차이를 확인하고 수치를 보정하기 위한 방법이다. 이 방식은 일관성 확 인 문제로 선정된 문제들을 설문에 균등한 분포로 배치시키는 방식이다. 한편, de Marneffe et al.(2019)의 통제 문제(control question)는 응답을 보정하기보다는 제거하 기 위한 방법이다. 다만 그 형태는 모든 응답자에게 일관된 문제를 제시한다는 점에서 Hill et al.(2016)의 일관성 확인 문제와 동일하다.
본 사업에서는 이렇게 의도적으로 제시된 문제를 통제 문제로 정의하고, 문어, 신문, 구 어 각 세트에 통제 문제 3개를 문항 3번, 10번, 17번에 균등하게 배치하여 설문 응답 데 이터의 신뢰도를 직관적으로 확인할 수 있도록 안전장치를 만들었다. 문어, 신문, 구어의 통제 문제는 다음과 같다.
<표 12> 문어, 신문, 구어의 통제 문제
구분 | 번호 (문항 아이디) | 담화 | 질문 | 구분 |
문어 | 1 (WT_F AKE1) | 남편이든 아내든, 먼저 사과하는 것은 자 존심이 상하는 문제가 절대로 아니다. 나 는 먼저 사과하는 일이야말로 부부 간 애정의 징표임을 확실히 깨달았다. | ※ 다음 문장에 대해 필자는 어느 정도로 확신한다고 생각하십니까? "먼저 사과하는 일이야말로 부부 간 애정의 징표이다." | 함의 (참 확신) |
2 (WT_F AKE2) | 이 세상에서는 일시적인 쾌락밖에 얻 지 못한다. 나는 지속적인 행복이 지 상에 있다고 믿지 않는다. | ※ 다음 문장에 대해 필자는 어느 정도로 확신한다고 생각하십니까? "지속적인 행복이 지상에 있다." | 모순 (거짓 확신) | |
3 (WT_F AKE3) | 정수는 마음이 무거웠다. 어제 동희에게 심하게 화를 낸 것을 후회했다. | ※ 다음 문장에 대해 필자는 어느 정도로 확신한다고 생각하십니까? "정수는 어제 동희에게 심하게 화를 냈다." | 함의 (참 확신) | |
신문 | 1 (FQ_F AKE1) | 볼턴 팬들은 게리 맥슨 감독이 한때 볼턴 감독으로 있었던 것을 분명히 기억한다. | ※ 다음 문장에 대해 필자는 어느 정도로 확신한다고 생각하십니까? "게리 맥슨 감독은 한때 볼턴 감독으 로 있었다." | 함의 (참 확신) |
2 (FQ_F AKE2) | 지금 시점에서 2차 정상회담으로 무 엇을 이룰지 의문이다. 트럼프는 자 신만이 북한 문제를 해결할 수 있다 고 착각하고 있다. | ※ 다음 문장에 대해 필자는 어느 정도로 확신한다고 생각하십니까? "트럼프만이 북한 문제를 해결할 수 있다." | 모순 (거짓 확신) | |
3 (FQ_F AKE3) | 장비 일체 점검과 몇 차례의 테스트 를 거친 결과, 5번 기기의 시간 설 정이 잘못돼 있음을 발견하였다. | ※ 다음 문장에 대해 필자는 어느 정도로 확신한다고 생각하십니까? "5번 기기의 시간 설정이 잘못돼 있었다." | 함의 (참 확신) | |
구어 | 1 (SP_F AKE1) | 영희: 아~ 이거! 다들 놀라지마! 나 앞 으로 여기서 같이 살려구. 어때? 좋지? 경순: 응? 여기서? 영희: 응! 역시 사람은 가족들과 함 께 지내야 된다는 걸 깨달았어 | ※ 다음 문장에 대해 영희(은)는 어느 정도로 확신한다고 생각하십니까? “역시 사람은 가족들과 함께 지내야 된다.” | 함의 (참 확신) |
2 (SP_F AKE2) | P1: 주상절리는 용암이 식어 고체로 굳을 때 기둥 모양으로 갈라진 것을 말합니다. 많은 사람들이 주상절리는 검 은색의 현무암에서만 나타나는 것으로 착 각하는데, 사실 그렇지 않습니다. | ※ 다음 문장에 대해 P1(은)는 어느 정도로 확신한다고 생각하십니까? “주상절리는 검은색의 현무암에서만 나타난다.” | 모순 (거짓 확신) | |
3 (SP_F AKE3) | 무령: 공주. 궁 생활에 어려운 일이 많 을 것이다. 허나. 짐이 언제나 공주의 곁 에 있음을 잊지 말거라. | ※ 다음 문장에 대해 무령(은)는 어느 정도로 확신한다고 생각하십니까? “짐(무령)이 언제나 공주의 곁에 있다.” | 함의 (참 확신) |
이를 바탕으로 본조사는 세트당 23문항(본설문 20문항, 통제 문제 3문항)으로 설계하였 으며, 설문 시간은 30분 내외로 구성하였다. 최종적으로 문어 35세트, 신문 35세트, 구어 20세트 등 총 90세트를 구성하여 설문으로 배포하였다.
<표 13> 말뭉치 유형별 평가용 설문 문항 및 응답 세트
구분 | 설문 문항 수 | 응답 세트 수 | 응답 세트 아이디 | |
본설문 | 통제 문제 | |||
문어 | 700 | 105 | 35 | 문어_001~문어_035 |
신문 | 700 | 105 | 35 | 신문_001~신문_035 |
구어 | 400 | 60 | 20 | 구어_001~구어_020 |
합계 | 1,800 | 270 | 90 |
1.3. 웹 설문 구축
1개 세트당 23개 문항으로 구성된 90개 응답 세트를 웹 설문으로 구축하였다. 말뭉치 유형별 웹 설문의 질의 형태는 다음 그림과 같이 구성하였고, 모바일 환경과 개인용 컴퓨 터 환경에서 모두 조사 진행이 가능하도록 설계하였다.
<그림 1> 웹 설문 질의 형태
2. 설문 진행
본조사는 2020년 11월 14일부터 12월 7일까지 24일간 각 응답 세트별 8명, 총 720명 을 대상으로 설문을 수행하였다. 설문에 참여한 응답자에게는 1만원권의 문화 상품권을 보상으로 제공하였다. 그러나 최초로 수집된 응답을 면밀히 검토한 결과 108명의 응답은 후술하는 이유로 사용할 수 없었다. 따라서 다시 부족분만큼 재설문 응답자를 모집하여 설문을 수행하고, 그 응답을 다시 검토한 후 여전히 불량한 경우에는 또다시 재설문을 수 행하여 최대 4회의 추가 설문을 통해 총 124명의 응답을 수집하였다. 결과적으로 총 844 명의 응답을 수집하였으며, 이 중에서 총 736명의 응답을 유효 응답으로 활용하였다. 각 세트별로는 최소 8명에서 최대 20명까지의 유효 응답이 수집되었다.
앞서 설명한 바와 같이 통제 문제는 응답자 간 편차를 확인하기 위한 목적과 불량 응답 자를 제거하는 목적 두 가지로 사용될 수 있다. 우선 모든 집단에서 공통적으로 응답한 문제에 대한 응답 분포를 다른 집단의 분포와 비교하고, 만약 특정 응답이 이상치로 판단 되는 경우에는 평균보다 높은 점수로 응답한 집단에 속한 응답자의 점수는 일괄적으로 낮 추고, 평균보다 낮은 점수로 응답한 집단의 점수는 일괄적으로 높이는 조정 작업을 통해 균질성을 확보할 수 있다(Hill et al. 2016). 구체적으로 이 보정 방법(correct bias)은 통 제 문제에 대한 응답자 각각의 평균을 통제 문제에 대한 모든 응답의 평균과 비교하여 차 이의 절댓값이 1 이상인 경우 그 응답자가 인지하는 기준이 일반인보다 일관되게 높거나 낮다고 판단하고 그만큼 높이거나 낮추어서 척도를 보정하는 등의 방식으로, 이러한 보정 을 통하여 일관성 수치의 향상을 기대한다. 그러나 본 사업에서는 다른 평가자와 명백하 게 다른 경향의 응답을 제시한 평가자의 응답은 보정(normalization/rescaling)이 아닌 제거를 하는 것을 원칙으로 한다. 통제 세부 판단 기준은 de Marneffe et al.(2019)의 기 준을 준용하여 +2와 –2를 임계치로 하였다. 구체적으로는 위의 통제 문제와 같이 함의(참 확신) 문제를 +2나 +3이 아닌 –3에서 +1까지의 응답으로 답변하거나, 모순(거짓 확신) 문 제를 –2나 –3이 아닌 –1에서 +3까지의 응답으로 답변한 응답자는 부실 응답자로 간주하 여 제외하였다.
이렇게 통제 문제 검증을 통하여 제외된 응답자를 대신하여 다시 새로운 응답자로 하여 금 해당 세트의 문항을 제시하고 응답하게 하였다. 이러한 방식으로 설문은 최대 4차까지 재설문을 통하여 수행하였다. 이 과정에서 문어 4개, 신문 25개, 구어 79명의 응답이 해 당 기준을 충족하지 못하였다. 해당 응답을 제시한 응답자의 모든 응답은 제거했다.
응답 세트별 조사 참여자 및 유효 응답자는 아래와 같다.
<표 14> 응답 세트별 조사 참여자 및 유효 응답자
응답 세트 아이디 | 최초 응답자 | 제외 (부실 응답 등) | 재설문 응답자 | 총 응답자 | 유효 응답자 |
문어_001 | 8 | 0 | 0 | 8 | 8 |
문어_002 | 8 | 0 | 0 | 8 | 8 |
응답 세트 아이디 | 최초 응답자 | 제외 (부실 응답 등) | 재설문 응답자 | 총 응답자 | 유효 응답자 |
문어_003 | 8 | 0 | 0 | 8 | 8 |
문어_004 | 8 | 2 | 2 | 10 | 8 |
문어_005 | 8 | 0 | 0 | 8 | 8 |
문어_006 | 8 | 0 | 0 | 8 | 8 |
문어_007 | 8 | 0 | 0 | 8 | 8 |
문어_008 | 8 | 1 | 1 | 9 | 8 |
문어_009 | 8 | 0 | 0 | 8 | 8 |
문어_010 | 8 | 0 | 0 | 8 | 8 |
문어_011 | 8 | 0 | 0 | 8 | 8 |
문어_012 | 8 | 0 | 0 | 8 | 8 |
문어_013 | 8 | 0 | 0 | 8 | 8 |
문어_014 | 8 | 0 | 0 | 8 | 8 |
문어_015 | 8 | 0 | 0 | 8 | 8 |
문어_016 | 8 | 0 | 0 | 8 | 8 |
문어_017 | 8 | 0 | 0 | 8 | 8 |
문어_018 | 8 | 0 | 0 | 8 | 8 |
문어_019 | 8 | 0 | 0 | 8 | 8 |
문어_020 | 8 | 0 | 0 | 8 | 8 |
문어_021 | 8 | 0 | 0 | 8 | 8 |
문어_022 | 8 | 0 | 0 | 8 | 8 |
문어_023 | 8 | 0 | 0 | 8 | 8 |
문어_024 | 8 | 0 | 0 | 8 | 8 |
문어_025 | 8 | 0 | 0 | 8 | 8 |
문어_026 | 8 | 0 | 0 | 8 | 8 |
문어_027 | 8 | 0 | 0 | 8 | 8 |
문어_028 | 8 | 0 | 0 | 8 | 8 |
문어_029 | 8 | 0 | 0 | 8 | 8 |
문어_030 | 8 | 0 | 0 | 8 | 8 |
문어_031 | 8 | 0 | 0 | 8 | 8 |
문어_032 | 8 | 0 | 0 | 8 | 8 |
문어_033 | 8 | 0 | 0 | 8 | 8 |
문어_034 | 8 | 0 | 0 | 8 | 8 |
문어_035 | 8 | 1 | 1 | 9 | 8 |
신문_001 | 8 | 0 | 0 | 8 | 8 |
신문_002 | 8 | 0 | 0 | 8 | 8 |
신문_003 | 8 | 0 | 0 | 8 | 8 |
신문_004 | 8 | 0 | 0 | 8 | 8 |
신문_005 | 8 | 0 | 0 | 8 | 8 |
신문_006 | 8 | 0 | 0 | 8 | 8 |
신문_007 | 8 | 0 | 0 | 8 | 8 |
신문_008 | 8 | 0 | 0 | 8 | 8 |
신문_009 | 8 | 0 | 0 | 8 | 8 |
신문_010 | 8 | 1 | 1 | 9 | 8 |
신문_011 | 8 | 0 | 0 | 8 | 8 |
신문_012 | 8 | 1 | 1 | 9 | 8 |
신문_013 | 8 | 0 | 0 | 8 | 8 |
신문_014 | 8 | 0 | 0 | 8 | 8 |
신문_015 | 8 | 1 | 1 | 9 | 8 |
신문_016 | 8 | 3 | 3 | 11 | 8 |
신문_017 | 8 | 0 | 0 | 8 | 8 |
신문_018 | 8 | 0 | 0 | 8 | 8 |
응답 세트 아이디 | 최초 응답자 | 제외 (부실 응답 등) | 재설문 응답자 | 총 응답자 | 유효 응답자 |
신문_019 | 8 | 1 | 1 | 9 | 8 |
신문_020 | 8 | 0 | 0 | 8 | 8 |
신문_021 | 8 | 0 | 0 | 8 | 8 |
신문_022 | 8 | 2 | 2 | 10 | 8 |
신문_023 | 8 | 0 | 0 | 8 | 8 |
신문_024 | 8 | 1 | 1 | 9 | 8 |
신문_025 | 8 | 1 | 1 | 9 | 8 |
신문_026 | 8 | 0 | 0 | 8 | 8 |
신문_027 | 8 | 1 | 1 | 9 | 8 |
신문_028 | 8 | 0 | 0 | 8 | 8 |
신문_029 | 8 | 3 | 3 | 11 | 8 |
신문_030 | 8 | 2 | 2 | 10 | 8 |
신문_031 | 8 | 2 | 2 | 10 | 8 |
신문_032 | 8 | 0 | 0 | 8 | 8 |
신문_033 | 8 | 2 | 2 | 10 | 8 |
신문_034 | 8 | 0 | 0 | 8 | 8 |
신문_035 | 8 | 4 | 4 | 12 | 8 |
구어_001 | 8 | 1 | 1 | 9 | 8 |
구어_002 | 8 | 2 | 4 | 12 | 10 |
구어_003 | 8 | 3 | 4 | 12 | 9 |
구어_004 | 8 | 6 | 8 | 16 | 10 |
구어_005 | 8 | 1 | 1 | 9 | 8 |
구어_006 | 8 | 3 | 3 | 11 | 8 |
구어_007 | 8 | 3 | 3 | 11 | 8 |
구어_008 | 8 | 5 | 7 | 15 | 10 |
구어_009 | 8 | 5 | 6 | 14 | 9 |
구어_010 | 8 | 3 | 3 | 11 | 8 |
구어_011 | 8 | 3 | 4 | 12 | 9 |
구어_012 | 8 | 4 | 6 | 14 | 10 |
구어_013 | 8 | 5 | 7 | 15 | 10 |
구어_014 | 8 | 12 | 12 | 20 | 8 |
구어_015 | 8 | 5 | 6 | 14 | 9 |
구어_016 | 8 | 4 | 4 | 12 | 8 |
구어_017 | 8 | 7 | 7 | 15 | 8 |
구어_018 | 8 | 3 | 4 | 12 | 9 |
구어_019 | 8 | 4 | 5 | 13 | 9 |
구어_020 | 8 | 0 | 0 | 8 | 8 |
계 | 720 | 108 | 124 | 844 | 736 |
다음은 부실 응답자 제거 이전과 이후의 통제 문제에 대한 응답 수와 응답 평균이다.
<표 15> 통제 문제에 대한 응답 수와 응답 평균
유형 | 문항 아이디 | 구분 | 부실 응답자 제거 이전 | 부실 응답자 제거 이후 | ||
응답 수 | 응답 평균 | 응답 수 | 응답 평균 | |||
문어 | WT_FAKE1 | 함의(참 확신) | 284 | 2.7887 | 280 | 2.8107 |
문어 | WT_FAKE2 | 모순(거짓 확신) | 284 | -2.7289 | 280 | -2.7429 |
문어 | WT_FAKE3 | 함의(참 확신) | 284 | 2.8908 | 280 | 2.8929 |
신문 | NE_FAKE1 | 함의(참 확신) | 305 | 2.7947 | 280 | 2.8536 |
신문 | NE_FAKE2 | 모순(거짓 확신) | 305 | -2.6523 | 280 | -2.7179 |
신문 | NE_FAKE3 | 함의(참 확신) | 305 | 2.7881 | 280 | 2.8214 |
구어 | SP_FAKE1 | 함의(참 확신) | 255 | 2.5373 | 176 | 2.8239 |
구어 | SP_FAKE2 | 모순(거짓 확신) | 255 | -2.0627 | 176 | -2.8523 |
구어 | SP_FAKE3 | 함의(참 확신) | 255 | 2.1373 | 176 | 2.6250 |
전체 유효 응답자 특성 및 각 응답 세트별 응답자 특성은 다음과 같다.
<표 16> 전체 응답자 특성
전체 | [성별] | [연령] | ||||
남자 | 여자 | 29세 이하 | 30대 | 40대 | 50세 이상 | |
736 | 276 | 460 | 223 | 242 | 168 | 103 |
100% | 37.5% | 62.5% | 30.3% | 32.9% | 22.8% | 14.0% |
<표 17> 세트별 응답자 특성
응답 세트 아이디 | 전체 | [성별] | [연령] | ||||
남자 | 여자 | 29세 이하 | 30대 | 40대 | 50세 이상 | ||
문어_001 | 8 100.0% | 4 50.0% | 4 50.0% | 3 37.5% | 2 25.0% | 1 12.5% | 2 25.0% |
문어_002 | 8 100.0% | 2 25.0% | 6 75.0% | 0 0.0% | 4 50.0% | 2 25.0% | 2 25.0% |
문어_003 | 8 100.0% | 6 75.0% | 2 25.0% | 4 50.0% | 0 0.0% | 2 25.0% | 2 25.0% |
문어_004 | 8 100.0% | 3 37.5% | 5 62.5% | 0 0.0% | 4 50.0% | 1 12.5% | 3 37.5% |
문어_005 | 8 100.0% | 5 62.5% | 3 37.5% | 4 50.0% | 2 25.0% | 2 25.0% | 0 0.0% |
문어_006 | 8 100.0% | 1 12.5% | 7 87.5% | 2 25.0% | 1 12.5% | 3 37.5% | 2 25.0% |
응답 세트 아이디 | 전체 | [성별] | [연령] | ||||
남자 | 여자 | 29세 이하 | 30대 | 40대 | 50세 이상 | ||
문어_007 | 8 100.0% | 5 62.5% | 3 37.5% | 3 37.5% | 3 37.5% | 1 12.5% | 1 12.5% |
문어_008 | 8 100.0% | 4 50.0% | 4 50.0% | 1 12.5% | 2 25.0% | 3 37.5% | 2 25.0% |
문어_009 | 8 100.0% | 4 50.0% | 4 50.0% | 2 25.0% | 3 37.5% | 2 25.0% | 1 12.5% |
문어_010 | 8 100.0% | 4 50.0% | 4 50.0% | 4 50.0% | 1 12.5% | 1 12.5% | 2 25.0% |
문어_011 | 8 100.0% | 2 25.0% | 6 75.0% | 0 0.0% | 4 50.0% | 3 37.5% | 1 12.5% |
문어_012 | 8 100.0% | 3 37.5% | 5 62.5% | 1 12.5% | 5 62.5% | 2 25.0% | 0 0.0% |
문어_013 | 8 100.0% | 3 37.5% | 5 62.5% | 0 0.0% | 3 37.5% | 2 25.0% | 3 37.5% |
문어_014 | 8 100.0% | 2 25.0% | 6 75.0% | 3 37.5% | 3 37.5% | 1 12.5% | 1 12.5% |
문어_015 | 8 100.0% | 3 37.5% | 5 62.5% | 3 37.5% | 2 25.0% | 1 12.5% | 2 25.0% |
문어_016 | 8 100.0% | 3 37.5% | 5 62.5% | 2 25.0% | 2 25.0% | 3 37.5% | 1 12.5% |
문어_017 | 8 100.0% | 2 25.0% | 6 75.0% | 1 12.5% | 1 12.5% | 4 50.0% | 2 25.0% |
문어_018 | 8 100.0% | 4 50.0% | 4 50.0% | 0 0.0% | 5 62.5% | 3 37.5% | 0 0.0% |
문어_019 | 8 100.0% | 3 37.5% | 5 62.5% | 4 50.0% | 1 12.5% | 1 12.5% | 2 25.0% |
문어_020 | 8 100.0% | 4 50.0% | 4 50.0% | 1 12.5% | 4 50.0% | 2 25.0% | 1 12.5% |
문어_021 | 8 100.0% | 4 50.0% | 4 50.0% | 3 37.5% | 0 0.0% | 3 37.5% | 2 25.0% |
문어_022 | 8 100.0% | 4 50.0% | 4 50.0% | 0 0.0% | 5 62.5% | 2 25.0% | 1 12.5% |
문어_023 | 8 100.0% | 3 37.5% | 5 62.5% | 3 37.5% | 2 25.0% | 2 25.0% | 1 12.5% |
문어_024 | 8 100.0% | 1 12.5% | 7 87.5% | 1 12.5% | 4 50.0% | 1 12.5% | 2 25.0% |
문어_025 | 8 100.0% | 1 12.5% | 7 87.5% | 1 12.5% | 4 50.0% | 3 37.5% | 0 0.0% |
문어_026 | 8 100.0% | 4 50.0% | 4 50.0% | 2 25.0% | 1 12.5% | 3 37.5% | 2 25.0% |
문어_027 | 8 100.0% | 3 37.5% | 5 62.5% | 3 37.5% | 2 25.0% | 1 12.5% | 2 25.0% |
문어_028 | 8 100.0% | 5 62.5% | 3 37.5% | 3 37.5% | 2 25.0% | 3 37.5% | 0 0.0% |
응답 세트 아이디 | 전체 | [성별] | [연령] | ||||
남자 | 여자 | 29세 이하 | 30대 | 40대 | 50세 이상 | ||
문어_029 | 8 100.0% | 2 25.0% | 6 75.0% | 4 50.0% | 0 0.0% | 3 37.5% | 1 12.5% |
문어_030 | 8 100.0% | 1 12.5% | 7 87.5% | 3 37.5% | 3 37.5% | 1 12.5% | 1 12.5% |
문어_031 | 8 100.0% | 0 0.0% | 8 100.0% | 2 25.0% | 1 12.5% | 3 37.5% | 2 25.0% |
문어_032 | 8 100.0% | 2 25.0% | 6 75.0% | 3 37.5% | 3 37.5% | 1 12.5% | 1 12.5% |
문어_033 | 8 100.0% | 4 50.0% | 4 50.0% | 3 37.5% | 3 37.5% | 1 12.5% | 1 12.5% |
문어_034 | 8 100.0% | 5 62.5% | 3 37.5% | 2 25.0% | 4 50.0% | 1 12.5% | 1 12.5% |
문어_035 | 8 100.0% | 2 25.0% | 6 75.0% | 3 37.5% | 2 25.0% | 2 25.0% | 1 12.5% |
신문_001 | 8 100.0% | 2 25.0% | 6 75.0% | 4 50.0% | 1 12.5% | 2 25.0% | 1 12.5% |
신문_002 | 8 100.0% | 2 25.0% | 6 75.0% | 2 25.0% | 3 37.5% | 2 25.0% | 1 12.5% |
신문_003 | 8 100.0% | 5 62.5% | 3 37.5% | 3 37.5% | 4 50.0% | 0 0.0% | 1 12.5% |
신문_004 | 8 100.0% | 0 0.0% | 8 100.0% | 2 25.0% | 1 12.5% | 4 50.0% | 1 12.5% |
신문_005 | 8 100.0% | 3 37.5% | 5 62.5% | 3 37.5% | 1 12.5% | 2 25.0% | 2 25.0% |
신문_006 | 8 100.0% | 6 75.0% | 2 25.0% | 2 25.0% | 3 37.5% | 3 37.5% | 0 0.0% |
신문_007 | 8 100.0% | 3 37.5% | 5 62.5% | 1 12.5% | 5 62.5% | 1 12.5% | 1 12.5% |
신문_008 | 8 100.0% | 4 50.0% | 4 50.0% | 4 50.0% | 2 25.0% | 1 12.5% | 1 12.5% |
신문_009 | 8 100.0% | 2 25.0% | 6 75.0% | 2 25.0% | 2 25.0% | 2 25.0% | 2 25.0% |
신문_010 | 8 100.0% | 1 12.5% | 7 87.5% | 3 37.5% | 3 37.5% | 2 25.0% | 0 0.0% |
신문_011 | 8 100.0% | 2 25.0% | 6 75.0% | 3 37.5% | 3 37.5% | 2 25.0% | 0 0.0% |
신문_012 | 8 100.0% | 5 62.5% | 3 37.5% | 3 37.5% | 3 37.5% | 0 0.0% | 2 25.0% |
신문_013 | 8 100.0% | 4 50.0% | 4 50.0% | 3 37.5% | 2 25.0% | 2 25.0% | 1 12.5% |
신문_014 | 8 100.0% | 2 25.0% | 6 75.0% | 3 37.5% | 3 37.5% | 1 12.5% | 1 12.5% |
신문_015 | 8 100.0% | 4 50.0% | 4 50.0% | 4 50.0% | 2 25.0% | 1 12.5% | 1 12.5% |
응답 세트 아이디 | 전체 | [성별] | [연령] | ||||
남자 | 여자 | 29세 이하 | 30대 | 40대 | 50세 이상 | ||
신문_016 | 8 100.0% | 4 50.0% | 4 50.0% | 2 25.0% | 2 25.0% | 2 25.0% | 2 25.0% |
신문_017 | 8 100.0% | 6 75.0% | 2 25.0% | 4 50.0% | 2 25.0% | 2 25.0% | 0 0.0% |
신문_018 | 8 100.0% | 4 50.0% | 4 50.0% | 5 62.5% | 0 0.0% | 1 12.5% | 2 25.0% |
신문_019 | 8 100.0% | 4 50.0% | 4 50.0% | 4 50.0% | 3 37.5% | 1 12.5% | 0 0.0% |
신문_020 | 8 100.0% | 4 50.0% | 4 50.0% | 2 25.0% | 3 37.5% | 1 12.5% | 2 25.0% |
신문_021 | 8 100.0% | 2 25.0% | 6 75.0% | 3 37.5% | 3 37.5% | 1 12.5% | 1 12.5% |
신문_022 | 8 100.0% | 2 25.0% | 6 75.0% | 4 50.0% | 2 25.0% | 1 12.5% | 1 12.5% |
신문_023 | 8 100.0% | 2 25.0% | 6 75.0% | 2 25.0% | 4 50.0% | 1 12.5% | 1 12.5% |
신문_024 | 8 100.0% | 2 25.0% | 6 75.0% | 4 50.0% | 2 25.0% | 0 0.0% | 2 25.0% |
신문_025 | 8 100.0% | 3 37.5% | 5 62.5% | 3 37.5% | 3 37.5% | 2 25.0% | 0 0.0% |
신문_026 | 8 100.0% | 3 37.5% | 5 62.5% | 2 25.0% | 4 50.0% | 1 12.5% | 1 12.5% |
신문_027 | 8 100.0% | 2 25.0% | 6 75.0% | 4 50.0% | 2 25.0% | 1 12.5% | 1 12.5% |
신문_028 | 8 100.0% | 5 62.5% | 3 37.5% | 3 37.5% | 3 37.5% | 1 12.5% | 1 12.5% |
신문_029 | 8 100.0% | 4 50.0% | 4 50.0% | 4 50.0% | 2 25.0% | 1 12.5% | 1 12.5% |
신문_030 | 8 100.0% | 0 0.0% | 8 100.0% | 5 62.5% | 1 12.5% | 2 25.0% | 0 0.0% |
신문_031 | 8 100.0% | 3 37.5% | 5 62.5% | 2 25.0% | 4 50.0% | 1 12.5% | 1 12.5% |
신문_032 | 8 100.0% | 2 25.0% | 6 75.0% | 3 37.5% | 4 50.0% | 0 0.0% | 1 12.5% |
신문_033 | 8 100.0% | 5 62.5% | 3 37.5% | 2 25.0% | 3 37.5% | 3 37.5% | 0 0.0% |
신문_034 | 8 100.0% | 3 37.5% | 5 62.5% | 4 50.0% | 3 37.5% | 0 0.0% | 1 12.5% |
신문_035 | 8 100.0% | 4 50.0% | 4 50.0% | 1 12.5% | 4 50.0% | 2 25.0% | 1 12.5% |
구어_001 | 8 100.0% | 4 50.0% | 4 50.0% | 2 25.0% | 3 37.5% | 2 25.0% | 1 12.5% |
구어_002 | 10 100.0% | 7 70.0% | 3 30.0% | 1 10.0% | 6 60.0% | 3 30.0% | 0 0.0% |
응답 세트 아이디 | 전체 | [성별] | [연령] | ||||
남자 | 여자 | 29세 이하 | 30대 | 40대 | 50세 이상 | ||
구어_003 | 9 100.0% | 3 33.3% | 6 66.7% | 3 33.3% | 3 33.3% | 2 22.2% | 1 11.1% |
구어_004 | 10 100.0% | 4 40.0% | 6 60.0% | 3 30.0% | 2 20.0% | 4 40.0% | 1 10.0% |
구어_005 | 8 100.0% | 5 62.5% | 3 37.5% | 1 12.5% | 3 37.5% | 2 25.0% | 2 25.0% |
구어_006 | 8 100.0% | 3 37.5% | 5 62.5% | 2 25.0% | 3 37.5% | 3 37.5% | 0 0.0% |
구어_007 | 8 100.0% | 0 0.0% | 8 100.0% | 1 12.5% | 3 37.5% | 3 37.5% | 1 12.5% |
구어_008 | 10 100.0% | 3 30.0% | 7 70.0% | 3 30.0% | 4 40.0% | 2 20.0% | 1 10.0% |
구어_009 | 9 100.0% | 1 11.1% | 8 88.9% | 2 22.2% | 1 11.1% | 4 44.4% | 2 22.2% |
구어_010 | 8 100.0% | 2 25.0% | 6 75.0% | 2 25.0% | 4 50.0% | 2 25.0% | 0 0.0% |
구어_011 | 9 100.0% | 4 44.4% | 5 55.6% | 1 11.1% | 3 33.3% | 4 44.4% | 1 11.1% |
구어_012 | 10 100.0% | 3 30.0% | 7 70.0% | 2 20.0% | 6 60.0% | 1 10.0% | 1 10.0% |
구어_013 | 10 100.0% | 2 20.0% | 8 80.0% | 3 30.0% | 4 40.0% | 2 20.0% | 1 10.0% |
구어_014 | 8 100.0% | 1 12.5% | 7 87.5% | 2 25.0% | 1 12.5% | 3 37.5% | 2 25.0% |
구어_015 | 9 100.0% | 3 33.3% | 6 66.7% | 3 33.3% | 3 33.3% | 2 22.2% | 1 11.1% |
구어_016 | 8 100.0% | 2 25.0% | 6 75.0% | 2 25.0% | 2 25.0% | 3 37.5% | 1 12.5% |
구어_017 | 8 100.0% | 2 25.0% | 6 75.0% | 2 25.0% | 3 37.5% | 1 12.5% | 2 25.0% |
구어_018 | 9 100.0% | 4 44.4% | 5 55.6% | 5 55.6% | 1 11.1% | 2 22.2% | 1 11.1% |
구어_019 | 9 100.0% | 4 44.4% | 5 55.6% | 2 22.2% | 4 44.4% | 1 11.1% | 2 22.2% |
구어_020 | 8 100.0% | 2 25.0% | 6 75.0% | 2 25.0% | 3 37.5% | 3 37.5% | 0 0.0% |
합계 | 736 100% | 276 37.5% | 460 62.5% | 223 30.3% | 242 32.9% | 168 22.8% | 103 14.0% |
3. 설문 결과 신뢰도 분석
통제 문제를 활용한 검증 과정을 통해 불량 응답자를 제거한 뒤, 설문 결과 신뢰도 분 석을 위해 세트별 응답자의 크리펜도르프 알파(Krippendorff's alpha) 검정을 수행하여 응답자들의 응답 간 상관관계를 확인하였다. 크리펜도르프(Kripendorff, 2004)에 의하면 크리펜도르프 알파가 0.8 이상일 때 신뢰도가 높고 0.667 이상인 경우 신뢰도가 있는 상 태라고 볼 수 있으나, 신뢰도에 대한 임계치는 연구 분야에 따라 상이하게 적용된다. de Marneffe et al.(2019)에 제시된 확신성 말뭉치(CommitmentBank)의 크리펜도르프 알파 는 0.53에 불과하다(“The full CommitmentBank has a Krippendorff’s of 0.53, while is 0.74 on the restricted set.”). 본 연구에서는 응답의 일관성을 검토하는 목적으로 신 뢰도 분석을 수행하였다.
이때 중요한 점은 세트별로 상이한 설문이 요구되었기 때문에 크리펜도르프 검정은 각 세트별로 수행하여야 한다는 것이다. 이 검정은 통제 문제를 제외한 20개 설문 문항으로 수행하였다. 전체 세트별 크리펜도르프 알파 평균은 문어 0.762555, 신문 0.811232, 구어 0.771195로 모두 0.7을 상회하였다. 그러나 이는 전체 평균으로, 불가피하게 세트별로 응 답 일치성에 대한 편차가 존재할 수밖에 없다.
아래 <표 18>은 각 세트별 신뢰도 수치이다. 문어 27개 세트, 신문 31개 세트, 구어 18개 세트가 크리펜도르프 알파가 0.667 이상이었다.
<표 18> 응답 세트별 신뢰도
문어 | 신문 | 구어 | |||
응답 세트 아이디 | 크리펜도르프 알파 | 응답 세트 아이디 | 크리펜도르프 알파 | 응답 세트 아이디 | 크리펜도르프 알파 |
문어_001 | 0.360601 | 신문_001 | 0.880688 | 구어_001 | 0.838488 |
문어_002 | 0.836107 | 신문_002 | 0.842839 | 구어_002 | 0.782375 |
문어_003 | 0.543576 | 신문_003 | 0.898909 | 구어_003 | 0.91712 |
문어_004 | 0.615068 | 신문_004 | 0.849606 | 구어_004 | 0.746585 |
문어_005 | 0.663395 | 신문_005 | 0.912442 | 구어_005 | 0.73104 |
문어_006 | 0.856309 | 신문_006 | 0.939673 | 구어_006 | 0.892474 |
문어_007 | 0.583759 | 신문_007 | 0.916954 | 구어_007 | 0.850233 |
문어_008 | 0.931551 | 신문_008 | 0.930797 | 구어_008 | 0.869127 |
문어_009 | 0.846065 | 신문_009 | 0.872502 | 구어_009 | 0.810464 |
문어_010 | 0.930646 | 신문_010 | 0.657155 | 구어_010 | 0.830537 |
문어_011 | 0.875784 | 신문_011 | 0.661143 | 구어_011 | 0.768656 |
문어_012 | 0.905942 | 신문_012 | 0.886132 | 구어_012 | 0.537573 |
문어_013 | 0.884582 | 신문_013 | 0.899772 | 구어_013 | 0.779344 |
문어_014 | 0.896542 | 신문_014 | 0.899547 | 구어_014 | 0.739867 |
문어_015 | 0.923919 | 신문_015 | 0.48367 | 구어_015 | 0.484325 |
문어_016 | -0.03618 | 신문_016 | 0.135822 | 구어_016 | 0.840918 |
문어_017 | 0.953781 | 신문_017 | 0.901615 | 구어_017 | 0.929584 |
문어_018 | 0.612555 | 신문_018 | 0.889026 | 구어_018 | 0.67731 |
문어_019 | 0.773476 | 신문_019 | 0.88455 | 구어_019 | 0.662725 |
문어_020 | 0.437936 | 신문_020 | 0.831754 | 구어_020 | 0.735153 |
문어_021 | 0.562168 | 신문_021 | 0.545326 | ||
문어_022 | 0.888059 | 신문_022 | 0.802634 | ||
문어_023 | 0.889023 | 신문_023 | 0.848112 | ||
문어_024 | 0.851653 | 신문_024 | 0.846526 | ||
문어_025 | 0.916882 | 신문_025 | 0.869907 | ||
문어_026 | 0.823881 | 신문_026 | 0.800255 | ||
문어_027 | 0.861544 | 신문_027 | 0.858631 | ||
문어_028 | 0.825923 | 신문_028 | 0.79416 | ||
문어_029 | 0.884822 | 신문_029 | 0.864348 | ||
문어_030 | 0.828153 | 신문_030 | 0.776723 | ||
문어_031 | 0.680425 | 신문_031 | 0.668047 | ||
문어_032 | 0.764892 | 신문_032 | 0.864861 | ||
문어_033 | 0.819807 | 신문_033 | 0.914011 | ||
문어_034 | 0.888958 | 신문_034 | 0.863524 | ||
문어_035 | 0.807808 | 신문_035 | 0.90147 | ||
평균 | 0.762 5 | 평균 | 0.8 1232 | 평균 | 0. 7 195 |
Hill et al.(2016)의 IAA(Inter-group annotator agreement)는 응답이 50개로 조금 더 풍성한 응답 데이터에서 각 응답별 쌍대 비교를 수행하고 다른 모든 응답자와의 비교 에서 상관관계가 낮은 응답자를 제거하는 방식으로 품질 일관성을 확보하였다. 본 사업에 서는 문항 수가 제한되어 모든 응답자가 같은 응답을 제시하는 경우가 존재할 수 있기 때 문에 (이 경우 분산이 0이 됨.) Hill et al.(2016)의 방법을 그대로 차용할 수는 없다. 또한 자연 언어에 대한 설문에 있어서 응답자의 응답 간 변동성이 높다는 특성이 발견되는데, 응답자의 절반 정도가 함의로, 나머지 절반 정도는 모순으로 응답하는 등 대상 설문에 대 한 일치도가 낮은 경우는 선행 연구에서도 광범위하게 발견된다(de Marneffe et al. 2019, Tonhauser et al. 2018).
또한 본 연구의 대상이 되는 대상 문장에 대한 투사의 정도의 정도는 담화별로, 그리고 이를 해석하는 응답자별로 2가지 차원에서 자연적인 변화성(gradience)이 존재한다 (Tonhauser et al. 2018). 따라서 일반적인 신뢰도 평가와 같이 일치도가 낮은 세트 및 문항들을 삭제하지 않고 모두 분석 대상으로 포함하였다.
다만 특징적인 점은 상대적으로 일치도가 낮은 세트는 문어에서 발견되었다는 것인데, 이와 같은 설문 응답자 간의 변동성은 후술하는 결과 분석에서 다루기로 한다.
제 4 장
결과 분석
1. 조사 결과 통계 분석
문어 700개, 신문 700개, 구어 400개 등 총 1,800개 문항에 대한 응답으로 총 736명의 유효 응답자가 제공한 자료를 대상으로 최종 분석을 수행하였다. 각 문항에 대한 응답별 응답 개수 및 응답 평균, 표준 편차는 다음 <표 19>와 같이 종합하여 살펴볼 수 있다.
<표 19> 종합 말뭉치의 자료 구조 예시
담화 아이디 | 응답별 응답 개수 | 응답 개수 | 평균 | 표준 편차 | ||||||
-3 | -2 | -1 | 0 | +1 | +2 | +3 | ||||
WBRW19000046 29.1.1047 | 0 | 0 | 0 | 1 | 1 | 3 | 3 | 8 | 2.000 | 1.069 |
WBRW19000138 52.1.585 | 0 | 0 | 0 | 0 | 0 | 3 | 5 | 8 | 2.625 | 0.518 |
WBRW19000049 78.1.21 | 1 | 1 | 1 | 1 | 1 | 0 | 3 | 8 | 0.500 | 2.390 |
WBRW19000044 09.1.39 | 0 | 0 | 0 | 0 | 0 | 2 | 6 | 8 | 2.750 | 0.463 |
WBRW19000140 70.1.1446 | 0 | 0 | 0 | 0 | 0 | 1 | 7 | 8 | 2.875 | 0.354 |
WBRW19000120 50.1.213 | 0 | 0 | 0 | 0 | 1 | 1 | 6 | 8 | 2.625 | 0.744 |
1.1. 말뭉치 유형별 분석
응답 평균에 대한 말뭉치 유형별 기초 통계량은 다음과 같다. 모두 평균보다 중위수가 큰 함의(참 확신)에 더 치우친 결과를 보여주고 있으며, 중위수와 평균 모두 문어가 가장 크다는 특징을 보여주고 있다.
<표 20> 말뭉치 유형별 기초 통계량
말뭉치 유형 | 문항 수 | 평균 | 표준 편차 | 최솟값 | 중위수 | 최댓값 |
문어 | 700 | 0.858 | 1.774 | -3.000 | 1.500 | 3.000 |
신문 | 700 | 0.550 | 1.979 | -3.000 | 1.063 | 3.000 |
구어 | 400 | 0.576 | 1.810 | -3.000 | 0.875 | 3.000 |
말뭉치 유형별 응답 평균 도수 분포도(histogram) 및 상자 수염도(boxplot)는 다음과 같다. 도수 분포도에서 확인할 수 있듯이 평균에 대한 분포는 일반적인 정규 분포는 아니 며, 함의(참 확신) 또는 모순(거짓 확신)에 대한 응답이 많다는 특징을 보이고 있다. 각각 700개의 담화-내포 명제 설문으로 구성된 문어와 신문의 분포 형태는 다소 상이한데, 신
문이 모순(거짓 확신)과 함의(참 확신)에 더 몰려있다면, 문어는 중간 점수에 조금 더 많은 다소 평평한 분포를 보여주고 있다.
<그림 2> 말뭉치 유형별 응답 평균 도수 분포도
<그림 3> 말뭉치 유형별 상자 수염도
1.2. 언어 정보별 분석
1.2.1. 술어
본 사업의 가장 기본이 되는 언어 정보인 총 27개 술어별 응답 평균에 대한 기초 통계 량은 다음과 같다. 사실성 술어의 평균이 대체로 비사실성/반사실성 술어의 평균값보다 높다. 사실성 술어의 평균이 최소 1.58(밝히다)에서 최대 2.57(잊다)까지 주로 함의(참 확 신) 쪽으로 분포되어 있는 반면, 비사실성 술어는 최소 –0.64(주장하다)에서 최대 1.34(알 다)까지로 중립에 가깝게 분포되어 있다. 반사실성 술어는 최소 –2.19(착각하다)에서 1.64(예상하다)까지로 모순(거짓 확신)과 함의(참 확신)에 걸쳐 고르게 분포되어 있다.
<표 21> 술어별 기초 통계량
술어 유형 | 술어 | 문항 수 | 평균 | 표준 편차 | 최솟값 | 중위수 | 최댓값 |
사실성 | 기억하다 | 61 | 2.37204 | 0.828531 | -2.75 | 2.625 | 3 |
사실성 | 깨닫다 | 89 | 2.261985 | 0.491877 | 0.125 | 2.375 | 3 |
사실성 | 발견하다 | 36 | 1.650077 | 1.356503 | -2.22222 | 2.25 | 3 |
사실성 | 밝히다 | 45 | 1.581296 | 1.381526 | -2.75 | 2 | 3 |
사실성 | 이해하다 | 55 | 2.099545 | 0.708456 | -0.75 | 2.3 | 3 |
사실성 | 잊다 | 35 | 2.577381 | 0.283365 | 2 | 2.625 | 3 |
사실성 | 지적하다 | 64 | 1.948785 | 0.791889 | -0.625 | 2.125 | 3 |
사실성 | 확인하다 | 79 | 2.546484 | 0.574902 | -0.5 | 2.75 | 3 |
사실성 | 후회하다 | 46 | 2.461957 | 0.942393 | -1.875 | 2.75 | 3 |
비사실성 | 받아들이다 | 61 | 0.509153 | 1.804167 | -2.875 | 1.125 | 2.875 |
비사실성 | 보다 | 86 | 0.712274 | 1.850711 | -2.875 | 1.333333 | 2.875 |
비사실성 | 보이다 | 64 | -0.53407 | 1.638988 | -2.875 | -0.625 | 2.888889 |
비사실성 | 생각하다 | 85 | 0.021863 | 1.7875 | -3 | 0.125 | 2.888889 |
비사실성 | 알다 | 95 | 1.342924 | 1.877346 | -3 | 2.25 | 3 |
비사실성 | 여기다 | 94 | -0.48138 | 1.796817 | -2.875 | -0.625 | 2.875 |
비사실성 | 인정하다 | 45 | 1.271111 | 1.519373 | -2.375 | 1.8 | 3 |
비사실성 | 주장하다 | 62 | -0.64068 | 1.736069 | -3 | -0.9375 | 2.75 |
비사실성 | 확신하다 | 68 | 0.590482 | 1.510844 | -2.375 | 0.763889 | 3 |
반사실성 | 기대하다 | 89 | -0.60627 | 1.723431 | -2.875 | -0.75 | 3 |
반사실성 | 당부하다 | 8 | 0.871875 | 0.973803 | -0.625 | 0.8125 | 2.5 |
반사실성 | 믿다 | 113 | -0.20202 | 1.804694 | -3 | -0.375 | 3 |
반사실성 | 바라다 | 127 | -0.38567 | 1.254808 | -2.875 | -0.375 | 2.5 |
반사실성 | 예상하다 | 80 | 1.640312 | 1.17996 | -2.375 | 2 | 3 |
반사실성 | 요구하다 | 25 | 0.046667 | 1.521609 | -2.75 | -0.125 | 2.75 |
반사실성 | 원하다 | 79 | 0.234001 | 1.382118 | -2.875 | 0.625 | 2.5 |
반사실성 | 착각하다 | 66 | -2.19112 | 0.747982 | -3 | -2.375 | 0.375 |
반사실성 | 희망하다 | 43 | 0.189535 | 1.331925 | -2.25 | 0.125 | 2.875 |
<그림 4> 술어별 상자 수염도
별도로 술어 유형별 응답 평균에 대한 기초 통계량은 다음과 같다.
<표 22> 술어 유형별 기초 통계량
술어 유형 | 문항 수 | 평균 | 표준 편차 | 최솟값 | 중위수 | 최댓값 |
사실성 | 510 | 2.198824 | 0.884737 | -2.75 | 2.5 | 3 |
비사실성 | 660 | 0.302955 | 1.878769 | -3 | 0.5 | 3 |
반사실성 | 630 | -0.16568 | 1.710188 | -3 | -0.125 | 3 |
1.2.2. 보문소
9개의 보문소5)에 대한 응답 평균 기초 통계량은 다음과 같다.
<표 23> 보문소별 기초 통계량
보문소 | 문항 수 | 평균 | 표준 편차 | 최솟값 | 중위수 | 최댓값 |
-음/ㅁ | 228 | 2.208382 | 0.705911 | -2.125 | 2.375 | 3 |
-기 | 212 | -0.11082 | 1.356704 | -2.875 | -0.0625 | 3 |
것을 | 309 | 1.460176 | 1.622194 | -2.75 | 2.25 | 3 |
것을(장) | 195 | 2.072521 | 0.967001 | -3 | 2.375 | 3 |
것으로 | 232 | -0.31541 | 1.739944 | -3 | -0.375 | 3 |
것으로(장) | 3 | 0.699074 | 2.771532 | -2.5 | 2.222222 | 2.375 |
-다고 | 292 | -0.24202 | 1.778656 | -3 | -0.25 | 3 |
-라고 | 264 | 0.018224 | 1.922043 | -3 | 0.125 | 3 |
줄 | 65 | 0.28547 | 2.33699 | -3 | 1 | 3 |
<그림 5> 보문소별 상자 수염도
5) 앞에서 보문소의 개수를 6개로 잡았는데, 언어 정보 부착 과정에서는 보다 많은 정보 제공을 위해 이를 9가지로 나누어 분석하였 다. 가령 형태론적 이형태인 ‘-다고/라고’에 대해서는 ‘-다고’와 ‘-라고’로 값을 달리 부착하였다. 또한 보문소 ‘것을, 것으로’의 경 우, 단형(비완형) 보절과 장형(완형) 보절을 구분하기 위해 각각 ‘것을, 것을(장), 것으로, 것으로(장)’ 값을 부착하였다.
1.2.3. 보문소와 술어의 결합
본 사업에서는 보문소와 술어의 결합이 확신성에 주요한 영향을 미칠 수 있을 것으로 보았다. 보문소와 술어 결합 유형은 9(보문소) × 27(술어), 총 243개의 조합이 가능하나, 실제 국립국어원 말뭉치에서는 135개의 보문소와 술어 결합 유형이 추출되었다. 결합 유 형별 문항 수를 표현한 표는 다음과 같다.
<표 24> 보문소 + 술어별 문항 수
술어 유형 | 술어 | -음/ㅁ | -기 | 것을 | 것을(장) | 것으로 | 것으로(장) | -다고 | -라고 | 줄 |
사실성 | 기억하다 | 18 | 0 | 20 | 15 | 1 | 0 | 3 | 4 | 0 |
사실성 | 깨닫다 | 29 | 0 | 9 | 48 | 0 | 0 | 1 | 0 | 2 |
사실성 | 발견하다 | 12 | 0 | 21 | 3 | 0 | 0 | 0 | 0 | 0 |
사실성 | 밝히다 | 15 | 0 | 0 | 12 | 0 | 0 | 12 | 6 | 0 |
사실성 | 이해하다 | 12 | 0 | 8 | 7 | 10 | 2 | 12 | 4 | 0 |
사실성 | 잊다 | 11 | 5 | 11 | 8 | 0 | 0 | 0 | 0 | 0 |
사실성 | 지적하다 | 30 | 0 | 2 | 10 | 1 | 0 | 15 | 6 | 0 |
사실성 | 확인하다 | 19 | 0 | 48 | 8 | 2 | 0 | 1 | 1 | 0 |
사실성 | 후회하다 | 0 | 0 | 41 | 1 | 0 | 0 | 4 | 0 | 0 |
비사실성 | 받아들이다 | 6 | 0 | 4 | 12 | 13 | 0 | 6 | 20 | 0 |
비사실성 | 보다 | 5 | 0 | 12 | 0 | 32 | 0 | 18 | 19 | 0 |
비사실성 | 보이다 | 0 | 0 | 0 | 0 | 51 | 0 | 9 | 4 | 0 |
비사실성 | 생각하다 | 1 | 0 | 4 | 2 | 12 | 0 | 40 | 24 | 2 |
비사실성 | 알다 | 24 | 0 | 9 | 27 | 5 | 0 | 2 | 2 | 26 |
비사실성 | 여기다 | 0 | 0 | 1 | 0 | 12 | 0 | 48 | 32 | 1 |
비사실성 | 인정하다 | 11 | 0 | 3 | 10 | 3 | 0 | 8 | 10 | 0 |
비사실성 | 주장하다 | 5 | 0 | 0 | 1 | 0 | 0 | 41 | 15 | 0 |
비사실성 | 확신하다 | 9 | 0 | 1 | 9 | 4 | 0 | 25 | 20 | 0 |
반사실성 | 기대하다 | 0 | 22 | 12 | 0 | 23 | 0 | 3 | 27 | 2 |
반사실성 | 당부하다 | 1 | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 0 |
반사실성 | 믿다 | 8 | 0 | 7 | 20 | 16 | 0 | 30 | 31 | 1 |
반사실성 | 바라다 | 0 | 94 | 32 | 0 | 1 | 0 | 0 | 0 | 0 |
반사실성 | 예상하다 | 11 | 0 | 10 | 1 | 18 | 0 | 3 | 16 | 21 |
반사실성 | 요구하다 | 1 | 4 | 17 | 0 | 0 | 0 | 3 | 0 | 0 |
반사실성 | 원하다 | 0 | 49 | 28 | 1 | 0 | 0 | 0 | 1 | 0 |
반사실성 | 착각하다 | 0 | 0 | 0 | 0 | 28 | 1 | 8 | 19 | 10 |
반사실성 | 희망하다 | 0 | 36 | 4 | 0 | 0 | 0 | 0 | 3 | 0 |
9개의 보문소와 27개의 술어의 조합에 대한 응답 평균 기초 통계량은 다음과 같다.
<표 25> 보문소 + 술어별 기초 통계량
술어 유형 | 술어 | 보문소 | 문항 수 | 평균 | 표준 편차 | 최솟값 | 중위수 | 최댓값 |
사실성 | 기억하다 | ㅁ/음 | 18 | 2.358 | 0.645 | 0.5 | 2.625 | 3 |
사실성 | 기억하다 | 것을 | 20 | 2.564 | 0.37 | 1.625 | 2.75 | 3 |
사실성 | 기억하다 | 것을(장) | 15 | 2.423 | 0.489 | 1.444 | 2.625 | 3 |
사실성 | 기억하다 | 것으로 | 1 | 2.25 | 0 | 2.25 | 2.25 | 2.25 |
사실성 | 기억하다 | 다고 | 3 | 0.583 | 2.93 | -2.75 | 1.75 | 2.75 |
사실성 | 기억하다 | 라고 | 4 | 2.656 | 0.312 | 2.25 | 2.688 | 3 |
사실성 | 깨닫다 | ㅁ/음 | 29 | 2.182 | 0.391 | 1.25 | 2.25 | 2.889 |
사실성 | 깨닫다 | 것을 | 9 | 2.236 | 0.478 | 1.625 | 2.25 | 3 |
사실성 | 깨닫다 | 것을(장) | 48 | 2.293 | 0.554 | 0.125 | 2.438 | 2.889 |
사실성 | 깨닫다 | 다고 | 1 | 2.625 | 0 | 2.625 | 2.625 | 2.625 |
사실성 | 깨닫다 | 줄 | 2 | 2.625 | 0.354 | 2.375 | 2.625 | 2.875 |
사실성 | 발견하다 | ㅁ/음 | 12 | 2.198 | 1.061 | -1 | 2.562 | 2.875 |
사실성 | 발견하다 | 것을 | 21 | 1.245 | 1.457 | -2.222 | 1.5 | 3 |
사실성 | 발견하다 | 것을(장) | 3 | 2.292 | 0.804 | 1.375 | 2.625 | 2.875 |
사실성 | 밝히다 | ㅁ/음 | 15 | 2.117 | 1.407 | -2.125 | 2.75 | 3 |
사실성 | 밝히다 | 것을(장) | 12 | 1.979 | 0.656 | 0.875 | 2.181 | 2.875 |
사실성 | 밝히다 | 다고 | 12 | 0.757 | 1.592 | -2.75 | 1.104 | 2.875 |
사실성 | 밝히다 | 라고 | 6 | 1.096 | 1.258 | -0.5 | 1.188 | 2.8 |
사실성 | 이해하다 | ㅁ/음 | 12 | 2.333 | 0.4 | 1.375 | 2.438 | 2.75 |
사실성 | 이해하다 | 것을 | 8 | 1.864 | 0.558 | 1.1 | 1.938 | 2.625 |
사실성 | 이해하다 | 것을(장) | 7 | 2.36 | 0.592 | 1.125 | 2.625 | 2.875 |
사실성 | 이해하다 | 것으로 | 10 | 1.701 | 1.066 | -0.75 | 1.882 | 2.875 |
사실성 | 이해하다 | 것으로(장) | 2 | 2.299 | 0.108 | 2.222 | 2.299 | 2.375 |
사실성 | 이해하다 | 다고 | 12 | 2.177 | 0.726 | 0.875 | 2.438 | 3 |
사실성 | 이해하다 | 라고 | 4 | 2.076 | 0.754 | 1.375 | 1.965 | 3 |
사실성 | 잊다 | ㅁ/음 | 11 | 2.477 | 0.295 | 2 | 2.5 | 3 |
사실성 | 잊다 | 기 | 5 | 2.7 | 0.259 | 2.375 | 2.75 | 3 |
사실성 | 잊다 | 것을 | 11 | 2.644 | 0.239 | 2.25 | 2.75 | 2.875 |
사실성 | 잊다 | 것을(장) | 8 | 2.547 | 0.334 | 2 | 2.75 | 2.875 |
사실성 | 지적하다 | ㅁ/음 | 30 | 2.163 | 0.551 | 0.75 | 2.375 | 2.875 |
사실성 | 지적하다 | 것을 | 2 | 1.625 | 0.53 | 1.25 | 1.625 | 2 |
사실성 | 지적하다 | 것을(장) | 10 | 2.297 | 0.335 | 2 | 2.236 | 3 |
사실성 | 지적하다 | 것으로 | 1 | 2 | 0 | 2 | 2 | 2 |
사실성 | 지적하다 | 다고 | 15 | 1.333 | 0.953 | -0.625 | 1 | 2.5 |
사실성 | 지적하다 | 라고 | 6 | 1.938 | 1.281 | -0.625 | 2.438 | 2.75 |
사실성 | 확인하다 | ㅁ/음 | 19 | 2.638 | 0.292 | 1.875 | 2.7 | 3 |
사실성 | 확인하다 | 것을 | 48 | 2.576 | 0.585 | -0.5 | 2.75 | 3 |
사실성 | 확인하다 | 것을(장) | 8 | 2.423 | 0.631 | 1 | 2.725 | 2.778 |
사실성 | 확인하다 | 것으로 | 2 | 2.875 | 0.177 | 2.75 | 2.875 | 3 |
사실성 | 확인하다 | 다고 | 1 | 1.75 | 0 | 1.75 | 1.75 | 1.75 |
사실성 | 확인하다 | 라고 | 1 | 0.5 | 0 | 0.5 | 0.5 | 0.5 |
사실성 | 후회하다 | 것을 | 41 | 2.628 | 0.63 | -0.375 | 2.75 | 3 |
사실성 | 후회하다 | 것을(장) | 1 | 3 | 0 | 3 | 3 | 3 |
사실성 | 후회하다 | 다고 | 4 | 0.625 | 1.747 | -1.875 | 1.188 | 2 |
비사실성 | 받아들이다 | ㅁ/음 | 6 | 1.833 | 0.801 | 0.5 | 1.875 | 2.875 |
비사실성 | 받아들이다 | 것을 | 4 | 0.094 | 1.94 | -2 | 0.062 | 2.25 |
비사실성 | 받아들이다 | 것을(장) | 12 | 1.881 | 0.802 | 0.5 | 2.25 | 2.75 |
비사실성 | 받아들이다 | 것으로 | 13 | 0.056 | 1.785 | -2.875 | 0.375 | 2.625 |
비사실성 | 받아들이다 | 다고 | 6 | -1 | 1.815 | -2.5 | -1.812 | 2.25 |
비사실성 | 받아들이다 | 라고 | 20 | 0.119 | 1.862 | -2.875 | 0.625 | 2.5 |
비사실성 | 보다 | ㅁ/음 | 5 | 2.375 | 0.364 | 2 | 2.25 | 2.875 |
비사실성 | 보다 | 것을 | 12 | 2.314 | 0.753 | 0.333 | 2.583 | 2.875 |
비사실성 | 보다 | 것으로 | 32 | 0.363 | 1.454 | -2.375 | 0.25 | 2.75 |
비사실성 | 보다 | 다고 | 18 | -0.617 | 1.95 | -2.75 | -1.562 | 2.5 |
비사실성 | 보다 | 라고 | 19 | 1.111 | 1.985 | -2.875 | 2 | 2.875 |
비사실성 | 보이다 | 것으로 | 51 | -0.643 | 1.561 | -2.875 | -0.75 | 2.2 |
비사실성 | 보이다 | 다고 | 9 | -0.145 | 1.698 | -2.625 | -0.6 | 2.25 |
비사실성 | 보이다 | 라고 | 4 | -0.024 | 2.671 | -2.333 | -0.325 | 2.889 |
비사실성 | 생각하다 | ㅁ/음 | 1 | 2.25 | 0 | 2.25 | 2.25 | 2.25 |
비사실성 | 생각하다 | 것을 | 4 | 1.253 | 2.188 | -1.875 | 2 | 2.889 |
비사실성 | 생각하다 | 것을(장) | 2 | 1.625 | 1.768 | 0.375 | 1.625 | 2.875 |
비사실성 | 생각하다 | 것으로 | 12 | 0.627 | 1.575 | -2 | 0.639 | 2.75 |
비사실성 | 생각하다 | 다고 | 40 | -0.359 | 1.809 | -2.75 | -0.375 | 2.75 |
비사실성 | 생각하다 | 라고 | 24 | -0.259 | 1.587 | -3 | -0.056 | 2.25 |
비사실성 | 생각하다 | 줄 | 2 | 2.188 | 0.619 | 1.75 | 2.188 | 2.625 |
비사실성 | 알다 | ㅁ/음 | 24 | 2.198 | 0.705 | 0.375 | 2.312 | 3 |
비사실성 | 알다 | 것을 | 9 | 2.023 | 1.02 | 0.25 | 2.375 | 2.875 |
비사실성 | 알다 | 것을(장) | 27 | 2.343 | 0.558 | 0.625 | 2.5 | 3 |
비사실성 | 알다 | 것으로 | 5 | 0.353 | 1.663 | -1.875 | 0 | 2.625 |
비사실성 | 알다 | 다고 | 2 | 1.25 | 1.061 | 0.5 | 1.25 | 2 |
비사실성 | 알다 | 라고 | 2 | 2.438 | 0.442 | 2.125 | 2.438 | 2.75 |
비사실성 | 알다 | 줄 | 26 | -0.608 | 2.333 | -3 | -1.375 | 3 |
비사실성 | 여기다 | 것을 | 1 | 1.625 | 0 | 1.625 | 1.625 | 1.625 |
비사실성 | 여기다 | 것으로 | 12 | -0.542 | 1.698 | -2.75 | -0.75 | 2 |
비사실성 | 여기다 | 다고 | 48 | -0.58 | 1.657 | -2.875 | -0.688 | 2.5 |
비사실성 | 여기다 | 라고 | 32 | -0.384 | 2.081 | -2.875 | -0.75 | 2.875 |
비사실성 | 여기다 | 줄 | 1 | -0.25 | 0 | -0.25 | -0.25 | -0.25 |
비사실성 | 인정하다 | ㅁ/음 | 11 | 1.977 | 0.973 | 0.25 | 2.25 | 3 |
비사실성 | 인정하다 | 것을 | 3 | 1.75 | 1.192 | 0.5 | 1.875 | 2.875 |
비사실성 | 인정하다 | 것을(장) | 10 | 2.095 | 0.505 | 1.375 | 2.062 | 2.75 |
비사실성 | 인정하다 | 것으로 | 3 | -2.042 | 0.473 | -2.375 | -2.25 | -1.5 |
비사실성 | 인정하다 | 다고 | 8 | 0.188 | 1.662 | -2.25 | 0.062 | 3 |
비사실성 | 인정하다 | 라고 | 10 | 1.387 | 1.143 | -1 | 1.562 | 2.625 |
비사실성 | 주장하다 | ㅁ/음 | 5 | 1.55 | 0.908 | 0 | 1.875 | 2.375 |
비사실성 | 주장하다 | 것을(장) | 1 | -0.625 | 0 | -0.625 | -0.625 | -0.625 |
비사실성 | 주장하다 | 다고 | 41 | -0.865 | 1.722 | -3 | -1.125 | 2.75 |
비사실성 | 주장하다 | 라고 | 15 | -0.758 | 1.595 | -2.875 | -1 | 2.625 |
비사실성 | 확신하다 | ㅁ/음 | 9 | 2.1 | 0.639 | 0.778 | 2.25 | 2.875 |
비사실성 | 확신하다 | 것을 | 1 | 1.3 | 0 | 1.3 | 1.3 | 1.3 |
비사실성 | 확신하다 | 것을(장) | 9 | 1.579 | 1.562 | -1.667 | 2.125 | 3 |
비사실성 | 확신하다 | 것으로 | 4 | 0.219 | 1.165 | -1 | 0.062 | 1.75 |
비사실성 | 확신하다 | 다고 | 25 | 0.022 | 1.252 | -2.375 | 0.125 | 2 |
비사실성 | 확신하다 | 라고 | 20 | 0.216 | 1.576 | -2 | 0.375 | 2.625 |
반사실성 | 기대하다 | 기 | 22 | -0.331 | 1.301 | -2.875 | -0.188 | 1.375 |
반사실성 | 기대하다 | 것을 | 12 | -1.297 | 1.612 | -2.75 | -2.125 | 2.25 |
반사실성 | 기대하다 | 것으로 | 23 | -0.752 | 1.82 | -2.75 | -0.875 | 2.75 |
반사실성 | 기대하다 | 다고 | 3 | -2.083 | 1.048 | -2.75 | -2.625 | -0.875 |
반사실성 | 기대하다 | 라고 | 27 | -0.289 | 1.911 | -2.75 | -0.5 | 3 |
반사실성 | 기대하다 | 줄 | 2 | 0.125 | 3.005 | -2 | 0.125 | 2.25 |
반사실성 | 당부하다 | ㅁ/음 | 1 | 2.5 | 0 | 2.5 | 2.5 | 2.5 |
반사실성 | 당부하다 | 기 | 2 | -0.013 | 0.866 | -0.625 | -0.013 | 0.6 |
반사실성 | 당부하다 | 것을 | 5 | 0.9 | 0.646 | 0 | 1 | 1.75 |
반사실성 | 믿다 | ㅁ/음 | 8 | 1.781 | 0.709 | 0.75 | 1.812 | 2.75 |
반사실성 | 믿다 | 것을 | 7 | 0.518 | 2.26 | -2.375 | 1.375 | 3 |
반사실성 | 믿다 | 것을(장) | 20 | 0.975 | 1.813 | -3 | 1.764 | 2.625 |
반사실성 | 믿다 | 것으로 | 16 | -0.977 | 1.508 | -2.625 | -1.25 | 2.5 |
반사실성 | 믿다 | 다고 | 30 | -0.759 | 1.505 | -2.875 | -1 | 2.5 |
반사실성 | 믿다 | 라고 | 31 | -0.697 | 1.624 | -3 | -0.8 | 2.25 |
반사실성 | 믿다 | 줄 | 1 | -0.222 | 0 | -0.222 | -0.222 | -0.222 |
반사실성 | 바라다 | 기 | 94 | -0.409 | 1.226 | -2.875 | -0.375 | 2.5 |
반사실성 | 바라다 | 것을 | 32 | -0.254 | 1.319 | -2.556 | -0.347 | 2.4 |
반사실성 | 바라다 | 것으로 | 1 | -2.375 | 0 | -2.375 | -2.375 | -2.375 |
반사실성 | 예상하다 | ㅁ/음 | 11 | 2.148 | 0.559 | 1 | 2.375 | 2.875 |
반사실성 | 예상하다 | 것을 | 10 | 2.314 | 0.51 | 1.125 | 2.438 | 3 |
반사실성 | 예상하다 | 것을(장) | 1 | 0.875 | 0 | 0.875 | 0.875 | 0.875 |
반사실성 | 예상하다 | 것으로 | 18 | 0.831 | 1.08 | -1.375 | 0.8 | 2.375 |
반사실성 | 예상하다 | 다고 | 3 | 0.583 | 1.161 | -0.375 | 0.25 | 1.875 |
반사실성 | 예상하다 | 라고 | 16 | 1.141 | 1.616 | -2.375 | 1.688 | 3 |
반사실성 | 예상하다 | 줄 | 21 | 2.315 | 0.554 | 0.875 | 2.5 | 3 |
반사실성 | 요구하다 | ㅁ/음 | 1 | 2.75 | 0 | 2.75 | 2.75 | 2.75 |
반사실성 | 요구하다 | 기 | 4 | -0.594 | 0.624 | -1.25 | -0.562 | 0 |
반사실성 | 요구하다 | 것을 | 17 | -0.152 | 1.55 | -2.75 | -0.125 | 2.5 |
반사실성 | 요구하다 | 다고 | 3 | 1.125 | 1.192 | -0.25 | 1.75 | 1.875 |
반사실성 | 원하다 | 기 | 49 | 0.115 | 1.393 | -2.875 | 0.25 | 2.5 |
반사실성 | 원하다 | 것을 | 28 | 0.391 | 1.408 | -2.75 | 0.708 | 2.25 |
반사실성 | 원하다 | 것을(장) | 1 | 0.875 | 0 | 0.875 | 0.875 | 0.875 |
반사실성 | 원하다 | 라고 | 1 | 1 | 0 | 1 | 1 | 1 |
반사실성 | 착각하다 | 것으로 | 28 | -2.034 | 0.895 | -3 | -2.312 | 0.375 |
반사실성 | 착각하다 | 것으로(장) | 1 | -2.5 | 0 | -2.5 | -2.5 | -2.5 |
반사실성 | 착각하다 | 다고 | 8 | -2.388 | 0.518 | -2.75 | -2.612 | -1.25 |
반사실성 | 착각하다 | 라고 | 19 | -2.231 | 0.749 | -3 | -2.375 | -0.556 |
반사실성 | 착각하다 | 줄 | 10 | -2.368 | 0.384 | -2.75 | -2.562 | -1.8 |
반사실성 | 희망하다 | 기 | 36 | 0.153 | 1.339 | -2.25 | 0.125 | 2.875 |
반사실성 | 희망하다 | 것을 | 4 | -0.125 | 1.544 | -2.25 | 0.188 | 1.375 |
반사실성 | 희망하다 | 라고 | 3 | 1.042 | 1.003 | 0 | 1.125 | 2 |
1.2.4. 함의 취소 운용소
내포문의 모절에는 부정, 의문, 조건, 양태 중 한 가지 이상의 표지가 있어야 한다. 여 러 표지가 함께 존재할 수도 있는데, 이럴 경우는 부정, 의문, 조건, 양태의 순으로 우선 순위를 두어 대표되는 함의 취소 운용소를 표기하였다. 아래 <표 26>은 함의 취소 운용소 에 따른 응답 평균 기초 통계량이다.
<표 26> 함의 취소 운용소별 기초 통계량
함의 취소 운용소 | 문항 수 | 평균 | 표준 편차 | 최솟값 | 중위수 | 최댓값 |
부정 | 434 | 0.524 | 2.036 | -3 | 1 | 3 |
의문 | 325 | -0.025 | 1.648 | -3 | -0.111 | 3 |
조건 | 331 | 0.224 | 1.874 | -3 | 0.375 | 3 |
양태 | 872 | 1.209 | 1.665 | -3 | 1.875 | 3 |
한편 말뭉치 유형별 함의 취소 운용소에 대한 응답 평균 기초 통계량은 다음과 같다.
<표 27> 말뭉치 유형별 함의 취소 운용소에 대한 기초 통계량
유형 | 함의 취소 운용소 | 문항 수 | 평균 | 표준 편차 | 최솟값 | 중위수 | 최댓값 |
문어 | 부정 | 186 | 0.726478 | 1.930122 | -2.875 | 1.4375 | 3 |
문어 | 의문 | 92 | 0.153533 | 1.621997 | -2.875 | 0.125 | 2.875 |
문어 | 조건 | 136 | 0.483456 | 1.777939 | -3 | 0.8125 | 3 |
문어 | 양태 | 340 | 1.351471 | 1.558235 | -2.875 | 2 | 3 |
신문 | 부정 | 173 | 0.437139 | 2.204054 | -3 | 1 | 3 |
신문 | 의문 | 89 | 0.154494 | 1.782871 | -3 | -0.25 | 3 |
신문 | 조건 | 153 | -0.21569 | 1.85794 | -3 | -0.125 | 3 |
신문 | 양태 | 335 | 1.059701 | 1.814771 | -3 | 1.875 | 3 |
구어 | 부정 | 75 | 0.221074 | 1.852851 | -2.75 | 0.625 | 3 |
구어 | 의문 | 144 | -0.24956 | 1.558636 | -3 | -0.11111 | 2.875 |
구어 | 조건 | 42 | 0.985185 | 1.872834 | -2.875 | 1.354167 | 3 |
구어 | 양태 | 197 | 1.218979 | 1.562319 | -3 | 1.5 | 3 |
술어와 함의 취소 운용소별 응답 평균의 평균과 표준 편차는 <표 28>과 같다. 술어별 함의 취소 운용소의 역할 및 결합 양상 등은 향후 다양한 통계적 분석을 통해 세밀히 연 구하고 분석할 수 있을 것이다.
<표 28> 술어와 함의 취소 운용소별 기초 통계량
술어 | 문항 수 | 평균 | 표준 편차 | |||||||||
부정 | 의문 | 조건 | 양태 | 부정 | 의문 | 조건 | 양태 | 부정 | 의문 | 조건 | 양태 | |
기대하다 | 23 | 12 | 18 | 39 | -1.58 | -0.76 | -1.53 | 0.32 | 23 | 12 | 18 | 39 |
기억하다 | 1 | 12 | 17 | 32 | -2.75 | 2.32 | 2.52 | 2.46 | 1 | 12 | 17 | 32 |
깨닫다 | 26 | 5 | 21 | 43 | 2.38 | 2.14 | 1.9 | 2.4 | 26 | 5 | 21 | 43 |
당부하다 | 2 | 2 | 0 | 6 | 0.56 | 0.56 | 0.98 | 2 | 2 | 0 | 6 | |
믿다 | 32 | 26 | 28 | 32 | -0.51 | -0.85 | -0.14 | 0.79 | 32 | 26 | 28 | 32 |
바라다 | 40 | 24 | 27 | 52 | -0.45 | -0.55 | -0.67 | 0.11 | 40 | 24 | 27 | 52 |
받아들이 다 | 12 | 10 | 11 | 37 | -0.62 | -0.04 | 0.47 | 1 | 12 | 10 | 11 | 37 |
발견하다 | 9 | 4 | 11 | 16 | 1.57 | 1.09 | 0.92 | 2.28 | 9 | 4 | 11 | 16 |
밝히다 | 18 | 5 | 17 | 11 | 1.33 | 0.45 | 1.61 | 1.85 | 18 | 5 | 17 | 11 |
보다 | 11 | 27 | 11 | 40 | -1.34 | -0.31 | 1.79 | 1.49 | 11 | 27 | 11 | 40 |
보이다 | 15 | 26 | 15 | 11 | -1.4 | -0.51 | 0.11 | 0.31 | 15 | 26 | 15 | 11 |
생각하다 | 27 | 27 | 8 | 30 | -0.19 | -0.46 | 0.38 | 0.56 | 27 | 27 | 8 | 30 |
알다 | 9 | 27 | 16 | 46 | 1.72 | -0.23 | 2.13 | 1.89 | 9 | 27 | 16 | 46 |
여기다 | 17 | 13 | 32 | 38 | -0.87 | -0.76 | -1.45 | 0.44 | 17 | 13 | 32 | 38 |
예상하다 | 29 | 17 | 12 | 31 | 2.1 | 1.19 | 0.85 | 1.93 | 29 | 17 | 12 | 31 |
요구하다 | 9 | 3 | 5 | 11 | -0.88 | 0.54 | -0.62 | 1.11 | 9 | 3 | 5 | 11 |
원하다 | 36 | 15 | 10 | 29 | 0.23 | -0.16 | -0.09 | 0.51 | 36 | 15 | 10 | 29 |
이해하다 | 1 | 5 | 6 | 48 | -0.75 | 1.03 | 2.02 | 2.11 | 1 | 5 | 6 | 48 |
인정하다 | 7 | 9 | 11 | 24 | 1.65 | 0.82 | 0.65 | 1.58 | 7 | 9 | 11 | 24 |
잊다 | 23 | 2 | 0 | 13 | 2.61 | 2.19 | 2.54 | 23 | 2 | 0 | 13 | |
주장하다 | 20 | 14 | 13 | 27 | -1.21 | -0.67 | -1.79 | 0.4 | 20 | 14 | 13 | 27 |
지적하다 | 23 | 1 | 4 | 55 | 2.1 | 2 | 0.38 | 2.09 | 23 | 1 | 4 | 55 |
확신하다 | 6 | 21 | 12 | 36 | -0.23 | 0.06 | 0.07 | 1.16 | 6 | 21 | 12 | 36 |
확인하다 | 2 | 1 | 3 | 73 | 2.88 | -0.5 | 1.83 | 2.61 | 2 | 1 | 3 | 73 |
후회하다 | 34 | 11 | 0 | 12 | 2.6 | 2.2 | 2.34 | 34 | 11 | 0 | 12 | |
희망하다 | 2 | 0 | 12 | 30 | -0.88 | 0.04 | 0.33 | 2 | 0 | 12 | 30 | |
착각하다 | 0 | 6 | 11 | 50 | -2.26 | -2.23 | -2.18 | 0 | 6 | 11 | 50 |
1.2.5. 양태
양태는 가능, 금지, 당위, 불가, 의무, 의지, 인식, 허락, 희망 등으로 분류하였다. 양태 유형별 응답 평균 기초 통계량은 다음과 같다.
<표 29> 양태 유형별 기초 통계량
양태 | 담화 수 | 평균 | 표준 편차 | 최솟값 | 중위수 | 최댓값 |
인식 | 420 | 0.645093 | 1.771056 | -3 | 1.12500 | 3 |
가능 | 323 | 1.830874 | 1.365634 | -3 | 2.375 | 3 |
금지 | 20 | 0.262500 | 2.448113 | -3 | 1.1875 | 3 |
당위 | 5 | 2.072778 | 0.864475 | 0.6 | 2.250 | 2.88889 |
불가 | 58 | 1.048324 | 1.913541 | -2.875 | 1.9375 | 3 |
의무 | 95 | 1.908099 | 1.010957 | -1 | 2.3 | 3 |
의지 | 43 | 1.300904 | 0.969563 | -1.375 | 1.250 | 2.875 |
허락 | 5 | 0.607778 | 1.283884 | -1.5 | 0.900 | 1.88889 |
희망 | 14 | 1.503373 | 1.523270 | -2.125 | 2.298611 | 2.875 |
2. 레이블 분류
2.1. 레이블 분류 방법
모문과 내포 명제 사이의 관계에 대한 분류에 대한 레이블을 부여함에 있어 ‘함의 (entailment, 참 확신)’, ‘중립(neutral)’, ‘모순(contradiction, 거짓 확신)’으로 분류하고 부여하였다. 본 사업에서는 여러 가지 가능한 방안 중 다음의 2가지 방안을 고려하여 하 나를 선택하기로 한다.
(1안) ㄱ. 95% 신뢰 구간 상/하한이 0 이상인 경우, ‘함의(참 확신)’ ㄴ. 95% 신뢰 구간 상/하한이 0 이하인 경우, ‘모순(거짓 확신)’ ㄷ. 그 외의 경우, ‘중립’
(2안) ㄱ. 80% 이상이 +1, +2 또는 +3을 선택하는 경우, ‘함의(참 확신)’ ㄴ. 80% 이상이 –1, -2 또는 -3을 선택하는 경우, ‘모순(거짓 확신)’ ㄷ. 80% 이상이 0을 선택하는 경우, ‘모순(거짓 확신)’
de Marneffe et al.(2018)의 확신성 말뭉치(CommitmentBank) 분석에서는 투사의 성 질을 이해함에 있어서 전반적으로 95% 신뢰 수준의 부트스트랩을 알고리즘을 활용하여 신뢰 구간을 계산함으로써 분석하였다(1안 적용). 확신성에 대한 응답 점수에 대한 신뢰 구간의 상/하한값이 0보다 크면 투사가 일어나는 것이고, 상/하한 값이 0보다 작으면 그 렇지 않은 것으로 판단한 것이다. 그런데 필연적으로 응답자 간 편차가 존재하며, 분석 대상 담화의 오직 1/3 정도가 그 정도의 차이는 있더라도 대상 문상이 투사되는지 그렇 지 않은지에 대한 일치도가 있는 것으로 파악하였다. 그리고 후속 연구(de Marneffe and Jiang, 2019)에서는 구글의 언어 모델인 버트(BERT) 평가를 위한 말뭉치로 변환하기 위해 서 80%의 응답자가 동일한 범위에 있는 담화문으로 한정하였으며(2안 적용), 동일 범위 내에 80%의 응답자(8명인 경우 7명 이상)가 응답하지 않는 경우는 사용하지 않았다. 따라 서 확신성 말뭉치(CommitmentBank)의 항목은 약 1,200개이지만, 최종적으로 슈퍼글루 (SuperGLUE)에 포함된 말뭉치의 규모는 훈련(train) 250개, 검증(validation) 56개, 평가 (test) 250개, 총 556개로 최초 말뭉치의 절반 미만 수준이다.
그런데 본 사업에서 de Marneffe and Jiang(2019)와 같이 2안을 적용할 경우 응답자 의 80%가 정확히 중립을 선택하는 경우는 오직 4건에 불과하며, 약 712개의 담화를 제외 한 총 1,088개의 담화(함의 777개, 중립 4개, 모순 307개)로 분석 대상 말뭉치의 약 75% 수준이다. 이렇게 제한된 담화로 말뭉치를 구성할 경우에 상대적으로 응답 신뢰도가 높은 데이터를 확보할 수 있다는 장점이 있으나, 같은 범위에 속하더라도 미세하게 응답이 다 른 정도를 설명하지 못하는 등 전제 투사를 설명하기 위한 다양한 유형을 자칫 간과할 위 험이 있다.
본 사업에서는 1안을 동시에 제시한다. 한 개의 문항에 대해 응답자들이 부여한 점수에 기반하여 신뢰 구간의 상/하한값을 계산하고, 신뢰 구간의 상/하한이 모두 0 이상인 경우 는 ‘함의(entailment, 참 확신)’, 모두 0 이하인 경우는 ‘모순(contradiction, 거짓 확신)’, 그 외의 경우는 ‘중립(neutral)’에 해당하는 레이블을 부여한다(이를 class_CI 로 제시하 였다.). 이 경우, 904건이 함의, 508건이 중립, 388건이 모순으로 분류된다.
이와 동시에 각 구간에 응답자의 80%가 응답하는 경우를 계산하고 이에 해당하는 레이 블 역시 부여하였다(이를 class_Restrict로 제시하였다.). 각 규칙에 따른 레이블을 부여 한 담화의 수는 다음 표와 같다. 구체적으로 보면 1안에 따라 ‘중립’이라고 분류한 부분 (508건)은 정확하게 응답이 0으로 분류되지 않은 경우가 대부분이다.
<표 30> 레이블 분류 방법에 따른 담화의 수
구분 | 함의(2안) | 중립(2안) | 모순(2안) | 미분류(2안) | 합계(1안) |
함의(1안) | 768 | 136 | 904 | ||
중립(1안) | 9 | 4 | 2 | 493 | 508 |
모순(1안) | 305 | 83 | 388 | ||
합계(2안) | 777 | 4 | 307 | 712 | 1,800 |
1,088 |
2.2. 레이블의 분포
위 원칙에 의해 부여된 레이블 및 기초 통계량을 말뭉치 유형별로 보이면 다음과 같다.
<표 31> 말뭉치 유형에 따른 레이블별 기초 통계량
말뭉치 유형 | 레이블 | 비율 | 문항 수 | 평균 | 표준 편차 | 최솟값 | 중위수 | 최댓값 |
문어 | 함의 | 55% | 383 | 2.232 | 0.508 | 0.75 | 2.375 | 3 |
중립 | 27% | 191 | 0.069 | 0.722 | -1.625 | 0.125 | 1.5 | |
모순 | 18% | 126 | -2.125 | 0.557 | -3 | -2.25 | -0.75 | |
신문 | 함의 | 49% | 341 | 2.33 | 0.505 | 0.875 | 2.375 | 3 |
중립 | 26% | 182 | -0.1 | 0.744 | -1.75 | -0.125 | 1.75 | |
모순 | 25% | 177 | -2.203 | 0.554 | -3 | -2.375 | -0.625 | |
구어 | 함의 | 45% | 180 | 2.184 | 0.615 | 0.625 | 2.3 | 3 |
중립 | 34% | 135 | 0.169 | 0.756 | -1.5 | 0.25 | 1.778 | |
모순 | 21% | 85 | -2.186 | 0.567 | -3 | -2.222 | -0.75 | |
전체 | 함의 | 50% | 904 | 2.26 | 0.532 | 0.625 | 2.375 | 3 |
중립 | 28% | 508 | 0.035 | 0.745 | -1.75 | 0.125 | 1.778 | |
모순 | 22% | 388 | -2.174 | 0.557 | -3 | -2.25 | -0.625 |
각 레이블에 해당하는 평균에 대한 도수 분포도는 다음과 같다. 이와 같은 분포는 아래 그림과 같이 평균만 비교할 경우 중복되어 보일 수 있다. ‘중립’이라고 레이블을 부여했으 나 응답이 일치하지 않고 넓게 분포되어 있어 신뢰 구간의 상/하한값이 0을 기준으로 양 수와 음수로 넓게 퍼져 있을 수 있기 때문이다.
<그림 6> 레이블별 도수 분포표
3. 확신성에 영향을 주는 언어 정보의 탐색
여기에서는 함의 분석 말뭉치 구축의 기본 모델이었던 de Marneffe et al.(2019)의 분 석 방법론을 활용하여 확신성에 영향을 주는 언어 정보를 탐색한다.
3.1. 단일 언어 정보가 확신성에 미치는 영향 분석
de Marneffe et al.(2019)에서는 술어 특성에 따른 술어별 응답 평균을 부트스트랩 신 뢰 구간과 함께 제시함으로써 내포 명제의 투사성을 논하였다. 본 사업에서도 이와 유사 하게 응답 평균이 낮은 술어부터 높은 술어까지 나열하여 아래 그림으로 제시한다. 술어 의 유형은 당초의 분류 체계를 기반으로 갈색은 사실성 술어(factive verb), 회색은 비사 실성 술어(non-factive verb), 빨간색은 반사실성 술어(counter-factive verb)를 의미한 다.
<그림 7> 술어별 확신성 신뢰 구간
위의 <그림 7>에서와 같이 사실성 술어(갈색)에 비해 비사실성(회색)이나 반사실성(빨간 색) 술어의 경우에 담화의 확신성 점수가 전반적으로 낮아 보인다. 다음의 세부 장에서는 이와 같은 술어 유형이 확신성이 미치는 영향을 검토하고, 각 술어들이 확신성에 미치는 영향을 서수 혼합 모델(ordinal mixed effect model)을 활용하여 검토할 것이다.
요인 탐색에 앞서 본 연구에서 광범위하게 사용한 서수 혼합 모델(ordinal mixed effect model) 및 품질 평가 지표를 간략하게 설명한다. 우선 학술적 실증 연구에서는 자 료에 대한 기초 탐색 이후에 연구 모델과 가설을 수립하고 이를 통계적으로 검증하기 위 한 일련의 절차를 수행한다. de Marneffe et al.(2019)에서는 전체 응답자 응답의 누적된 순위 정보(서수)를 활용하여 수립된 연구 모델에 대한 통계적 검증을 실시하였다. 구체적 으로는 다음과 같은 절차를 수행하였는데, 각 응답자의 무작위(random) 응답 변화량을 설명하는 모델을 기본 모델(null model)로 설정하고, 확신성에 영향을 줄 것으로 예측되 는 요인을 설명 변수로 포함하는 모델(fixed model)을 대상 모델로 설정한다. 그리고 분 산 분석(ANOVA)을 통해 기본 모델과 대상 모델 간의 변화량을 살펴보는 방법이다. 이 과정에서 요인별 효과(fixed effect)와 응답자의 무작위 효과(random effect)를 동시에 고 려하기 때문에 혼합 효과(mixed effect) 모델이라고 부른다.
여기서 각 응답자가 가지는 변동성을 모델에 포함하는 이유는 예를 들어 ‘가’라는 응답 자가 문항 1과 문항 2를 응답하고 ‘나’라는 응답자가 문항 3과 문항 4를 응답하는 경우에 응답자 ‘가’는 전반적으로 점수를 낮추어 응답하고, 응답자 ‘나’는 전반적으로 높은 점수로 응답하는 등 응답자별로 고유한 경향성이 있을 수 있기 때문이다. 모든 응답자가 1,800개 담화를 모두 평가하고 연구자가 이를 평균 내어 평균값을 취하는 방식이라면 이와 같은
혼합 효과(mixed effect) 방식이 불필요하나, 본 사업에서는 서로 다른 응답 세트에 대한 응답자의 모든 응답을 대상으로 하고 있어 분석을 2단계로 분리하고 하나의 계층을 절편 으로 처리하는 계층적 분석 모델과 비슷한 방식을 취하는 것이다.
한편 연구자가 수립한 모델이 관측된 사실을 얼마나 잘 부합되게 설명하는지에 대한 적 합성(Goodness of fit)을 검정하기 위해서는 다양한 지수를 사용하는데, 최소 제곱법 (ordinary least squares)을 활용한 단순 회귀 분석의 경우 다음의 결정 계수 (R-squared)를 사용한다.
일반적으로 주어진 자료에 대한 통계 모델의 성능을 평가하기 위해서는 모델에 의한 예 측이 관측된 데이터와 실제로 얼마나 잘 맞는지 측정하는 방법이 필요하다. 즉, 주어진 관측에 대해 예측된 반응값과 실제 관측값과의 차이를 수치화할 수 있다. 예를 들어 잔차 표준 오차(Residual Standard Error) 등이 사용될 수 있다. 그런데 이것은 종속 변수 단 위로 측정되므로 잔차 표준 오차가 무엇인지 항상 명확하지는 않다. 이에 대한 대안이 결 정 계수(R-squared)이다. 이 통계량은 전체 분산 대비 모델에 의해 설명되는 분산의 비 율 형태를 취하므로 항상 0과 1 사이의 값을 가지며, Y의 크기와는 무관하다. 결정 계수 (R-squared)는 X(설명 변수)를 사용하여 설명될 수 있는 Y(종속 변수)의 변동 비율 (proportion of variability)을 측정한다. 통계량이 1에 가까울수록 종속 변수 중 많은 부 분이 모델에 의해 설명되었다는 것을 나타낸다.
그런데 수치형 자료가 아닌 범주형 자료가 종속 변수인 경우, 매우 다양한 의사 결정 계수(pseudo R-squared)가 고려될 수 있다. 본 사업에서는 de Marneffe et al.(2019)가 사용한 McFadden(1974), Cox and Snell(1989), Nagelkerke(1991), Cragg and Uhler(1970) 지수로 모델의 적합성을 검증하였다. 이와 같은 의사 결정 계수(pseudo R-squared)에 대한 설명 및 공식은 다음과 같다. 여기에서 MFull은 모든 설명 변수 및 응 답자 변동성을 포함한 모델이며, MIntercept는 응답자의 변동성을 절편으로 적합한 모델을 의미한다. 의사 결정 계수(pseudo R-squared)를 구성하는 3가지 관점이 있는데, i) 설명 된 분산(explained variance)의 차이를 활용하는 것, ii) 기본 모델(null model)에서 적합 된 모델로의 향상된 정도를 활용하는 것, iii) 상관관계(correlation)를 활용하는 것이다.
McFadden: i)과 ii)의 관점을 반영한 통계 수치로, 응답자 변동성 및 설명 변수가 포함 된 모델이 응답자의 변동성만 포함한 모델 대비 향상된 정도를 정량화한 통계 수치이며
공식은 다음과 같다.
Cox and Snell(ML): ii)의 관점을 반영한 통계 수치로, McFadden 수치보다 수렴성이 높은 통계 수치이지만 최댓값은 1 미만이다.
Nagelkerke(Cragg and Uhler): ii)의 관점을 반영한 통계 수치로, Cox and Snell의 최대 수치의 값을 분모로 하여 최댓값이 1이 되도록 보정한 통계 수치이다.
3.1.1. 술어 유형
아래는 모든 응답 데이터에 대하여 술어 유형을 설명 변수로 하는 서수 혼합 모델에서 의 계수를 추정한 것이다. 이는 응답자별로 다른 무작위 효과(random effect)를 절편항 (intercept)으로 적합하고, 사실성 술어를 0으로 고정시킨 후에 비사실성과 반사실성 술어 의 계수를 추정하는 방식이다. de Marneffe et al.(2019)의 연구에서는 비사실성 술어를 고정하고 사실성 술어의 효과를 관찰하였으나, 여기에서는 술어 유형을 3개로 분리함에 따라 위의 논문과 반대로 사실성 술어 효과를 관찰하였으므로 계수는 음수가 된다.
다음 표와 같이 사실성 술어에 비해서 비사실성 및 반사실성 술어 모두 확신성 점수에 음의 영향을 준다. 아래 모델의 계수에서 z 점수는 예측 점수를 표준 오차로 나눈 수치이 며, 계수의 추정을 위해 최대 우도값을 사용한다. 그리고 이 점수를 가우스 분포를 활용 하여 p값을 계산하여 통계적 유의성을 확인할 수 있다. 비사실성 술어와 반사실성 술어의 차이는 다시 둘 중의 하나의 술어 유형을 고정한 후 나머지 계수를 확인함으로써 파악할 수 있다.
<표 32> 술어 유형만을 독립 변수로 하는 모델의 계수
계수(β) | 표준 오차(SE) | z 점수 | Pr( > |z| ) | |
비사실성 | -1.82476 | 0.04078 | -44.77 | <2e-16 *** |
반사실성 | -2.23359 | 0.04152 | -53.82 | <2e-16 *** |
아래는 술어 유형별 확신성 평가 점수를 상자 수염도(box plot)로 표현한 것이다. 사실 성 술어의 확신성 점수가 다른 술어 유형의 평균보다 월등히 높다는 것을 확인할 수 있 다.
<그림 8> 술어 유형별 응답 평균 상자 수염도
아래는 술어 유형을 독립 변수로 하는 대상 모델에 대한 적합성(Goodness of fit)을 위 에서 설명한 의사 결정 계수(pseudo R-squared) 통계 수치로 정량화한 내용이다. 술어 유형이라고 하는 설명 변수가 확신성 점수라는 종속 변수에 얼마나 영향력을 미치는지를 확인할 수 있다.
<표 33> 술어 유형만을 독립 변수로 하는 모델의 적합성 검증
의사 결정 계수(pseudo R-squared) | |
McFadden | 0.06407 |
Cox and Snell(ML) | 0.20884 |
Nagelkerke(Cragg and Uhler) | 0.21438 |
주의할 점은 이와 같은 적합성 점수들은 기본적으로 검증하려는 대상이 되는 모델 효과 (MFull)와 비교하고자 하는 랜덤 모델 효과(MIntercept)에 대한 상대적 비율로 계산이 된다는 점이며, 비교하고자 하는 랜덤 모델 효과는 위에서 설명한 응답자별 분산 정도를 의미한 다.
비슷한 방식으로 말뭉치 유형, 시제, 함의 취소 운용소, 인칭, 술어 등을 분석하고 해당 모델의 적합성(Goodness of fit)을 확인해 볼 수 있다. 아래 표의 요인별 모델의 적합성 검증을 보면 말뭉치 유형이나 모절 시제, 모절 주어 인칭의 설명력은 낮은 편이다. 함의 취소 운용소가 두 가지 이상인 경우에 이를 모두 고려한 경우와 부정, 의문, 조건, 양태의 순으로 하나를 대표로 표기한 경우의 모델의 적합성을 확인할 수 있다. 시제의 경우 모절
의 시제와 내포절의 시제로 구분하였는데, 아래의 표에는 모절 시제에 따른 설명력을 제 시하였다. 다만, 여기서 의미하는 시제는 de Marneffe et al.(2019)의 정의와 다소 상이 한데, 시제에 따른 세부적인 변화는 뒤에서 살펴본다. 술어를 설명 변수로 하여 확신성 점수라는 종속 변수에 얼마나 영향력을 미치는지를 확인해 보면 술어 자체만을 설명 변수 로 사용하는 것이 술어 유형만을 사용한 것보다 모델의 설명력이 더 개선되었다는 점을 알 수 있다.
<표 34> 요인별 모델의 적합성 검증
요인 | McFadden | Cox and Snell(ML) | Nagelkerke (Cragg and Uhler) |
말뭉치 유형 | 0.00065 | 0.00239 | 0.00245 |
모절 시제 | 0.00300 | 0.01093 | 0.01122 |
모절 주어 인칭 | 0.00892 | 0.03209 | 0.03294 |
함의 취소 운용소(대표) | 0.01946 | 0.06868 | 0.07050 |
함의 취소 운용소(전체) | 0.02140 | 0.07527 | 0.07726 |
술어 유형 | 0.06407 | 0.20884 | 0.21438 |
술어 | 0.10268 | 0.31300 | 0.32130 |
3.1.2. 술어
술어의 유형이 고정된 상태에서 술어 자체의 투사 효과는 다를 수 있다. 술어의 확신성 에 대한 기여도는 술어별 확신성 신뢰 구간을 통해 파악할 수 있지만, 모든 술어는 그 술 어의 유형을 함께 고려하여 확신성에 영향을 미치는 정도를 정량화함으로써 이를 검토해 야한다. 이를 위한 방법론으로 서수 혼합 모델(ordinal mixed effect model)에서 사실성 술어의 확신성에 대한 효과를 분석하되(β = 2.13, SE = 0.30, z = 7.07, p < 0.001), 술 어를 절편항으로 포함함으로써 분석한다(de Marneffe et al., 2019). 본 연구에서는 사실 성 술어를 기본 모델로 하여 27개 모든 술어에 대한 변동성을 다음과 같이 확인하였다.
아래 표에서 굵은 글씨체는 사실성 술어를 의미한다. 즉, ‘확인하다’(0.560), ‘후회하 다’(0.680)는 사실성 술어라는 범주에서 확신성에 더 많이 기여한 반면, ‘발견하다’(-0.676), ‘밝히다’(-0.606) 등은 상대적으로 덜하다. ‘착각하다’(-2.160), ‘기대하다’(-0.629)는 사실성 술어가 아니라는 범주에서6) 더 높은 반사실성에 대한 확신성에 기여한 반면, ‘알 다’(1.350), ‘예상하다’(1.321)는 그렇지 않았다.
6) 본 연구에서는 술어 유형을 3가지로 구분하고 있으나, 본 장에서는 해석의 복잡성을 해소하기 위하여, 비사실성 술 어와 반사실성 술어를 동일한 범주로 분류하여 사실성 술어와 아닌 것, 2가지로 구분하여 분석하였다.
<표 35> 사실성 술어 효과를 고려한 술어의 효과
술어 | 술어 유형 | 계수(Intercept) |
기대하다 | 반사실성 | -0.629 |
기억하다 | 사실성 | 0.300 |
깨닫다 | 사실성 | -0.111 |
당부하다 | 반사실성 | 0.450 |
믿다 | 반사실성 | -0.283 |
바라다 | 반사실성 | -0.432 |
받아들이다 | 비사실성 | 0.373 |
발견하다 | 사실성 | -0.676 |
밝히다 | 사실성 | -0.606 |
보다 | 비사실성 | 0.534 |
보이다 | 비사실성 | -0.567 |
생각하다 | 비사실성 | -0.104 |
알다 | 비사실성 | 1.350 |
여기다 | 비사실성 | -0.536 |
예상하다 | 반사실성 | 1.321 |
요구하다 | 반사실성 | -0.098 |
원하다 | 반사실성 | 0.038 |
이해하다 | 사실성 | -0.268 |
인정하다 | 비사실성 | 1.039 |
잊다 | 사실성 | 0.521 |
주장하다 | 비사실성 | -0.686 |
지적하다 | 사실성 | -0.478 |
착각하다 | 반사실성 | -2.160 |
확신하다 | 비사실성 | 0.354 |
확인하다 | 사실성 | 0.560 |
후회하다 | 사실성 | 0.680 |
희망하다 | 반사실성 | 0.035 |
3.1.3. 대상 담화 및 응답자에 따른 변동성
이전의 장에서는 각 특성 요소에 대한 전반적인 변동성을 확인하였다면 본 분석에서는 각 담화별 변동성을 확인한다.
다음 그림은 비사실성 술어로 분류된 ‘알다‘에 대한 응답 평균과 95% 신뢰 구간을 나 타낸 것이다. ‘알다’를 포함한 담화는 총 95개가 존재한다. 굵은 점은 평균값을 의미하며, 위아래의 가로선은 95% 신뢰 구간에서의 상/하한값을 의미한다. 위아래 가로선이 없는 경우는 모든 응답자가 동일하게 응답한 경우이다. 대상 담화에 대한 응답 평균이 낮은 것 부터 높은 것까지 정렬하여 보면 담화별 변동성을 확인할 수 있으며, 평균과 신뢰 구간을
통해 응답자에 따른 변동성 역시 확인할 수 있다, 대략적으로 살펴보면 응답자별로 편차 는 있으나, 절반 정도의 담화가 내포 명제의 사실성을 확신할 수 있는 것으로 나타났다.
<그림 9> ‘알다’를 포함한 담화에 대한 응답 평균 및 신뢰 구간
아래 그림은 사실성 술어로 분류된 ‘이해하다’와 ‘주장하다’에 대한 응답 평균 및 신뢰 구간을 나타낸 것이다. ‘이해하다’를 술어로 하는 담화는 총 55개이며, ‘주장하다’를 술어 로 하는 담화는 총 62개이다. 먼저 ‘이해하다’를 술어로 하는 대부분의 담화가 내포 명제 의 사실성에 대해 확신성을 보이는 것으로 나타났다. 하지만 ‘주장하다’는 오직 11개의 담 화만이 신뢰 구간의 상/하한값이 0보다 크며, 20개 가까운 담화에서 신뢰 구간 상/하한값 이 0보다 작은 것으로 나타난다. 즉, 예상과 달리 담화의 1/3은 오히려 거짓 확신을 전달 하는 소위 반사실성을 전제하고 있다고 볼 수 있다.
<그림 10> ‘이해하다’를 포함한 담화에 대한 응답 평균 및 신뢰 구간
<그림 11> ‘주장하다’를 포함한 담화에 대한 응답 평균 및 신뢰 구간
아래 그림은 반사실성 술어로 분류된 ‘착각하다’와 ‘예상하다’에 대한 응답 평균 및 신 뢰 구간 그래프이다. ‘착각하다’를 술어로 하는 담화는 총 66개이며, ‘예상하다’를 술어로 하는 담화는 총 80개이다. 먼저, ‘착각하다’를 술어로 하는 대부분의 담화에서 내포 명제 에 대한 거짓 확신성을 전달하고 있다. 반면, ‘예상하다’는 오직 4개의 담화만이 신뢰 구 간의 상/하한값이 0보다 작으며, 전체 담화의 약 2/3에서 신뢰 구간 상/하한값이 0보다 크게 나타났다. 달리 말하면 예상과 달리 약 2/3의 담화는 오히려 내포 명제의 사실성에 대한 확신성을 전달하고 있다고 볼 수 있다.
<그림 12> ‘착각하다’를 포함한 담화에 대한 응답 평균 및 신뢰 구간
<그림 13> ‘예상하다’를 포함한 담화에 대한 응답 평균 및 신뢰 구간
한편, ‘알다’를 포함한 담화에서 평균이 +3, 즉 모든 응답자가 함의(참 확신)로 응답한 담화의 예시는 (1)의 ㄱ, ㄴ, ㄷ, ㄹ과 같다.
(1) ㄱ. 부딪치다'와 '부딪히다'는 많은 사람들이 헷갈려한다. 하지만 둘 다 '부딪다'에서 파생 한 말이라는 것과, '치'는 '강조'를 뜻하는 접사이고 '히'는 '피동'을 뜻하는 접사임을 알면 그리 헷갈릴 것은 없다. [WBRW1900003137.1.89, 응답 평균: +3]
ㄴ. 대부분의 나라에서 조속한 경제 성장은 광범위한 가난 문제를 해결하기 위해 절실히 필요하다. 반면 환경의 질은 경제 활동이 확대될수록 악화되고 있다. 지각 있는 사람 이라면 가난의 고통을 더는 동시에 환경 자원을 보존하는 발전 방법을 찾는 것 외에 는 달리 선택의 여지가 없다는 것을 알 것이다. [WBRW1900021239.1.960, 응답 평균:
+3]
ㄷ. 이 무렵 이항복의 처지를 가장 잘 이해해 주던 이원익(李元翼)도 1615년 홍천(洪川)으 로 유배되었다. 이항복은 답답한 마음에 1615년 춘천의 청평산(淸平山)을 유람하였다. 노새를 타고 가 농부들과 어울려 놀았기 때문에 사람들은 그가 고관대작을 지낸 줄 알지 못하였다. [WBRW1900004415.1.190, 응답 평균: +3]
ㄹ. A: 왜 여인이란 걸 숨긴 것이냐? 그리도 내가 미웠느냐?
B: .
A: 니가 여인이란 걸 알면. 널 안기라도 할까 봐.? [SBRW1900002595.1.1.455, 응답 평균: +3]
응답자 모두가 모순(거짓 확신)으로 응답한 경우는 오직 구어에서만 발견되었으며, 모두 함의(참 확신)로 응답한 경우는 구어와 문어에서 발견되었다. 특징적인 점은 구어의 경우, ‘-줄 모르다’, ‘-줄 알다’와 같이 특정 보문소와 결합할 경우에 모든 응답자들이 일관되게 답변했다는 점이다. 이와 같은 술어와 보문소의 상호 작용 효과는 뒤에서 다시 서술한다.
반면 ‘알다’를 포함한 담화에서 응답이 일관되지 않은 담화의 예시는 (2)에 제시되어 있 다. ㄱ의 경우, 3명이 +3인 함의(참 확신)로 응답한 반면, 3명은 –3. -2인 모순(거짓 확 신)으로 응답하였다. ㄴ에서는 3명이 0(중립)으로 응답하였으나, 2명이 +3, +2인 함의(참 확신)로 응답하였다.
(2) ㄱ. 지금으로부터 1백 년 후의 역사가는 이러한 변명이나 핑계로 번거로움을 겪지는 않으리라. 그들은 숨겨진 진짜 원인을 파악하여, 개인적인 야심이나 사악함이나 탐욕이 전쟁의 궁극적인 발발과는 아무런 관련도 없음을 알 것이다. [WBRW1900021012.1.798, 응답 평균: +0.375]
ㄴ. 그 증거로는 초로初老에 으레 엄습한다는 요통腰痛이니 견비통肩臂痛이니-하기는 이 것은 사실인 모양이어서 내 아내는 요즘 견비통으로 애먹고 있다-하는 것을 겪어 본 일이 없다. 아침마다 젊었을 때에 비하여 유달리 고통스러운 것을 알지 못하겠다. [WBRW1900008302.1.554, 평균: +0.25]
3.2. 언어 정보의 결합이 확신성에 미치는 영향 분석
3.2.1. 보문소와 술어의 결합
모절의 술어만으로 내포절의 의미적 (비)사실성이 결정되는 영어의 경우와는 달리, 한국 어는 술어 단독이 아닌 보문소와 술어의 결합으로 내포절의 투사 및 사실성이 결정된다. 이에 보문소와 술어의 결합이 확신성 판단에 미치는 정도를 분석해 봄으로써 보문소와 술 어 간의 교호 효과(interaction effect)를 확인해 볼 수 있다. 일반적으로 연구 모델에 대 한 상호 작용 효과를 검증하기 위해서는 각각 독립 변수를 별개로 포함하는 모델과 독립 변수와 함께 상호 작용 효과 변수를 추가하는 모델 두 가지를 비교함으로써 판단한다. 즉, 보문소와 술어 각각을 설명 변수로 한 모델의 품질 지표와 보문소와 술어, 이들의 결합을 설명 변수로 한 모델에 대한 품질 지표를 비교하여 둘 간의 차이가 통계적으로 유의미한 것을 보임으로써 보문소와 술어의 결합에 대한 모델을 통계적으로 검증할 수 있다. de Marneffe et al.(2019)의 경우 술어의 시제와 인칭의 상호 작용에 주목하여, 각 요소들을 독립된 설명 변수로 하여 모델링을 하였을 경우의 설명력 차이를 검증하였다.
여기에서는 한국어에 특징적인 술어와 보문소의 상호 작용을 분석한다. 주의할 점은 본 사업에서 대상으로 하는 총 27개의 술어와 8개의 보문소 결합이 말뭉치에서 발견되지 않 을 수 있다는 것이다. 실제로 말뭉치를 분석한 결과, 구어 말뭉치에서는 술어와 보문소 결합이 상대적으로 촘촘하게 발견되었으나 신문 말뭉치와 문어 말뭉치를 포함한 전체 말 뭉치를 대상으로 할 경우에는 상호 작용항의 모델 계수가 수렴되지 않는 현상이 발견되었 다. 이에 따라 본 분석에서는 ‘-다고/라고’, ‘것을/것을(장)’, ‘것으로/것으로(장)’을 하나의 보문소로 요인을 통합하여 처리하였다. 이렇게 통합하여 분석한 각 요인의 주 효과(main effect) 모델과 교호 효과(interaction effect) 모델 각각의 의사 결정 계수(pseudo R-squared) 및 우도비(Likelihood-ratio)는 다음과 같다. 우도비는 보문소:술어 상호 작 용항이 포함된 모델의 우도가 더 높아 더 좋은 모델이라고 할 수 있다.
<표 36> 보문소와 술어 결합 효과
모델 | McFadden | Cox and Snell(ML) | Nagelkerke (Cragg and Uhler) |
보문소 + 술어 | 0.113837 | 0.345469 | 0.354021 |
술어 + 보문소 + 보문소:술어 | 0.128156 | 0.379449 | 0.388842 |
Likelihood-ratio stat (p.value) | 784.73 (5.645e-123) |
일단 교호 효과가 있음을 확인한 경우에는 각 상호 작용항의 통계적 유의성을 통해 비 교할 수 있다. 아래는 술어와 보문소 결합 모델의 각 설명 요인들을 z 점수 순으로 정렬 한 것이다. ‘이해하다’라는 술어의 효과가 가장 높았으며, 다음으로는 ‘것을’과 결합된 ‘인
정하다’와 ‘후회하다’, ‘보다’, ‘믿다’, ‘알다’ 순이었다. 하지만 ‘것을’ 단독으로의 주 효과 는 이들보다 높지 않았다. 반면 ‘-다고/라고’와 결합한 ‘확인하다’, ‘주장하다’, ‘생각하다’ 는 명확한 거짓 확신이 관찰되었으나, ‘-다고/라고’라는 보문소 자체의 효과는 이보다 낮 다.
<표 37> 보문소와 술어 결합 모델 계수(z 점수 순서로 정렬)
설명 변수 | 계수(β) | 표준 오차(SE) | z 점수 | Pr( > |z| ) |
이해하다 | 2.438123 | 0.223673 | 10.90037 | 1.15E-27 |
것을:인정하다 | 4.676288 | 0.484803 | 9.645744 | 5.12E-22 |
것을:후회하다 | 3.579268 | 0.413094 | 8.664546 | 4.53E-18 |
것을:보다 | 2.747943 | 0.319929 | 8.589225 | 8.76E-18 |
것을:믿다 | 2.558324 | 0.30791 | 8.308682 | 9.68E-17 |
것을:알다 | 2.754377 | 0.376859 | 7.308771 | 2.70E-13 |
예상하다 | 1.336692 | 0.19056 | 7.014535 | 2.31E-12 |
것을:예상하다 | 2.084542 | 0.328804 | 6.339778 | 2.30E-10 |
-다고/라고:인정하다 | 2.738002 | 0.453619 | 6.035909 | 1.58E-09 |
확인하다 | 4.566869 | 0.776855 | 5.878665 | 4.14E-09 |
보다 | 1.003756 | 0.170893 | 5.87359 | 4.26E-09 |
것을:받아들이다 | 1.840424 | 0.329397 | 5.587256 | 2.31E-08 |
생각하다 | 1.223376 | 0.221089 | 5.533407 | 3.14E-08 |
-음/ㅁ:인정하다 | 4.861931 | 0.896553 | 5.422913 | 5.86E-08 |
잊다 | 4.212506 | 0.824827 | 5.107139 | 3.27E-07 |
밝히다 | 4.03404 | 0.817582 | 4.934112 | 8.05E-07 |
발견하다 | 3.787243 | 0.819078 | 4.623789 | 3.77E-06 |
것을:확신하다 | 1.909549 | 0.423016 | 4.51413 | 6.36E-06 |
것을:생각하다 | 1.784748 | 0.406524 | 4.390261 | 1.13E-05 |
기억하다 | 2.795892 | 0.656337 | 4.259841 | 2.05E-05 |
지적하다 | 2.75744 | 0.663671 | 4.15483 | 3.26E-05 |
요구하다 | 4.718114 | 1.144813 | 4.121298 | 3.77E-05 |
-음/ㅁ:믿다 | 3.380613 | 0.827534 | 4.085166 | 4.40E-05 |
것을:여기다 | 2.532406 | 0.660607 | 3.833451 | 1.26E-04 |
당부하다 | 3.883434 | 1.015884 | 3.822715 | 1.32E-04 |
받아들이다 | 0.841195 | 0.222981 | 3.772499 | 1.62E-04 |
깨닫다 | 2.772355 | 0.752634 | 3.683538 | 2.30E-04 |
것을:바라다 | 2.502367 | 0.680664 | 3.676363 | 2.37E-04 |
희망하다 | 1.256564 | 0.34954 | 3.594909 | 3.25E-04 |
주장하다 | 2.972928 | 0.843688 | 3.52373 | 4.26E-04 |
-음/ㅁ:보다 | 2.885523 | 0.848143 | 3.402165 | 6.69E-04 |
-음/ㅁ:알다 | 2.846447 | 0.842652 | 3.377965 | 7.30E-04 |
알다 | 0.993339 | 0.306753 | 3.238239 | 0.001203 |
설명 변수 | 계수(β) | 표준 오차(SE) | z 점수 | Pr( > |z| ) |
후회하다 | 1.06588 | 0.342326 | 3.113636 | 0.001848 |
-음/ㅁ:확신하다 | 2.609842 | 0.863974 | 3.020742 | 0.002522 |
것을:이해하다 | 1.004565 | 0.334257 | 3.005369 | 0.002653 |
-음/ㅁ:받아들이다 | 2.458171 | 0.840828 | 2.923512 | 0.003461 |
확신하다 | 0.897937 | 0.32228 | 2.786203 | 0.005333 |
-다고/라고:알다 | 1.281798 | 0.46387 | 2.763269 | 0.005723 |
-음/ㅁ:예상하다 | 2.12672 | 0.816182 | 2.605694 | 0.009169 |
-음/ㅁ:생각하다 | 2.396424 | 0.999076 | 2.39864 | 0.016456 |
-기 | 0.440156 | 0.185886 | 2.367883 | 0.01789 |
원하다 | 1.300509 | 0.560105 | 2.321903 | 0.020238 |
-기:바라다 | 1.336293 | 0.661334 | 2.020603 | 0.043321 |
것을:기억하다 | 1.295548 | 0.693089 | 1.869237 | 0.06159 |
줄:예상하다 | 1.054426 | 0.595827 | 1.769683 | 0.07678 |
-음/ㅁ:이해하다 | 1.43004 | 0.82638 | 1.730487 | 0.083543 |
줄:생각하다 | 1.155982 | 0.757184 | 1.526686 | 0.126839 |
줄 | 0.801164 | 0.558833 | 1.433636 | 0.151676 |
-다고/라고:보이다 | 0.367171 | 0.271128 | 1.354231 | 0.175663 |
-음/ㅁ:기억하다 | 1.273542 | 1.029122 | 1.237503 | 0.2159 |
것을:깨닫다 | 0.867666 | 0.780138 | 1.112196 | 0.266054 |
-다고/라고 | 0.190856 | 0.18212 | 1.047969 | 0.294653 |
-음/ㅁ:지적하다 | 0.9186 | 1.024448 | 0.896678 | 0.369891 |
것을:지적하다 | 0.622835 | 0.712698 | 0.873912 | 0.382166 |
-음/ㅁ:깨닫다 | 0.798738 | 1.099127 | 0.726702 | 0.467409 |
-다고/라고:예상하다 | 0.178538 | 0.267672 | 0.667003 | 0.50477 |
여기다 | 0.154331 | 0.239319 | 0.644877 | 0.519007 |
것을:원하다 | 0.373628 | 0.601607 | 0.62105 | 0.534567 |
-다고/라고:깨닫다 | 0.494828 | 1.030016 | 0.480408 | 0.630938 |
-다고/라고:이해하다 | 0.134337 | 0.301002 | 0.446299 | 0.655381 |
보이다 | 0.068481 | 0.16172 | 0.423453 | 0.671965 |
-다고/라고:믿다 | 0.031677 | 0.252922 | 0.125243 | 0.900331 |
것을:잊다 | 0.00334 | 0.863135 | 0.00387 | 0.996912 |
것을:희망하다 | -0.01624 | 0.490661 | -0.03309 | 0.973601 |
줄:믿다 | -0.17049 | 0.78668 | -0.21673 | 0.828422 |
-다고/라고:기억하다 | -0.17822 | 0.719839 | -0.24759 | 0.804453 |
것을:확인하다 | -0.3518 | 0.805416 | -0.43679 | 0.662263 |
-다고/라고:여기다 | -0.13867 | 0.279519 | -0.4961 | 0.619826 |
줄:여기다 | -0.66064 | 0.814167 | -0.81143 | 0.417117 |
것을:밝히다 | -0.71481 | 0.858816 | -0.83232 | 0.405227 |
-다고/라고:확신하다 | -0.29841 | 0.357646 | -0.83438 | 0.404069 |
-다고/라고:보다 | -0.20181 | 0.23959 | -0.84231 | 0.399614 |
설명 변수 | 계수(β) | 표준 오차(SE) | z 점수 | Pr( > |z| ) |
-기:잊다 | -0.81515 | 0.909256 | -0.8965 | 0.369984 |
믿다 | -0.21567 | 0.205141 | -1.05131 | 0.293114 |
-음/ㅁ | -0.87121 | 0.784804 | -1.1101 | 0.266957 |
-다고/라고:지적하다 | -0.86418 | 0.687293 | -1.25736 | 0.208622 |
것을:발견하다 | -1.12126 | 0.850741 | -1.31798 | 0.187509 |
-기:원하다 | -0.92974 | 0.581511 | -1.59883 | 0.109858 |
-다고/라고:받아들이다 | -0.48943 | 0.286612 | -1.70765 | 0.087701 |
줄:착각하다 | -1.06873 | 0.609698 | -1.75289 | 0.079621 |
것을:당부하다 | -1.9035 | 1.062194 | -1.79205 | 0.073125 |
-다고/라고:착각하다 | -0.52742 | 0.257189 | -2.0507 | 0.040296 |
-기:희망하다 | -0.81897 | 0.386491 | -2.11898 | 0.034092 |
것을:주장하다 | -2.2189 | 1.027104 | -2.16034 | 0.030746 |
바라다 | -1.40707 | 0.645844 | -2.17865 | 0.029357 |
-다고/라고:요구하다 | -3.08005 | 1.210768 | -2.54388 | 0.010963 |
것을 | -0.63455 | 0.229195 | -2.76862 | 0.005629 |
것을:요구하다 | -3.50603 | 1.170512 | -2.99529 | 0.002742 |
-다고/라고:밝히다 | -2.58056 | 0.839713 | -3.07314 | 0.002118 |
-기:당부하다 | -3.56087 | 1.104531 | -3.22388 | 0.001265 |
줄:알다 | -2.09205 | 0.64168 | -3.26027 | 0.001113 |
인정하다 | -1.41782 | 0.411387 | -3.44643 | 5.68E-04 |
-다고/라고:확인하다 | -3.11257 | 0.884402 | -3.51941 | 4.33E-04 |
-다고/라고:주장하다 | -3.32546 | 0.857163 | -3.87961 | 1.05E-04 |
-다고/라고:생각하다 | -1.04428 | 0.26599 | -3.92602 | 8.64E-05 |
-기:요구하다 | -5.02492 | 1.190099 | -4.22227 | 2.42E-05 |
착각하다 | -1.41627 | 0.183412 | -7.7218 | 1.15E-14 |
3.2.2. 술어와 인칭의 결합
술어가 특정 인칭과 결합할 경우에 확신성에 변화가 있을 수 있다. 보문소와 술어 상호 작용 모델과 동일하게 술어, 모절 주어의 인칭, 술어와 인칭의 상호 작용을 분석하고 확 인할 수 있다. 사실성 술어인 ‘기억하다, 깨닫다, 발견하다, 밝히다, 이해하다, 지적하다, 확인하다, 후회하다’의 경우, 전반적으로 인칭에 따른 뚜렷한 차이가 발견되지 않는다. 한 편, ‘받아들이다, 보다, 보이다, 생각하다, 알다, 여기다, 인정하다, 확신하다’ 등의 비사실 성 술어의 경우 모절 주어의 인칭이 1인칭인 경우 확신성 점수가 조금 더 높은 경향이 있 다.
<그림 14> 인칭에 따른 술어별 응답 평균(전체)
인칭과 술어의 상호 작용 효과를 통계적으로 검증하기 위하여 두 모델의 로그 우도값의 변화량에 대해 통계적 유의성을 검증하였다. 두 모델은 통계적으로 그 변화량의 차이가 유의미하여(p < 0.001), 이런 경우 인칭:술어의 상호 작용 효과가 존재한다고 본다.
<표 38> 술어와 인칭 결합 효과
모델 | McFadden | Cox and Snell(ML) | Nagelkerke (Cragg and Uhler) |
인칭 + 술어 | 0.107210 | 0.324275 | 0.332874 |
인칭 + 술어 + 인칭:술어 | 0.116771 | 0.347485 | 0.356700 |
Likelihood-ratio stat (p.value) | 514.51 (p < 2.2e-16) |
위의 인칭:술어 결합 모델에서 계수(β coefficient)를 살펴보면 다음과 같다. 이와 같은 모델은 1개의 항목이 0으로 고정된 상태에서의 상대적 효과이므로 1인칭에 비해 2인칭이 확신성에 미치는 영향이 작으며, 95% 신뢰 구간에서 통계적으로 유의미하다(p < 0.05).
인칭과 술어와의 결합항 중에서 ‘깨닫다’의 경우에 1인칭과 결합할 때에 비해서 2인칭 과 결합할 경우 확신성에 미치는 영향이 크다(β = 1.50, p < 0.001). 반면, ‘보다’의 경우 에는 1인칭과 결합할 때에 비해서 2인칭과 3인칭과 결합할 경우 확신성에 미치는 영향이 작다(β = -1.36, p < 0.001; β = -1.59, p < 0.001). ‘알다’의 경우 2인칭과 결합할 때 확신성에 미치는 영향이 가장 작게 나타났다(β = -2.88, p<0.001). ‘주장하다’의 경우 3인 칭과 결합할 때 확신성에 미치는 영향이 작다(β = -1.80, p<0.001).
<표 39> 술어와 인칭 결합 모델 계수
설명 변수 | 계수(β) | 표준 오차(SE) | z 점수 | P 점수 |
2인칭 | -0.4164 | 0.2084 | -1.9981 | 0.0457 |
3인칭 | -0.2427 | 0.1486 | -1.6334 | 0.1024 |
기억하다 | 2.8447 | 0.2125 | 13.3880 | 0.0000 |
깨닫다 | 2.3845 | 0.1735 | 13.7398 | 0.0000 |
당부하다 | 1.0233 | 0.2842 | 3.6013 | 0.0003 |
믿다 | 0.0560 | 0.1712 | 0.3273 | 0.7435 |
바라다 | 0.0751 | 0.1505 | 0.4988 | 0.6179 |
받아들이다 | 0.8603 | 0.1672 | 5.1445 | 0.0000 |
발견하다 | 2.2044 | 0.2193 | 10.0541 | 0.0000 |
밝히다 | 2.7848 | 0.2295 | 12.1338 | 0.0000 |
보다 | 1.9292 | 0.1507 | 12.8006 | 0.0000 |
보이다 | 0.0127 | 0.1784 | 0.0714 | 0.9430 |
생각하다 | 0.8877 | 0.1816 | 4.8884 | 0.0000 |
알다 | 2.7961 | 0.1740 | 16.0712 | 0.0000 |
여기다 | 0.7067 | 0.2101 | 3.3642 | 0.0008 |
예상하다 | 2.0010 | 0.1653 | 12.1086 | 0.0000 |
요구하다 | 0.1355 | 0.2946 | 0.4602 | 0.6454 |
원하다 | 0.4716 | 0.1840 | 2.5637 | 0.0104 |
이해하다 | 2.4730 | 0.1519 | 16.2802 | 0.0000 |
인정하다 | 1.3894 | 0.1951 | 7.1230 | 0.0000 |
잊다 | 2.9488 | 0.2347 | 12.5640 | 0.0000 |
주장하다 | 1.4340 | 0.2213 | 6.4802 | 0.0000 |
지적하다 | 2.4559 | 0.1537 | 15.9811 | 0.0000 |
착각하다 | -1.6553 | 0.3382 | -4.8952 | 0.0000 |
확신하다 | 1.4084 | 0.1948 | 7.2291 | 0.0000 |
확인하다 | 3.3209 | 0.1471 | 22.5725 | 0.0000 |
후회하다 | 3.5951 | 0.2219 | 16.2025 | 0.0000 |
희망하다 | 0.9540 | 0.2784 | 3.4270 | 0.0006 |
2인칭:기억하다 | 0.6033 | 0.3185 | 1.8941 | 0.0582 |
3인칭:기억하다 | 0.4327 | 0.2730 | 1.5852 | 0.1129 |
2인칭:깨닫다 | 1.5034 | 0.4395 | 3.4206 | 0.0006 |
3인칭:깨닫다 | 0.4219 | 0.2143 | 1.9690 | 0.0490 |
3인칭:당부하다 | 0.0964 | 0.4491 | 0.2145 | 0.8301 |
2인칭:믿다 | 0.5587 | 0.2721 | 2.0535 | 0.0400 |
3인칭:믿다 | 0.4009 | 0.2137 | 1.8762 | 0.0606 |
2인칭:바라다 | 0.2646 | 0.2621 | 1.0096 | 0.3127 |
3인칭:바라다 | 0.1770 | 0.1920 | 0.9222 | 0.3564 |
2인칭:받아들이다 | 0.9421 | 0.4416 | 2.1336 | 0.0329 |
설명 변수 | 계수(β) | 표준 오차(SE) | z 점수 | P 점수 |
3인칭:받아들이다 | 0.2118 | 0.2263 | 0.9361 | 0.3492 |
2인칭:발견하다 | -0.1446 | 0.3803 | -0.3802 | 0.7038 |
3인칭:발견하다 | -0.0734 | 0.2873 | -0.2553 | 0.7985 |
2인칭:밝히다 | 0.8664 | 0.8760 | 0.9890 | 0.3226 |
3인칭:밝히다 | -0.8388 | 0.2740 | -3.0606 | 0.0022 |
2인칭:보다 | -1.3628 | 0.2572 | -5.2992 | 0.0000 |
3인칭:보다 | -1.5938 | 0.2501 | -6.3716 | 0.0000 |
2인칭:보이다 | -0.1905 | 0.2812 | -0.6775 | 0.4981 |
3인칭:보이다 | 0.4912 | 0.2464 | 1.9935 | 0.0462 |
2인칭:생각하다 | -0.4517 | 0.2814 | -1.6050 | 0.1085 |
3인칭:생각하다 | -0.3597 | 0.2305 | -1.5605 | 0.1186 |
2인칭:알다 | -2.8798 | 0.2939 | -9.7972 | 0.0000 |
3인칭:알다 | -0.3950 | 0.2223 | -1.7766 | 0.0756 |
2인칭:여기다 | -0.5403 | 0.3279 | -1.6478 | 0.0994 |
3인칭:여기다 | -0.6745 | 0.2437 | -2.7679 | 0.0056 |
2인칭:예상하다 | -0.2783 | 0.2821 | -0.9866 | 0.3238 |
3인칭:예상하다 | 0.2488 | 0.2184 | 1.1390 | 0.2547 |
2인칭:요구하다 | 1.1305 | 0.6662 | 1.6969 | 0.0897 |
3인칭:요구하다 | 0.4944 | 0.3415 | 1.4477 | 0.1477 |
2인칭:원하다 | -0.0666 | 0.3024 | -0.2202 | 0.8258 |
3인칭:원하다 | 0.4215 | 0.2243 | 1.8789 | 0.0603 |
2인칭:이해하다 | 0.0734 | 0.4861 | 0.1511 | 0.8799 |
3인칭:이해하다 | -0.1733 | 0.2726 | -0.6359 | 0.5249 |
2인칭:인정하다 | 0.1397 | 0.3491 | 0.4001 | 0.6891 |
3인칭:인정하다 | 0.6942 | 0.2574 | 2.6974 | 0.0070 |
2인칭:잊다 | 0.7961 | 0.5586 | 1.4251 | 0.1541 |
3인칭:잊다 | 0.7021 | 0.3062 | 2.2931 | 0.0218 |
3인칭:주장하다 | -1.8008 | 0.2571 | -7.0048 | 0.0000 |
3인칭:지적하다 | -0.5773 | 0.2242 | -2.5748 | 0.0100 |
2인칭:착각하다 | -0.0527 | 0.4335 | -0.1216 | 0.9032 |
3인칭:착각하다 | 0.1885 | 0.3636 | 0.5184 | 0.6042 |
2인칭:확신하다 | -0.6347 | 0.2929 | -2.1671 | 0.0302 |
3인칭:확신하다 | -0.2645 | 0.2428 | -1.0897 | 0.2759 |
2인칭:확인하다 | -1.2572 | 0.5667 | -2.2187 | 0.0265 |
3인칭:확인하다 | -0.3344 | 0.3418 | -0.9784 | 0.3279 |
2인칭:후회하다 | -0.2105 | 0.3685 | -0.5712 | 0.5679 |
3인칭:후회하다 | 0.0983 | 0.3170 | 0.3100 | 0.7565 |
2인칭:희망하다 | -0.2946 | 0.6330 | -0.4654 | 0.6416 |
3인칭:희망하다 | -0.2516 | 0.3102 | -0.8111 | 0.4173 |
(3)의 예시는 ‘주장하다’를 술어로 하는 담화 중에서 응답 평균이 낮은 것을 제시한 것 이다. 주어가 3인칭이면서 내포문이 부정적인 표현인 ㄱ 담화의 경우, 응답자 8명 모두가 모순(거짓 확신)으로 응답하였다. 신문 말뭉치에서 추출한 ㄴ 담화의 경우, –2라고 응답한 1명을 제외하고는 모두 –3의 점수를 부여하였다.
주어가 1인칭이면서 내포문이 부정적인 표현인 ㄷ 담화의 경우, 연구진은 –3으로 점수 를 부여하였으나, 실제 –3으로 응답한 응답자는 1명에 불과하였다. ㄹ 담화의 경우, 연구 진은 –2로 점수를 부여하였는데, 실제 응답에서는 1명의 응답자가 +3으로, 2명의 응답자 가 0으로 응답하여 응답 평균은 –1이었다. 이러한 예로 살펴보면, ‘주장하다’ 등의 특정 술어의 경우에 주어가 3인칭인 경우에 비해 1인칭인 경우에 내포 명제의 사실성을 조금 더 다양한 관점으로 평가하는 경향이 있어 보인다.
(3) ㄱ. 교육부 장관과 교육수석부터 자기들의 논문 표절·무임승차가 문제 되지 않는다고 주 장한다면 앞으로 대학교수와 연구소 박사들이 다른 사람 연구 실적을 자기 업적인 것처럼 포장해 '자격을 갖췄으니 연구비를 달라'고 할 경우 거절할 명분이 없게 된다. [NRW1900000006.12261.5, 응답 평균: -3]
ㄴ. 대체 대통령 직무의 내용을 알기나 하는 것인지부터가 의심스럽다. 대중의 지지를 얻 기만 하면 정치라고 주장할 것인가. [NPRW1900000008.3838.8, 응답 평균: -2.875]
ㄷ. 물론, 표준어에 대한 원리주의적 강박관념이 없는 나는 삶에서 속어, 은어가 아예 없 어져야 하고 실생활에서 전혀 쓰면 안된다고 주장하지 않을 것이다. [NPRW1900000023.1584.14, 응답 평균: -1.375]
ㄹ. 하지만 성인의 글도 인간의 언어 행위에 의해 발생한 것이다. 과연 인간의 언어 행위 는 영원불변의 진리를 함유하고 있다고 주장할 수 있을까. [NPRW1900000003.11392.5
, 응답 평균: -1]
(4)의 예시는 ‘알다’를 술어로 하는 담화 중에서 응답 평균이 낮은 경우를 제시한 것이 다.
(4) ㄱ. 대철: 아. 물론 인정합니다. 그러나 이 정도 규모의 공장은 질서가 있어야 합니다. 질서가. 고참: 질서 좋아하네. 공장 일이 대가리 굴리고, 펜대나 놀리면 되는 일인 줄 알어? [SERW1900055063.1.14.18, 응답 평균: -2.875]
ㄴ. 이 젊은 친구 얘기하는 것 들었지, 릴리? 내가 당신의 과거를 알면 당신을 버릴 줄 알았소? [WARW1900005681.1.4006, 응답 평균: -2.625]
다음으로는 인칭과 술어의 결합 효과를 말뭉치 종류별로 나누어 살펴본다. 아래는 문어 말뭉치의 경우를 나타낸 것이다. 문어 말뭉치에서는 ‘기대하다’가 1인칭인 경우에 신뢰 구 간 상/하한값이 모두 음수로 나타나 확신성 점수가 낮게 나타났다. 반면, ‘깨닫다’의 경우 에는 모든 인칭의 신뢰 구간 상/하한값이 모두 양수로 나타나 2인칭과 결합할 때 확신성 점수가 높아지는 양상이 관찰되지 않는다.
<그림 15> 인칭에 따른 술어별 응답 평균(문어)
다음은 신문 말뭉치에서 나타난 인칭에 따른 술어별 응답 평균을 나타낸 것이다. 신문 말뭉치에서는 ‘생각하다’가 2인칭인 경우에 신뢰 구간 상/하한값이 모두 양수로 확신성 점수가 높게 나타났다. 반면 ‘알다’는 모든 인칭의 신뢰 구간 상/하한값이 모두 양수로, 인칭이 확신성 점수에 미치는 영향은 관찰되지 않는다.
<그림 16> 인칭에 따른 술어별 응답 평균(신문)
다음은 구어 말뭉치에서의 인칭에 따른 술어별 응답 평균을 나타낸 것이다. ‘바라다’와 ‘여기다’는 2인칭과 결합하는 경우 신뢰 구간의 상/하한값이 모두 음수로 나타나 확신성 점수가 낮았다.
요약해 보면 1인칭의 경우에 확신성 점수가 낮게 나타난 영어와 달리 대체로 확신성 점 수가 높게 나타났다. ‘보다’의 경우는 1인칭을 제외하고는 확신성 점수가 낮게 나타났으 며, ‘알다’는 1인칭과 결합하는 경우에 비해 2인칭과 결합할 때 확신성 점수가 낮아진다. 다만, 이러한 경향은 말뭉치 유형에 따라 다르게 나타나 향후 이와 같은 다양한 조합과 연구 모델에 대한 세밀한 통계 분석 및 연구가 가능할 것으로 기대한다.
<그림 17> 인칭에 따른 술어별 응답 평균(구어)
3.2.3. 보문소와 함의 취소 운용소의 결합
보문소가 부정, 의문, 조건, 양태 등의 함의 취소 운용소와 결합할 때 확신성에 변화가 있을 수 있다. 다음은 보문소와 함의 취소 운용소별 변화를 살펴본 그래프이다. 가장 눈 에 띄는 특징은 ‘줄’이라는 보문소가 부정의 함의 취소 운용소와 결합할 경우에 높은 확 신성 점수에 기여한다는 점이다. 그리고 의문, 양태 등의 함의 취소 운용소와의 결합에서 는 낮은 확신성 점수에 기여한다. 조건과의 결합은 뚜렷한 양상을 보이지 않는다.
한편, 본 사업에서는 함의 취소 운용소가 여러 개의 역할로 해석될 수 있는 경우에는 해당 내용을 모두 표현하되, 가장 대표되는 항목이 무엇인지를 명시하였다. 이러한 표기 원칙에 의거하여, 아래 그래프에서 핵심 함의 취소 운용소는 대표 정보를 의미하여, 전체 는 모든 결합을 의미한다.
<그림 18> 보문소 + 함의 취소 운용소 결합 유형별 응답 평균(전체)
<그림 19> 보문소 + 핵심 함의 취소 운용소 결합 유형별 확신성 변화 양상(전체)
보문소와 함의 취소 운용소의 상호 작용 효과를 통계적으로 검증하기 위하여 두 모델의 로그 우도값의 변화량에 대해 통계적 유의성을 검증하였다. 두 모델은 통계적으로 그 변 화량의 차이가 유의미하여(p < 0.001), 보문소와 함의 취소 운용소 결합의 상호 작용 효 과가 존재한다고 볼 수 있다.
<표 40> 보문소와 함의 취소 운용소 결합 효과
모델 | McFadden | Cox and Snell(ML) | Nagelkerke (Cragg and Uhler) |
보문소 + 함의 취소 운용소 | 0.0746538 | 0.2426660 | 0.2486730 |
보문소 + 함의 취소 운용소 + 보문소:함의 취소 운용소 | 0.0884875 | 0.2806850 | 0.2876330 |
LR.stat (P.value) | 758.16 (4.0359e-146) |
위의 보문소:함의 취소 운용소 결합 모델에서 계수(β coefficient)를 살펴보면 다음과 같다. 이와 같은 모델은 1개의 항목이 0으로 고정된 상태에서의 상대적 효과이다. 예를 들어, ‘것으로(단)’에 비해 ‘것으로(장)’이 확신성에 미치는 영향은 낮다(β = -1.7220, p < 0.05). 또한 ‘것으로(단)’에 비해 ‘것을(단)’ 및 ‘것을(장)’이 확신성에 미치는 영향은 매우 높다(β = 2.7621, p < 0.001 , β = 2.1982, p < 0.001). 부정에 비해 양태, 의문, 조건이 확신성에 미치는 영향이 높으며, 통계적으로 유의미하다(β = 1.2058, p < 0.001; β = 0.5692, p < 0.001; β = 0.3804, p < 0.005).
보문소와 함의 취소 운용소와의 결합항 중에서 ‘줄’의 경우, 부정과 결합할 때에 비해서 양태, 의문과 결합할 때 확신성이 낮아진다(β = -5.0959, p < 0.001; β = -4.1876, p < 0.001).
앞서 ‘알다’를 포함한 담화 예시에서 살펴본 바와 같이 대화체 문장에서 ‘줄’이라는 보 문소는 특히 의문과 결합하여 반확신성을 전달한다.
<표 41> 보문소와 함의 취소 운용소 결합 모델의 계수
설명 변수 | 계수(β) | 표준 오차(SE) | z 점수 | P 점수 |
-음/ㅁ | 3.0632 | 0.1506 | 20.3333 | 0.0000 |
것을(장) | 2.7621 | 0.1421 | 19.4381 | 0.0000 |
것을 | 2.1982 | 0.1170 | 18.7857 | 0.0000 |
줄 | 3.3959 | 0.1824 | 18.6131 | 0.0000 |
양태 | 1.2058 | 0.1227 | 9.8284 | 0.0000 |
-기 | 0.7522 | 0.1396 | 5.3874 | 0.0000 |
설명 변수 | 계수(β) | 표준 오차(SE) | z 점수 | P 점수 |
의문 | 0.5692 | 0.1228 | 4.6367 | 0.0000 |
것으로(장):양태 | 3.3521 | 0.7587 | 4.4184 | 0.0000 |
-다고:양태 | 0.6153 | 0.1581 | 3.8922 | 0.0001 |
-라고 | 0.4901 | 0.1388 | 3.5312 | 0.0004 |
조건 | 0.3804 | 0.1430 | 2.6600 | 0.0078 |
-다고:조건 | 0.2111 | 0.1794 | 1.1767 | 0.2393 |
-다고:의문 | 0.0658 | 0.1679 | 0.3920 | 0.6951 |
-라고:양태 | -0.0410 | 0.1675 | -0.2448 | 0.8066 |
-다고 | -0.1806 | 0.1265 | -1.4273 | 0.1535 |
-라고:조건 | -0.3168 | 0.1947 | -1.6268 | 0.1038 |
것을(장):조건 | -0.4615 | 0.2040 | -2.2617 | 0.0237 |
것으로(장) | -1.7220 | 0.6340 | -2.7161 | 0.0066 |
것을:양태 | -0.4214 | 0.1501 | -2.8065 | 0.0050 |
-기:조건 | -0.5912 | 0.1969 | -3.0027 | 0.0027 |
-음/ㅁ:조건 | -0.6987 | 0.2073 | -3.3711 | 0.0007 |
것을(장):의문 | -0.8025 | 0.2199 | -3.6493 | 0.0003 |
-라고:의문 | -0.7134 | 0.1779 | -4.0088 | 0.0001 |
것을:의문 | -0.7754 | 0.1774 | -4.3701 | 0.0000 |
-기:양태 | -0.7776 | 0.1668 | -4.6618 | 0.0000 |
것을(장):양태 | -0.8197 | 0.1714 | -4.7823 | 0.0000 |
것을:조건 | -0.9041 | 0.1853 | -4.8781 | 0.0000 |
줄:조건 | -2.0997 | 0.3857 | -5.4433 | 0.0000 |
-기:의문 | -1.0817 | 0.1926 | -5.6157 | 0.0000 |
-음/ㅁ:의문 | -1.7762 | 0.2922 | -6.0785 | 0.0000 |
-음/ㅁ:양태 | -1.1788 | 0.1741 | -6.7711 | 0.0000 |
줄:의문 | -4.1876 | 0.2459 | -17.0316 | 0.0000 |
줄:양태 | -5.0959 | 0.2685 | -18.9799 | 0.0000 |
3.2.4. 인칭과 시제 분석
담화의 시제에 따라서도 확신성은 달라질 수 있다. 본 사업에서는 연구자들이 내포절과 모문의 시제를 과거, 현재, 미래로 분류하여 언어 정보를 부착하였다. 또한 de Marneffe et al.(2019)에서와 같이 내포절이 모절보다 이전 시점인 경우는 과거, 내포절과 모절이 같은 시점인 경우는 현재, 내포절이 모절보다 이후의 시점인 경우는 미래로 하는 비교 시 제 정보 역시 부착하였다. 본 분석은 모절과 내포절의 비교 시제 정보를 기반으로 한다.
다음은 인칭과 시제별로 확신성에 대한 응답 평균 및 신뢰 구간을 제시하는 그래프를 사실성 술어, 비사실성 술어, 반사실성 술어로 구분하여 제시한 것이다. <그림 20>를 보
면 내포절이 과거의 사실에 대한 내용일 경우에 현재 및 미래에 대한 내용에 비해 다소 높은 확신성 점수를 보이고 있다. 그리고 술어의 주어가 1인칭인 경우에 확신성 점수가 더 높았다. 술어별로 살펴본 <그림 21>에서 <그림 23>까지를 보면 예상과 같이 사실성 술어의 경우에 확신성 점수가 전반적으로 높다. 반사실성 술어와 비사실성 술어를 비교하 면 현재에 대해서는 반사실성 술어는 전반적으로 거짓 확신을 전제함에 비해, 미래에 대 해서는 비사실성 술어의 2인칭의 경우만 거짓 확신을 전달한다.
<그림 20> 시제와 모문 주어 인칭별 응답 평균 및 신뢰 구간
<그림 21> 시제와 모문 주어 인칭별 응답 평균 및 신뢰 구간(사실성 술어)
<그림 22> 시제와 모문 주어 인칭별 응답 평균 및 신뢰 구간(비사실성 술어)
<그림 23> 시제와 모문 주어 인칭별 응답 평균 및 신뢰 구간(반사실성 술어)
3.2.5. 함의 취소 운용소와 말뭉치 유형별 분석
말뭉치 유형별로 함의 취소 운용소의 역할은 다를 수 있다. 다음은 말뭉치 유형별로 함 의 취소 운용소별 변화를 살펴본 그래프이다. 문어 말뭉치의 경우 다양한 함의 취소 운용 소에도 불구하고 화자의 내포절에 대한 확신성은 전반적으로 높다. 신문 말뭉치의 경우,
의문과 조건문으로 표현된 경우 확신성이 낮아진다. 가장 특징적인 부분은 구어 말뭉치인 데, 의문으로 표현된 경우 확신성이 낮아진다. 참고로 de Marneffe et al.(2019)의 말뭉 치 유형별로 제시한 분석에서는 구어 말뭉치(Switchboard Coherence Corpus)에서 부 정으로 표현된 경우 확신성 점수의 95% 신뢰 구간 상하한 값이 모두 0보다 작다. 즉, 한 국어의 구어적 표현에서는 반확신성을 전제하는 표현으로 부정이 아닌 의문이 더욱 강하 게 작용한다고 볼 수 있을 것이다.
<표 42> 함의 취소 운용소와 말뭉치 유형별 응답 평균 및 신뢰 구간
말뭉치 유형 | 함의 취소 운용소 | 평균 | 95% 신뢰 구간 하한 | 95% 신뢰 구간 상한 |
문어 | 부정 | 0.7265 | 0.6124 | 0.8405 |
문어 | 양태 | 1.3359 | 1.2615 | 1.4102 |
문어 | 의문 | 0.0557 | -0.1005 | 0.2119 |
문어 | 조건 | 0.4767 | 0.3503 | 0.6031 |
신문 | 부정 | 0.4371 | 0.3081 | 0.5662 |
신문 | 양태 | 1.1543 | 1.0727 | 1.2359 |
신문 | 의문 | -0.1178 | -0.2815 | 0.0460 |
신문 | 조건 | -0.2351 | -0.3578 | -0.1124 |
구어 | 부정 | 0.2374 | 0.0619 | 0.4128 |
구어 | 양태 | 1.4424 | 1.3472 | 1.5377 |
구어 | 의문 | -0.4944 | -0.6143 | -0.3744 |
구어 | 조건 | 0.9972 | 0.7702 | 1.2242 |
<그림 24> 함의 취소 운용소와 말뭉치 유형별 응답 평균 및 신뢰 구간
4. 결과 분석 요약
본 장에서는 문어, 신문, 구어 등 말뭉치 유형별 담화 응답에 대해 술어 유형, 술어, 보 문소, 보문소와 술어의 결합, 함의 취소 운용소, 양태별로 응답의 기초 통계를 제시하고, 각 설문 응답에 대한 응답 양상에 신뢰 구간에 기반하여 레이블을 부여하였다. 본 연구에 서 제안하는 방법을 적용하면 전제와 대상 문제 쌍의 관계에 대해 함의 관계는 전체의 50%(904건), 중립 관계는 28%(508건), 모순 관계는 22%(388건) 정보가 존재한다. 만약 레이블을 응답자의 80% 이상이 1에서 3까지, -1에서 –3까지, 그리고 0이라는 3가지 구 간 중 한 가지 구간 내로 응답한 것으로 한정하게 되면(de Marneffe and Jiang, 2019), 전체 1,800개의 60% 수준인 총 1,088개의 담화가 남게 되며, 이 중에서 함의 관계는 71%(777건), 중립 관계는 0%(4건), 모순 관계는 28%(307건) 정보가 존재하게 된다. 담화 별로는 모든 응답자가 동일하게 응답하는 일관성이 높은 문항도 있으나, 응답이 한쪽으로 치우지지 않고 구분되는 문항 역시 존재하였다.
또한 전체 총 1,800개 담화를 활용하여 담화에 포함된 대상 문장의 확신성에 영향을 주 는 요인들을 탐색하고 전제 투사에 대해 각 요소가 미치는 영향을 평가하였다. 서수 혼합 모델을 활용하여 수립된 데이터를 각 요인별로 분석한 결과, 말뭉치의 유형, 시제, 인칭, 함의 취소 운용소들이 확신성에 미치는 영향이 낮음에 비해, 술어 유형과 술어의 영향이 상대적으로 높았다. 또한 술어 유형에 비해, 술어 모델의 설명력이 가장 높았다(R² = 0.312). 각 요인들 간의 상호 작용 효과(interaction effect) 역시 분석하였으며, 술어, 인 칭, 술어 유형, 시제, 말뭉치 유형 등을 결합하여 교호 효과를 살펴보았는데, 이 과정에서 한국어에 특징적인 보문소를 추가하여 살펴보았다. 예상했던 바와 같이 술어와 보문소의 결합 모델에 대한 설명력이 가장 높았으며(R² = 0.389), 보문소가 함의 취소 운용소와 결 합한 경우의 설명력 역시 확인하였다(R² = 0.287). 절대적인 수치가 높은 것은 아니지만 술어만을 요인으로 한 모델의 설명력이 비교적 높은 반면(R² = 0.312), 함의 취소 운용소 를 요인으로 한 모델의 설명력은 거의 없다는 점(R² = 0.070)에 비추어 볼 때, 한국어에 서는 보문소를 어떠한 맥락에서 사용되었는지에 따라 화자의 확신성이 크게 달라질 수 있 다고 할 수 있다.
술어의 경우, 사실성을 전달하는 사실성 술어와 비사실성 술어 이외에 거짓 확신인 반 사실성을 전달하는 반사실성 술어의 종류를 추가하여 이를 분석에 포함하였다. 이와 같은 분류는 대상 선정 과정에서 연구진들의 논의 및 시범 분석을 통하여 가능성을 확인하고 수행된 것이다. 술어 유형을 요인으로 하는 모델의 설명력은 예상했던 바와 같이 술어보 다 높지 않았다(R² = 0.214). 실제로 각 술어에 포함된 담화의 점수를 살펴보면 ‘주장하 다’는 사실성 술어로 분류하였으나, 뚜렷한 사실성 술어로 분류될 수 있는 ‘이해하다’와 달리 절반 이상의 담화에서 반사실성을 전제하고 있었다. 또한 이와는 대응되는 관점으로 반사실성 술어로 분류한 ‘착각하다’가 대부분의 문장에서 반사실성을 전달하였으나 역시 같은 반사실성 술어로 분류한 ‘예상하다’는 오히려 사실에 대한 확신성을 전달하는 등 술
어 유형별로 일치된 양상을 보이지 않고 있음을 확인할 수 있었다.
술어와 보문소의 결합항에 대한 계수(coefficient)가 높고 표준 오차가 낮은 결합 유형 으로는 ‘~것을:인정하다’(β = 4.676, p < 0.001), ‘~것을:후회하다’(β = 3.579, p < 0.001) 등이 확신성 점수가 높았다. ‘인정하다’를 비사실성 술어로 분류하였음에도 불구하고 이처 럼 높은 확신성 점수에 기여한 이유는 보문소 ‘것을’에 기인한다고 할 수 있을 것이다.
술어와 보문소 결합항에 대한 계수(coefficient)가 낮고 표준 오차가 낮은 결합 유형 계 수로는 ‘~기:요구하다’ (β = -5.024, p < 0.001)와 ‘~다고/라고:생각하다/주장하다/확인하 다’(β = -1.044, p < 0.001; β = -3.325, p < 0.001; β = -3.112, p < 0.001) 등이 있
다. 여기서 ‘생각하다/주장하다/확인하다’ 등은 각각 비사실성 술어(‘생각하다, 주장하다’), 사실성 술어(‘확인하다’)로 분류한 술어들이다. 역시 이처럼 거짓 확신을 전달하는 이유는 보문소 ‘-다고/라고’에 기인한다고 할 수 있을 것이다.
술어와 인칭, 그리고 술어 유형과 시제와의 상호 작용 효과 역시 확인하였는데, 술어별 로 분명한 인칭에 따른 확신성의 차이가 있는 것으로 분석되었다. 특히 ‘알다’의 경우 2인 칭과 결합할 때 낮은 확신성 점수에 영향을 미치는 것으로 나타났다. 술어 유형의 설명력 은 술어와 비교해서는 낮은 수치이지만, 시제와 인칭과 결합한 경우에 독특한 양상이 발 견되는 것을 확인하였는데, 반사실성 술어는 내포절과 모절이 동일한 시점(현재)인 경우 인칭에 관계 없이 모두 반사실성을 전제하고 있다
보문소와 함의 취소 운용소의 결합에 대해서는 한국어의 ‘줄’의 독특한 기능을 통계적 으로 확인할 수 있었는데, ‘줄’의 경우 부정에 비해서 양태 및 의문과 결합할 때 거짓 확 신성이 커진다(β = -5.0959, p < 0.001; β = -4.1876, p < 0.001).
마지막으로 유형별 함의 취소 운용소에 대해서는 구어 말뭉치에서 의문 함의 취소 운용 소와 반응하여 반확신성 정도가 커지는 반면, 신문 말뭉치에서는 조건 함의 취소 운용소 와 반응하여 반확신성 정도가 커진다. 영어의 구어 말뭉치에서 부정의 함의 취소 운용소 에 반응하여 반확신성 정도가 커지는 현상과 대비되는 한국어 구어체의 독특한 특성이라 고 볼 수 있을 것이다.
제 5 장
결론