별로 저자, 출판사, 출판연도, 주제별 분류 정보 등의 메타 정보가 기록된 헤더 정보를 부착하여 XML 형식의 텍스트 파일로 저장하였다.
국립국어원 2019-01-19
11-1371028-000780-01
발 간 등 록 번 호
문어 말뭉치 xx 자료 수집
사업 책임자 x x x
x 출 문
국립국어xx 귀하
국립국어원과 체결한 용역 계약에 따라 ‘문어 말뭉치 xx 자료 수집’에 관한 용역 보고서를 작성하여 xx합니다.
■ 사업기간: 2019년 05월 ~ 2019년 11월
2019 년 11 월 30 일
사업 책임자: x x 영 (주식회사 xx)
사업 수행자 ㈜ xx, ㈜ 엠오에스에이 사업 책임자 xxx
사업 참여자 xxx, xxx, xxx, xxx,
xxx, xxx, xxx, xxx, xxx, xxx, xxx
<사업 수행자> ㈜ xx, ㈜ 엠오에스에이
사업 책임자 | xxx((주)xx 솔루션사업본부 부장) |
사업 참여자 | xxx((주)xx 솔루션사업본부 부장) |
xxx((주)xx 솔루션사업본부 차장) | |
xxx((주)xx 솔루션사업본부 차장) | |
xxx((주)xx 솔루션사업본부 과장) | |
xxx((주)xx 솔루션사업본부 xx) | |
xxx((주)xx 솔루션사업본부 사원) | |
xxx((주)xx 솔루션사업본부 사원) | |
xxx((주)엠오에스에이 데이터사이언스팀 부장) | |
xxx((주)엠오에스에이 데이터사이언스팀 과장) | |
xxx((주)엠오에스에이 데이터사이언스팀 사원) | |
xxx((주)엠오에스에이 데이터사이언스팀 사원) |
<국문 xx>
문어 말뭉치 xx 자료 수집
국립국어원의 말뭉치 구축 사업은 4차 산업xx에 xx한 우리말 빅데이터(말뭉치)를 구축하는 사업이다. 이는 향후 4차 산업xx 시대의 인공지능 서비스 개발 및 xx 혁 신을 위한 중요 자료로 xx하기 위한 기반을 다지는 사업으로서의 xx가 xx 큰 사 업이라고 할 수 있다. 국어 빅데이터(말뭉치) 구축 사업의 xx으로 xx된 본 사업은 다양한 분야의 책, 잡지, 보고서 등 문어 자료를 모아 말뭉치로 구축하여 국어 인공지 능 개발 산업과 국어 xx 등에서 공공 자료로 자유롭게 활용할 수 있도록 하는 데 그 목적이 있다.
본 사업에서는 xx 한국어의 다양한 xx xx을 반영하는 말뭉치를 구축하기 위해 먼저 xx 저작물을 xxx고, 구축된 말뭉치가 인공지능 및 언어 처리 산업 발전, 국 어 xx 등에 자유롭게 xx될 수 있도록 저작권자와 저작물 xx 허락 계약서 체결을 통해 저작권 xx를 해결하였다.
xx 저작물 xx 시에는 특정 저자나 출판사의 xx과 특정 xx에 xx치지 않도록 하였다. 총 1,226개 출판사의 20,053종 저작물 xx을 수집하였으며, 도서 xx십진분류 법의 대분류 비율을 고려하여 주제별로 저작물이 고르게 분포될 수 있도록 하였다. 시 기적으로는 xx 한국어 문어의 xx xx을 반영할 수 있도록 주로 2000년 이후x x 판물을 xxx여 수집하였다.
xx된 저작물은 국립국어원이 말뭉치로 구축하여 xx 및 xx 개발용으로 xx, 연 xxx, 산업체 등에 배포하기 위해 필요한 복제권, xxx, 배포권, 2차적 저작물 작성 xx 범위에 대해 저작권자와 저작물 xx 허락 계약을 체결하였다.
xx으로 xx된 저작물은 말뭉치로 구축하기 위해 전자책 xx의 xx로부터 xx 텍스트를 추출한 후, xx된 데이터와 실제 xx의 정합성 및 이상 xx 검증을 xx 하였다. xx 텍스트 xx 작업은 저작권자 및 출판사별로 다른 전자책 xx의 구조를 파악하여 소프트웨어를 xx하여 xx하였다. 검증 작업은 xx된 xx의 누락 여부 등을 확인하기 위해 1차적으로 전자책 xx과의 어절 빈도 비교를 통해 xx하였으며, 2차적으로는 표본을 xxx여 수작업으로 이상 xx를 검증하였다. 검증이 완료된 저 작물 xx 자료는 문어 말뭉치 xx 자료 구축 지침에 따라 파일명을 부여하고 저작물
별로 저자, 출판사, 출판xx, 주제별 분류 xx 등의 메타 xx가 xx된 헤더 xx를 부착하여 XML xx의 텍스트 xx로 저장하였다.
위의 절차를 거쳐 최종적으로 저작물 20,053종, 어절 수로는 676,386,600 어절의 문어 말뭉치 xx 자료를 수집하였다.
매체별로는 ‘책-xx’가 14,649종, 전체의 73%로 가장 많으며, 다음으로 ‘책-x x’이 4,919종으로 전체의 24.5%, ‘잡지’가 412종으로 전체의 2.1%, 마지막으로 보 고서 등의 ‘기타’가 73종으로 전체의 0.4%에 해당된다.
xx별로는 2000년 이전 저작물이 457종으로 2.3%를, 2001년에서 2008년 사이의 저작 물이 13,350종으로 66.5%, 2009년에서 2013년 사이의 저작물이 3,759종으로 18.8%에 해 당된다. xx 5년에 해당하는 2014년에서 2019년 사이의 저작물은 2,487종으로 전체 12.4%를 차지한다. ‘21xx xx계획’에서는 주로 1900년과 2000년대 초반의 저작물 들이 말뭉치로 구축되었는데 이번 문어 말뭉치 xx 자료 수집 사업을 통해 2000년 이후 xx 한국어 문어의 xx xx을 반영할 수 있는 xx의 말뭉치를 구축하여 국어 xx 및 언어 처리 산업에 활용할 수 있는 토대를 마련하였다.
주요어: 문어 말뭉치, xx 한국어, xx성, 다양한 xx
차 례
제1장 서론
1. 사업 목적 3
2. 사업 xx 범위 4
3. 사업 xx 절차 6
4. 사업 xx xx 7
제2장 사업 xx xx
1. xx 저작물 수집 및 xx 11
2. 저작권 xx 허락 계약 체결 16
3. xx xx 및 xx 19
제3장 사업 xx 결과
1. 장르별 수집 결과 35
2. 주제별 수집 결과 37
3. xx별 수집 결과 38
4. 결론 40
<부록1> 국가 언어 자원(말뭉치) 구축 및 xx 저작권 xx 허락 계약서
<부록2> xx 자료 수집 저작물 출판사 목록
표 차례
<표 | 1> | 사업의 주요 범위와 과업 xx 4 |
<표 | 2> | 전자 도서와 종이책 서지 xx 비교 13 |
<표 | 3> | xx십진분류표 14 |
<표 | 4> | 저작권 xx 허락 계약 체결 xx 16 |
<표 | 5> | 전자책 xx xx의 장단점 비교 20 |
<표 | 6> | 제외 xx xx xx xx 23 |
<표 | 7> | <title> 태그에 포함된 제외 xx xx 24 |
<표 | 8> | <class> 태그에 포함된 제외 xx xx 25 |
<표 | 9> | 제외 xx 기타 태그 xx 26 |
<표 | 10> | 각 xx 요소의 표준 태그와 비표준 태그 27 |
<표 | 11> | 파일명 또는 태그 오류 예시 27 |
<표 | 12> | 파일명 부여 규칙 29 |
<표 | 13> | 장르별 수집 결과 35 |
<표 | 14> | 저작물의 xx xx별 분포 36 |
<표 | 15> | ‘책-xx’ 장르의 주제별 분포 37 |
<표 | 16> | 간행 xx별 수집 결과 38 |
xx 차례
<xx | 1> | 사업 xx xx 및 목표 3 |
<xx | 2> | 사업 xx xx 7 |
<xx | 3> | xx 저작물 xx 절차 11 |
<xx | 4> | xx xx 저작물 서지 xx xx 12 |
<xx | 5> | 저작권 xx 허락 계약 절차 17 |
<xx | 6> | PDF xx로 제작된 전자책 예시 21 |
<xx | 7> | PDF xx의 전자책 xx을 ePUB으로 변환한 예시 21 |
<xx | 8> | 섹션(section) 구조의 ePUB xx xx 22 |
<xx | 9> | xx번호 구조의 ePUB xx xx 22 |
<xx | 10> | 장별로 분리된 구조의 ePUB xx xx 22 |
<xx | 11> | 고유번호와 별도 표지로 구성된 구조의 ePUB xx xx 23 |
<xx | 12> | 목차가 별도 xx로 독립되지 않은 예시 24 |
<xx | 13> | 제외 xx의 <class> 태그 xx 예시 25 |
<xx | 14> | 원본 전자책의 손상된 글자 28 |
제 1 장
서 론
1. 사업 목적
국립국어원의 말뭉치 구축 사업은 2007년 “21xx xx 계획” 이후 중단되었던 대규모 국가 말뭉치 구축 사업을 10년 만에 재개하는 것으로, 향후 4차 산업xx 시대의 인공 지능 서비스 개발 및 xx xx을 위한 중요 자료로 xx하기 위한 기반을 다지는 사 업이다.
본 사업은 4차 산업xx 기반 xx 개발 xx을 위한 문어 말뭉치 구축을 위해 xx 한국어 문어가 xx된 xx 자료를 수집하는 사업으로, 본 사업을 통하여 수집된 xx 자료로 대규모 문어 말뭉치를 구축하여 자유롭게 활용할 수 있는 xxx로 제공함으로 써 한국어 인공지능 xx 발전의 토대를 구축하는 데 그 목적이 있다.
<xx 1> 사업 xx xx 및 목표
2. 사업 xx 범위
본 사업의 xx 목표는 실제 언어생활을 반영하는 말뭉치를 구축하기 위해 신xx 제 외한 책, 잡지, 기타 문서 등의 문어(文語) 저작물 xx 3.4억 어절 이상 수집하고 구축 된 말뭉치가 자유롭게 xx될 수 있도록 저작물에 xx xxx을 확보하는 것이다.
이 목표를 xx하기 위한 xx 범위는 크게 네 부분으로 나눌 수 있다. 첫째는 xx 한국어 사용자의 일반적인 언어 xx xxx 반영되어 있고, 다양한 xx를 포괄xxx xx 저작물을 xxx여 목록을 작성하는 것이다. 둘째는 xx 저작물의 디지털 xx을 수집하고 말뭉치 구축 및 xx에 필요한 xx 권리를 확보하는 것이고, 셋째는 xx 허 락 계약이 체결된 저작물 xx 자료의 훼손 또는 xx 누락 여부 등을 검수x x 말뭉 치 구축을 위한 xx로 xx을 변환하는 것이다. 넷째는 구축된 저작물 xx xxx x 목, 저자, 출판사, 출판xx 등 메타 xx를 구축하는 것이다.
매체 | 장르 | 권장 비율 |
책-xx | xx(xx, xx) | 10%~40% |
책-xx | 총류, xx, 종교, 사회과학, xx과학, xx과학, xx, 어학, 역사, 아동 등 | 50%~80% |
잡지 | 20% 이내 | |
기타 | xx 문서 및 보고서, 각종 비출판 문서 등 | 10% 이내 |
<표 1> 사업의 주요 범위와 과업 xx
주요 사업 범위 과업 xx | |
xx 저작물 xx | - 원칙: 문어 말뭉치 구축을 위한 xx 자료는 xx 한국어 사용자의 일반적인 언어 xx xxx 반영되어 있고, 다양한 xx를 포괄하 xx xxx xx성 있게 xx - 저작물 xx 권장 비율 |
저작권 확보 | - 국립국어원에서 제공하는 xx 허락 계약서 xx을 기본으로 하여 저작물별로 법률 검토 후 저작권 xx 허락 계약서 작성 - 저작권 xx 허락 범위 · 저작물의 xx 목적: 말뭉치 구축 및 xx · 저작물 xx 기간: 영구적, 또는 준영구적 |
1. 국립국어원 및 국립국어원이 발주한 용역 사업의 수행자가 x x 저작물을 일정한 xx으로 전자적 xx 매체에 담아 보존하 는 일 2. 국립국어원 및 국립국어원이 발주한 용역 사업의 수행자가 x x, 음절, 어휘, 어절, 구절, 문장 및 텍스트 단위의 국어 xx와 언어 xx 처리 분야에 xx하기 위해 xx 저작물을 xx·x x(목차·머리말·도표·xx·각주 등의 편집 및 삭제, 언어 단위별 분리, 언어적·비언어적 xx 부착 등)하는 일 3. 국립국어원 및 국립국어원이 발주한 용역 사업의 수행자가 x x 저작물 및 그 xx·xx물을 xx 및 xx 개발용으로 xx· 연xxx·산업체 등이 이용할 수 있도록 제공·배포하는 일 4. xx저작물 및 그 xx·xx물을 제공·배포 받은 xx·연xx 관·산업체 등이 국어 xx와 언어 xx 처리 분야 xx을 위하 여 xx 저작물 및 그 xx·xx물을 분석 및 처리하여 xx하 는 것을 허락하는 일 | |
자료 변환 및 xx xx | - 저작물 xx xx xx은 텍스트 xx이어야 하며 UTF-8로 인코딩 하여 저장하고, 국립국어원이 제시하는 xx으로 파일명 부여 |
데이터 검증 | - 저작물 텍스트 xx xx의 훼손 또는 xx 누락 여부 등을 검수 하여 한 권당 xx의 xx로 저장 - ‘목록 xx번호, xx, 저자, 출판사, 출판xx’ 등 메타 xx 기입 |
3. 사업 xx 절차
본 사업은 저작물 xx, 저작권 확보, 자료 변환 및 xx xx, 데이터 검증의 네 단계 로 xx되었다.
첫 번째 단계인 xx 저작물 xx에서는 문어 원시 말뭉치 구축 xx의 저작물을 xx 하는 것이다. 출판사, 유통사 등의 저작권자와의 협의를 통해 말뭉치 구축을 위한 저작 물 xx xx 의사를 타진하고 의사가 있는 저작권자의 저작물 목록을 제공받아 취합한 뒤 xx 저작물 xx 목록을 작성한다. 작성된 xx 저작물 xx 목록x x행사에서 1 차적으로 검토하여 부적절한 저작물을 제외한 후 국립국어원에서 최종적으로 xxx다.
두 번째 단계는 저작권자에게 말뭉치 구축 및 xx을 위한 저작물 xx xx를 확보하 는 단계이다. xx된 저작물에 대해서 xx을 xx할 디지털 xx을 받은 후 저작권자 에게 xx을 지불하고 저작물 xx xx 계약을 통해 저작권을 확보한다. 저작권 xx 허락 계약은 저작권자별로 체결하며 계약서의 신뢰성을 담보하기 위해 xx 산출물 x x 시에 계약서 공증을 xx한다.
세 번째 단계로는 xx된 저작물 자료 변환 및 xx xx 작업을 xx한다. 저작물 원 본 자료에 파일명 부여 규칙에 따른 파일명을 부여하고 xx 저작물의 전자책 xx (ePUB)을 취합x x xx xx xx를 작성한다. 전자책 xx에서 저작물 xx 본문을 xx하여 텍스트 xx로 변환한다.
마지막은 데이터 검증 단계이다. 이 단계에서는 xx된 xx xx의 훼손 및 xx 누 락이 없는지, xx 지침에 따라 정상적으로 변환되었는지를 소프트웨어를 xx한 xx 도 어절 비교 검증 및 표본 검수를 통해 검증x x 국립국어원의 지침에 따라 메타 정 보를 입력하여 구축한다.
위의 절차는 목표로 하는 xx과 분량의 xx 자료 xx 및 구축이 완료될 때까지 반 복 xx되며, 이러한 xx의 xx은 국립국어원과의 유기적인 협조를 통해 xx한다.
4. 사업 xx xx
본 사업은 다음의 사업 xx xx을 xx하여 xx되었다. xx 작업 xx을 xx하기 위하여 xx 작업별 xx xx 목록을 별도로 xx xx함으로써 목표에 xx이 발생하 지 않도록 사업을 xx하였다.
<xx 2 사업 xx xx>
2019년 5월 22일 착수 보고를 기점으로 사업이 시작되었으며, 종료 보고는 2019년 11 월 20일 xx하였다. 정상적인 사업의 xx을 위하여, xx 주간 보고 및 xx 월간 보 고를 xx하였으며, 특이 사항에 xx 별도의 수시 보고를 xx하였다. 산출물에 xx xx은 전체 4차에 걸쳐 이루어졌다.
제 2 장
사업 xx xx
1. xx 저작물 수집 및 xx
본 사업에서 수집해야 할 xx 매체는 출판물로, ‘책’이 | 대부분을 | xxx며 일부 |
잡지와 보고서 등의 기타 출판물로 xx된다. 수집 xx | 저작물은 | 전자책 xx로 |
출판된 단행본을 xx으로 하였다. |
xx 저작물 수집 및 xx 절차는 다음 xx 3 과 같다.
<xx 3> xx 저작물 xx 절차
xx 저작물 수집을 위해 가장 먼저 xx해야 하는 일은 저작권자와의 협의이다. 출판사, 유통사 등 저작권 대행사들을 xx으로 국립국어원의 말뭉치 구축 및 배포를 위한 저작물 xx xx 의사를 타진하고 참여 의사가 있는 저작권자의 저작물 목록을 xx하여 취합하였다.
취합된 저작물에 대해서는 xx xx 4 와 같이 저작물의 xx과 저자, 출판사, 발행 xx, 매체 분류, xx 분류, 저작권자에 xx 서지 xx를 xx하여 목록화하였다. xx과 저자, 출판사, 발행 xx 등의 서지 xx는 국립xx도서관 소장 자료의 서지 xx를 xx으로 확인하였으며, xx 분류는 국립xx도서관 도서 xx의 xx 분류 xx 중 xx십진분류법을 xx으로 xx 대분류, 중분류, 소분류를 명시하였다.
<xx 4> xx xx 저작물 서지 xx xx
국립국어원에서는 말뭉치의 언어 xx xx를 파악할 수 있도록 서지 xx 중 발행 xx의 xx 종이책 초판 발행을 xx으로 기입할 것을 xx하였다. 그러나 본 사업에서는 출판사나 전자책 유통사로부터 전자 저작물을 수집하여 xx을 xx하였는데, 그 전자 저작물의 원본 서적의 출판xx를 찾는 것은 불가능하였다. 따라서 전자출판 저작물의 발간일을 xx으로 xx xx를 기입할 수밖에 없었는데, 출판사나 저작권자별로 전자출판 저작물의 발행일 xx도 다음과 같이 다양하게 존재함을 확인할 수 있었다.
○ 종이 출판물의 초판 발행일이 xx된 xx
○ 전자 출판물의 발행일이 xx된 xx
○ 최신 종이 출판물 발행일이 xx된 xx
○ 확인 불가능한 특정 xx가 xx된 xx
출판사나 유통사 등 저작권자들에게서 받은 수집 xx 전자 저작물의 서지 xx를 국립xx도서관 소장 자료 검색을 통해 비교해 본 결과 xx 표 2 와 같이 동일한 저자가 쓴 동일한 xx의 도서의 xx에도 출판사나 출판일이 다른 xx가 많았다.
출판계에서 전자책의 원본 책의 서지 xx가 xx되어 xx되고 있지 않고, 전자책으로 발행될 때 편집xx 디자인, 일부 xx까지 바뀌는 xx도 있다. 또한, 종이책의 xx에도 xx 저자의 xx xx의 책이 재판될 때 출판사가 바뀌거나 일부 xx이 xx되기도 한다. 즉, 저작물의 출판 이력이 xx되고 있지 않으므로 xx의
자료에 대해 해당 저작물의 종이책 초판 발행 xx를 확정하여 xx하는 것은 현실적으로 어렵다는 xx가 있었다.
<표 2> 전자 도서와 종이책 서지 xx 비교
사례 | 구분 | 전자 도서 | 종이책(국립xx도서관) |
출판사 xx | xx | 인터넷 xx | (알기쉬운) 인터넷 xx |
저자 | xxx 외 | xxx, xxx 공저 | |
출판사 | 이담북스 | xxxxxx | |
발행xx | 2011년 | 2009년 | |
종이책 미존재 | xx | xx의 xx 이야기 | |
저자 | xxx | ||
출판사 | 주변인x x | ||
발행xx | 2005년 | ||
발행 xx 불명 | xx | 대림절의 깊은 묵상 | 대림절의 깊은 묵상 : 기다림이 있는 곳에 |
저자 | xxx | xxx | |
출판사 | xx장로교출판사 | xx장로교출판사 | |
출판일 | 2014년 | 발행년불명 | |
발행 xx xx | xx | xxx xx, 반기문 | xxx xx, 반기문 |
저자 | xxx, xxx | xxx, xxx | |
출판사 | 기파랑 | 기파랑 | |
출판일 | 2006년 | 2007년 |
xx 분류의 xx 출판사 및 유통사에 따라 분류하는 방법이 xx하고, 도서관 분류의 xx에도 담당 사서의 판단에 의존된다. 국립xx도서관에서는 도서의 분류 체계로 xx십진분류법과 xx십진분류법을 xx로 표시하고 있는데, 본 사업의 xx 분류는 xx십진분류법(제 6 판)의 백의 자리 수에 xx하는 xxx을 xx으로 분류하였다. xx십진분류법의 분류 체계는 다음과 같다.
<표 3> xx십진분류표
000 | 총류 | 100 | xx | 200 | 종교 | 300 | 사회과학 | 400 | xx과학 |
010 | 도서학, xxx | 110 | 형xxx | 210 | 비교종교 | 310 | 통계학 | 410 | xx |
020 | xxxxx | 120 | 인식론, 인과록, 인간학 | 220 | 불교 | 320 | 경제학 | 420 | 물리학 |
030 | 백과사전 | 130 | xx의 xx | 230 | 기독교 | 330 | 사회학, 사회xx | 430 | xx |
040 | xxx, 수필집, 연 xxx | 140 | xx | 240 | 도교 | 340 | xxx | 440 | xxx |
050 | 일반 연속간행물 | 150 | 동xxx, 사상 | 250 | 천도교 | 350 | 행정학 | 450 | xx |
060 | 일반학회, 단체, 협 회, xx | 160 | 서xxx | 260 | 신도 | 360 | 법학 | 460 | 광물학 |
070 | xx, 언론, 저널리즘 | 170 | 논리학 | 270 | 힌두교, 브라만교 | 370 | 교육학 | 470 | 생명과학 |
080 | 일반전집, 총서 | 180 | 심리학 | 280 | 이슬람교(회교) | 380 | 풍속, 예절, 민속학 | 480 | 식물학 |
090 | 향토자료 | 190 | 윤리학, xxx학 | 290 | 기타 제종교 | 390 | 국방, 군사학 | 490 | 동물학 |
500 | xx과학 | 600 | xx | 700 | 언어 | 800 | xx | 900 | 역사 |
510 | 의학 | 610 | 건축술 | 710 | 한국어 | 810 | xxxx | 910 | 아시아 |
520 | 농업, 농학 | 620 | 조각 및 xxx 술 | 720 | 중국어 | 820 | xxxx | 920 | 유럽 |
000 | xx, xxxx, x xxx, xxxx | 000 | xx, xxxx | 000 | xxx 및 기 타 아시아제어 | 830 | 일본xx 및 기 타 아시아xx | 930 | 아프리카 |
540 | 건축공학 | 640 | 서예 | 740 | 영어 | 840 | xxxx | 940 | 북아메리카 |
550 | xx공학 | 650 | xx, xx | 750 | 독일어 | 850 | 독일xx | 950 | 남아메리카 |
560 | 전기공학, 전자공학 | 660 | 사xxx | 760 | 프랑스어 | 860 | 프랑스xx | 960 | xxx니아 |
570 | xx공학 | 670 | 음악 | 770 | 스페인어, 포 르투갈어 | 870 | 스페인 및 포르 투갈xx | 970 | 양극지방 |
580 | 제조업 | 680 | xxxx 및 매 체xx | 780 | 이탈리아어 | 880 | 이탈리아xx | 980 | xx |
590 | 생활과학 | 690 | xx, 스포츠 | 790 | 기타제어 | 890 | 기타 제xx | 990 | 전기 |
xx xx xx로 총 54,292 종의 저작물 서지 xx를 xx하였다. 이 저작물 목록의 서지 xx를 검토하여 xx xx 한국어 문어 말뭉치로 구축하기에 적절하지 않은 저작물을 제외하였다. 한국어가 주가 아닌 xx, 사서, 외국어 교육서 등을 제외하였으며, xx 위주인 사진집, 그림책 등을 제외하였다. 전자책 출판 xx는 xxxx 근대 xx 작품 등도 제외하였다. 또한 번역서는 저작권 xx가 없는 것만 일부 포함하였으며, xx 작가의 연작 장르 xx들이 xx으로 포함되지 않도록 하기 위해 일부만 포함시켰다. 어느 특정 xx의 저작물로 편중되지 않도록 주제별 xx 비율을 고려하였으며, xx별로는 가능한 한 2000 년 이후에 발행된 저작물로 xxx였다. 목록 검토를 통해 xx xx xx 저작물 54,292 x x 55.8%인 30,272 종이 xx되었다.
본 사업 xx 기간 xx xx 자료의 수집은 21 차에 걸쳐 xx되었으며, 국립국어원의 xx 저작물 xx을 위한 목록 검토는 총 12 회 이루어졌다. xx 자료의 수급 xx와 검토 xx에 차이가 있는 것은 효율적인 xx을 위하여 수집 자료 목록을 2~3 회 묶어 검토하였기 때문이다.
국립국어원의 xx 자료 xx 작업 이후에 xx xx 작업을 xx하였는데, 목록 검토로 xx된 저작물 30,272 종의 66.2%인 20,053 종의 저작물 xx을 xx하였다. 이는 xx xx xx xx 저작물 목록 중에서 36.9%의 저작물이 최종적으로 xx된 것이다. 국립국어원의 목록 검토에서는 xx되었으나, xx xx 및 xx xx에서 제외된 사례가 다양하게 존재하였으며 그 사유는 다음과 같다.
○ 너무 짧은 저작물
각 저작물의 xx이 충분히 반영될 수 있도록 최소 500 어절 xxx 저작물을 xx으로 하고, 최소 어절 수에 미치지 못하는 저작물은 xx에서 제외함. (단, 장르 분류 중 기타에 해당하는 “보고서”는 장르적 특성을 고려하여 500 어절 이하도 포함)
○ 전자책 원본 xx 훼손
저작물 제작 xx에서 출판사의 오류로 인해 ePUB xx이 xx되어 온전한 xx xx이 불가능한 저작물을 제외함.
○ 저작권자의 xx xx 의사 xx
저작권자와 협의하여 목록을 작성하고 저작물 xx에 xx하여 저작물 xx을 xx하였으나 출판사 및 저작권자의 변심, 절판, 출판사와 원저작자 간의 저작권 xx 기간 만료 등으로 인해 저작권자가 제공 의사를 xx한 저작물을 제외함.
○ 그림책, 사진첩 등
xxxx xx 위주인 저작물로서 목록 검토 xx에서 제외되지 못한 저작물을 xx xx xx에서 제외함.
○ xx xx
ePUB xx의 비xxx로 인해 xx을 xx했을 때 어절, 문장, 단락 등이 분리되어 원본과 동일한 xx으로 xx이 불가능한 저작물을 제외함.
○ xx 불량
xx xx은 정상적으로 xx되었으나, 국립국어원에서 제시한 xx xx에 현저히 부합되지 않는 것으로 판단되는 저작물을 제외함.
2. 저작권 xx 허락 계약 체결
저작권 xx 허락 계약은 주로 원저자로부터 저작권을 xx받은 저작권 대행사와 xx 되었으며, 해당 계약을 체결한 저작권자는 아래와 같다.
<표 4> 저작물 xx 허락 계약 체결 xx
차례 | 저작권자 | 저작물 수 | 어절 수 |
1 | 꿈의지도 | 1 | 11,081 |
2 | 협동조합xx다이스 | 346 | 5,681,800 |
3 | ㈜북이십일 | 413 | 7,472,102 |
4 | ㈜북하우스퍼블리셔스 | 72 | 1,119,552 |
5 | 주식회사불광미디어 | 123 | 1,335,347 |
6 | (주)비전비엔피 | 66 | 634,230 |
7 | 비전팩토리 | 678 | 10,365,919 |
8 | 주식회사 아이웰콘텐츠 | 21 | 231,535 |
9 | 예스이십사 주식회사 | 7 | 99,152 |
10 | 주식회사 웅진북센 | 15,993 | 622,717,166 |
11 | 주식회사 유페이퍼 | 902 | 10,393,286 |
12 | 지에스데이타(주) | 203 | 3,588,217 |
13 | 카멜팩토리 | 521 | 2,291,540 |
14 | 한국학술정보(주) | 707 | 10,445,673 |
합계 | 20,053 | 676,386,600 |
저작권 이용 허락 계약 체결 절차는 다음 그림 5와 같이 선정 대상 저작물을 저작권자 에게 전달하고, 저작권자는 계약 대상 저작물에 대한 최종 확인을 진행하여, 최종적으로 납품 도서의 목록을 확인 후 계약 날인을 수행하게 된다. 날인된 계약서에 국립국어원 이 날인을 한 후 최종적으로 계약서의 신뢰성 담보를 위해 공증을 진행하였다.
<그림 5> 저작권 이용 허락 계약 절차
저작권자와 저작권 이용 허락 계약을 체결하기 위해 많은 논의가 이루어졌다. 계약의 상대자인 저작권 대행사들은 저작물의 활용에 대하여 깊은 관심을 보였으며, 특히 아래 조항에 대하여 깊은 논의가 진행되었다.
제 2 조 (계약의 대상)
3. 국립국어원 및 국립국어원이 발주한 용역 사업의 수행자가 대상저작물 및 그 복 제/변형물을 연구 및 기술개발용으로 학계/연구기관/산업체 등이 이용할 수 있 도록 제공/배포하는 일
이에 대하여 출판사 등 저작 대리권자들은 DRM 등 별도의 저작물 보안이 적용되지 않은 상태에서 제공되는 저작물의 불법 복제와 유통 등을 방지할 방법이 없고, 국립국어원에게서 배포 받은 대상 저작물을 연구 개발에 사용하는 것에는 이견이 없으나, 개인적인 용도로 사용하는지 감시·추적이 어렵다는 이유를 들어 “비상업적 목적으로만 이용할 것”과 “상업적으로 이용하는 경우 권리자와 별도의 계약을 체결할 것”을 계약 내용에 추가하자는 의견을 제기하였다. 최종적으로는 “상업적”이라는 용어의 불명확성 때문에 이용자의 권리자에 대한 확인 및 보증 사항에 다음과 같이 명시하는 것으로 정리되었다.
제 6 조 (확인 및 보증)
(2) 이용자는 권리자에게 다음 각호의 사항을 확인하고 보증한다.
3) 대상저작물의 제공/배포 시 이용허락 조건 및 재배포 금지, 목적 외 사용금지 등 주의사항을 고지할 것
또한, 저작권자의 이러한 우려를 해소하고 도서의 불법 유통 및 복제를 방지하기 위하여 수집되는 저작물 중 일부는 본문 “전체 추출”이 아닌 “부분 추출”을 적용하였다. 부분 추출 비율은 구글 북스(google books)에서 일반적으로 적용되는 미리 보기 비율인 30%를 기준으로 그 이상을 추출할 수 있도록 하였다. 전문이 아닌 일부로서는 도서의 전체적인 내용을 읽거나 상업적 재판매가 어려우므로 전자책 불법 유통에 대한 우려와 위험성을 어느 정도 해소할 수 있을 것이다.
저작권 대리자와 논의가 진행되어 정리된 계약의 주요 내용은 아래와 같다.
1. 이용 허락 기간
대상저작물의 이용 허락 최소 기간은 계약체결일부터 2030 년 12 월 31 일까지로 한다. 최소 기간 만료 후 권리자가 이용허락 중지 의사를 밝히지 아니하면 이용 허락이 5 년 단위로 갱신되며, 권리자가 이용허락 중지 의사를 밝히면 그 의사 내용에 따라 이용허락이 중지된다.
2. 저작권 이용료
이용자는 과업수행자를 통해 저작권 이용료를 지급하되 지급방법은 부속합의서로 정한다. 이용허락 기간 자동 갱신에 따른 추가적인 이용료는 발생하지 않는다.
3. 저작물 활용 제한
국립국어원이 대상저작물의 제공·배포 시 이용허락 조건 및 재배포 금지, 목적 외 사용금지 등 주의사항을 고지한다.
3. 원문 추출 및 정제
저작권자 및 전자책 유통 출판사들로부터 선정된 저작물의 전자책 파일을 받아 말뭉치로 구축할 텍스트 원문을 추출하고 정제하여 텍스트 파일로 변환하는 과정을 수행하였다. 전반적인 절차는 다음과 같다.
가. ePUB 파일 찾기
선정된 저작물의 ePUB 파일을 저작권자 및 유통 출판사로부터 받아 미리 정의된 폴더 구성 규칙에 따라 취합함.
나. ePUB 구조 확인
원문 추출 프로그램을 통해 자동으로 원문을 추출할 수 있도록 저작권자 및 출판사별로 상이한 ePUB 파일의 구조를 확인함.
다. HTML 파일 읽기
저작권자 및 출판사별로 HTML 파일 구성을 확인하여 해당 저작물의 특성을 파악하여 추출 프로그램에 적용함.
라. 원문 추출
원문 추출 프로그램을 이용하여 ePUB 파일로부터 원문 텍스트를 추출함. 마. 검증
1 차적으로 추출된 파일과 검증 대상 파일에서 고빈도 어절의 빈도를 비교하여
정상적으로 원문이 추출되었는지 확인하고, 2 차적으로는 표본을 추출하여 수작업으로 이상 유무를 검증함. 원문 추출의 정상 여부를 확인하여 대상물로 부적합한 것으로 판단 시 해당 저작물에서 제외함.
바. 텍스트 파일 저장 및 메타 정보 입력
파일명 부여 규칙에 따라 텍스트 파일로 저장하고 저작물에 대한 서지 정보 등의 메타 정보를 입력함.
사. 정제
문어 말뭉치 구축 지침에 따라 말뭉치 구축에 필요한 형태로 최대한 정제함.
본 사업에서는 말뭉치로 구축할 디지털 원문 자료를 전자책 파일로부터 추출하였다. 전자책 파일로부터 원문을 추출하는 것이 대량의 저작물에 대한 디지털 원문 자료를 가장 효율적으로 확보하는 방법이기 때문이다.
국내에 전자책이 유통되기 시작한 것은 20 여 년 전부터이다. 우리나라는 이른 시기에 전자책이 유통되기 시작한 덕분에 국내 전자책 사업 및 공공도서관의 전자책 활용이 활발한 편이다. 전자책의 기준 포맷은 ePUB(Electronic Publication)이며, 이는 웹 WWW 을 구현하는 HTML 기술을 기반으로 하고 있다. 동시에 PDF(Portable Document Format) 형태의 전자책도 많이 제작되고 있다. 각 파일 포맷에 따른 장단점은 아래 표와 같다.
<표 5> 전자책 파일 형태의 장단점 비교
PDF ePUB | ||
장점 | ·종이책과 동일한 구성(편집, 페이지) ·범용적인 기기 호환성 ·간편한 제작 | ·화면 크기에 구애받지 않음 ·글꼴, 여백 등 보기 설정 자유 ·인터넷 사용자에게 익숙한 HTML 포맷 ·다양한 형태의 전자책 제작 가능 |
단점 | ·화면 크기의 제약 ·파일 포맷 변환이 어려움 ·ePUB 대비 대용량 ·콘텐츠 편집 고정 | ·종이책과 다른 편집 ·PDF보다 제작이 어려움 ·동일한 콘텐츠도 뷰어에 따라 다르 게 보일 수 있음 ·표준이 완성되지 않음 |
주로 사진이나 도표가 많아 종이책의 편집 구성을 그대로 유지해야 할 필요가 있을 경우 PDF 변환을, 텍스트 내용이 중심일 경우 ePUB 으로 변환하는 것이 가장 적절하다고 볼 수 있다.
본 사업에서는 PDF 파일의 경우 txt 파일로 원문 그대로 변환하기가 어려워 ePUB 형태의 파일을 주로 수집하였다. 그러나 전자책 제작 과정의 편의성 때문에 수집된 전자 저작물에 PDF 로 제작된 도서들이 다수 존재하였으며, 이를 본 사업에서는 ePUB 형태로 재변환한 후 ePUB 파일에서 원문을 추출하였다.
그러나 PDF 기반의 파일을 페이지 단위의 ePUB 파일로 변환을 한 저작물의 경우 다음과 같은 문제점이 발생하였다. 아래 그림 6 은 PDF 로 제작된 전자책의 일부이다.
<그림 6> PDF 파일로 제작된 전자책 예시
이를 txt 파일 형태로 원활하게 변환하기 위해 ePUB 형태로 변환한 결과, PDF 파일이 종이책 본래의 편집을 모두 수용함에 따라 실제 변환된 파일은 아래 그림 7 과 같이 원본 도서의 줄 넘김 부분을 모두 줄 바꿈 태그로 인식하게 되었다. 그리고 책 제목과 페이지 번호까지 본문 형식으로 변환되어 일일이 육안으로 확인하여 수동으로 제거하지 않는 이상 페이지마다 반복되는 책 제목과 페이지 번호를 자동 프로그램을 통해 분리해 내지 못하게 된다.
<그림 7> PDF 파일의 전자책 파일을 ePUB 으로 변환한 예시
종이책을 페이지별로 각각 PDF 로 변환하고 해당 파일을 다시 ePUB 으로 변환한 위와 같은 사례를 추가로 검토하였더니 모두 “OPS” 파일 구조임을 파악하였다. 어절 내부가 분리되는 원문 훼손이 있어 말뭉치 구축에 적절하지 못하므로 해당 파일 형식은 최종 수집 대상 원문에서 제외하였다.
전자책의 ePUB 파일 형태의 경우에도 HTML 파일명이나 내부 구조가 표준화되어 있지 않고 제작자에 따라 다양한 형태로 제작되고 있어 일괄적인 원문 추출이 어렵다.
<그림 8> 섹션(section) 구조의 ePUB 파일 형식
<그림 9> 일련번호 구조의 ePUB 파일 형식
<그림 10> 장별로 분리된 구조의 ePUB 파일 형식
<그림 11> 고유번호와 별도 표지로 구성된 구조의 ePUB 파일 형식
국립국어원에서 제시한 문어 말뭉치 구축 지침을 따르기 위해서는 저작물에서 본문을 제외한 표지, 목차, 머리말, 부록, 색인, 도표·그림 및 그에 딸린 캡션, 수식, 각주, 참고문헌 등을 삭제하여야 한다. 다양한 파일 구조에서 본문을 제외한 기타 정보를 제외하기 위해 아래 표 6 과 같이 제외해야 할 HTML 파일 구조를 확인하여 분리하였다.
<표 6> 제외 대상 파일 형식 정리
구분 | 제외 대상 | 비고 |
표지 | c_000.html titlepage.html innertitle.html “cover”, “back” 가 포함된 파일명 | xhtml확장자 도 포함하여 대상 적용 |
목차 | content.html list.html index.html | |
저자 | writer.html “author”, “profile” 등이 포함된 파일명 | |
판권 | ccc.html “right”, “copy”, “pan”, “biblio” 등이 포함된 파일명 | |
머리말 | pro.html “prol”, “intro”, “start” 등이 포함된 파일명 | |
맺음말 | ep.html “epi”, “epil” 등이 포함된 파일 | |
참고문헌 | “reference”, “appendix”, “apdx” 등이 포함된 파일명 | |
구조 파일 | toc | e P U B navigation 파 일 |
주석, 인용 등 | caption.html “foot”, “read” 등이 포함된 파일명 | |
기타 | “bu”, “adnm”, “info” 등이 포함된 파일명 |
분리해야 하는 요소가 HTML 파일명으로 구분되지 않는 경우도 있다. 아래 그림 12 와 같이 구분해야 할 “목차”가 파일명으로 독립되어 있지 않고 HTML 구조 내에 포함되어 있는 경우도 있다.
<그림 12> 목차가 별도 파일로 독립되지 않은 예시
전자책 제작 시에 문서의 폰트 크기, 도표 및 이미지 삽입, 주석 등을 태그 처리하여 독자가 읽기 편하게 편집하기 위해 다양한 CSS(Cascading Style Sheets) 및 HTML 태그를 사용하게 된다. 그런데 동일한 ePUB 형태의 전자책 도서라도 편집 시 사용하는 태그에 대한 표준 및 규칙이 통일되어 있지 않아 출판사 및 제작 대행사별로 다양한 태그가 발견되었다.
위와 같이 파일 내부에 포함된 경우에는 아래 표 7 과 같이 <head>의 <title> 태그를 확인하여 분리해 내야 하는 경우도 있다.
<표 7> <title> 태그에 포함된 제외 대상 내용
구분 | title 태그 포함 내용 |
판권 | Copyright 판권 |
저자 소개 | 경력 이력 약력 필자소개 |
목차 | 목차 목록 |
맺음말 | Epilogue 에필로그 |
참고문헌 | 참고 참고문헌 |
부록 | 부록 별첨 연표 |
또 출판사에 따라 아래 그림 13 과 같이 판권, 참고문헌 등을 class 나 id 태그를 활용하여 제작하는 경우도 있다.
<그림 13> 제외 대상의 <class> 태그 구성 예시
이러한 경우 해당 class 태그의 class 명칭을 확인하여 분리하였다. 이를 위해 적용된 태그는 표 8 과 같다.
<표 8> <class> 태그에 포함된 제외 대상 내용
태그 | 제외 대상 <class> 태그 내용 | 비고 |
div(class=) | *reference* | *는 하나 이상의 단어를 포함하는 모든 경우의 수를 찾기 위한 연산자이다. |
div(id=) | *publication*(id) | |
p | *toc* | |
copy* | ||
*copy_right* | ||
*bookinfo* | ||
div, p, span | *appendix* | |
*referbody* |
이번 사업에서는 ePUB 형태의 파일을 TXT 로 변환한 후 정제하는 과정에서 JAVA 프로그램을 개발하여 사용하였으며, 이를 위하여 오픈 소스 기반의 epublib 라는 명칭의 JAVA 라이브러리를 활용하였다. 해당 라이브러리는 ePUB3.0 에 대한 공통 태그를 포함하고 있으나 공통 태그 이외 출판사 종속적으로 사용하는 태그들이 다양하게 나타났다. 이러한 태그들은 육안 검토를 통해서 수동으로 정리하였으며 아래
표 9 의 태그들을 포함하여 프로그램 수정 및 정제가 진행되었다. 본 사업에서 정리한 태그 이외에도 다양하게 활용되는 독창적인 태그가 상당수 존재한다.
<표 9> 제외 대상 기타 태그 내용
태그 | class명칭 | 코드 적용 | 비고 |
a | g | <a id="g로 시작"> | 주석 번호/내용으로 상호 이동시 사용되는 태그임. |
footnote-link | <a class="footnote-link"> | ||
- | <a href=""> 전체 제외 | ||
div | ftn | <div id=*ftn*> | 주석(footnote) |
g-txt | *g-txt* | ||
mal | *mal* | ||
qt | *qt* | 인용문 | |
span | top | *top* | |
p | han | han*, *hanja* | |
mini | <p class="mini"> | ||
a, div, p, span | footnote | *footnote* | 각주 |
div, p, span | bracket | *bracket* | 인용문 |
brk | *brk* | ||
cham | *cham* | ||
fnexplain | *fnexplain* | 각주 | |
GAK | *gak* | ||
gj | *gj* | ||
glossary | *glossary* | ||
gr | group, green, gray 포함 제외 | ||
joo | *joo* | 주석 | |
jubody | *jubody* | 주석 내용 | |
KDBR | <p class="KDBR"> | ||
mg | mg로 시작, *pmg*, *smg* | ||
miju | *miju* | 미주 | |
ng4 | *ng4* | ||
note | *note* | 주석 | |
qr | *qr* | ||
sb | sb*, *sansB*, *ISBN* | ||
sp | sp*, *linkspan*, *kd_SP* | ||
sub | 숫자+pt, title, indent, sub-t, sub_t 포함 제외 | 주석 | |
sup | *sup* | 첨자 | |
year | *year* | 연도 |
저작물의 그림, 표, 주석 등의 구성 요소를 ePUB 표준과 비교하여 정리하면 아래 표
10 과 같다.
<표 10> 각 구성 요소의 표준 태그와 비표준 태그
구성 요소 | 표준/비표준 | 태그 |
그림 | 표준 | pic |
비표준 | pc, gr 등 | |
표 | 표준 | table |
비표준 | pho, bo3, box 등 | |
그림/표 설명 | 표준 | caption |
비표준 | cap, ptxt, mg, ng4, sub, g-txt 등 | |
주석 | 표준 | footnote |
주석 설명 | fnexplain, jubody, note | |
각주 | GAK, gj, joo, | |
미주 | miju |
이처럼 비표준의 다양한 태그들이 쓰이고 있으므로 일일이 수작업을 하지 않고 말뭉치 구축을 위해 본문에서 그림이나 표, 주석들을 일괄적으로 제거하는 것은 어려운 일이 될 수밖에 없다.
종이책과 마찬가지로 전자책의 경우에도 편집 시 교정 단계를 거치게 되어 있으나 작업자의 실수 혹은 이전 작업물 포맷을 그대로 가져와 다음 작업물에 적용하는 경우 등으로 인한 오류로 정제가 어려운 경우가 있다.
아래 표 11 은 HTML 파일명이나 태그에 오타가 있는 경우이다. 이러한 파일명이나 태그 오타는 일반적인 라이브러리 검수로는 발견하기 어려우며, 수작업으로 걸러내는 방법밖에 없다.
<표 11> 파일명 또는 태그 오류 예시
파일명 | 오류 예시 |
cover | corver |
reference | reperence |
auther | auhtor |
그 밖에 다음과 같이 편집상 가독성이나 미관을 위하여 고의로 맞춤법을 지키지 않은 사례도 발견되었다.
부 록, 부ㆍ록, 부 록
이런 경우 원문에서 부록을 제외하고자 할 때 “부”와 “록” 사이 포함되는 문자열을 명확히 정의할 수 없고, 해당 문자열을 “부*록”과 같은 연산자를 써서 전체적으로 제거할 경우 “부모님과 상록수”와 같은 문장이 제거될 위험성이 존재한다.
간혹 전자책 원문의 글자가 훼손된 경우가 있다. 그림 14 와 같이 ePub 변환 과정에서가 아닌 전자책 제작 시에 글자가 손상된 경우 해당 글자들을 원래대로 복구하는 것이 불가능하므로 대상에서 제외하였다.
<그림 14> 원본 전자책의 손상된 글자
이러한 전자책 제작의 비표준화 및 여러 유형의 오류들로 인해 저작물에서 말뭉치로 구축할 본문 텍스트를 추출하고 표지, 목차, 머리말, 부록, 색인, 도표/그림 및 그에 딸린 캡션, 각주, 참고문헌 등을 제거하는 일은 일일이 수작업을 하지 않고는 불가능에 가깝다. 2 만종이 넘는 방대한 저작물을 모두 수작업으로 정제할 수는 없으므로 위에서 언급한 대로 표본을 추출한 뒤 HTML 파일명이나 태그들을 확인하여 자동으로 삭제할 수 있는 것은 최대한 삭제하였다. 그러나 본문과 구분하여 식별할 수 없는 것은 제거가 불가능하였다.
말뭉치 구축 지침에서 수식이 포함된 경우 수식이 포함된 문단 전체를 삭제하도록 되어 있다. 이 경우도 그림으로 된 수식은 삭제가 가능하나 텍스트로 된 수식은 숫자와 구별이 불가능하여 제외할 수 없었다.
또, 장과 절의 제목 등은 추출 원문에 포함되어야 하나 디자인상의 이유로 제목을 그림으로 제작한 경우에는 수작업으로 삽입하는 것이 불가능하여 불가피하게 제외된 것들이 있다.
원문 추출 및 정제 후의 검증 작업은 ePub 변환한 후에 추출한 원문 파일과 전자책 원본 파일의 어절별 빈도를 비교하여 1 차적으로 확인하고, 2 차적으로는 표본을 추출한 후 수작업으로 이상 유무를 확인하였다. 원문 추출이 정상적으로 이루어지지 않은 저작물의 경우에는 제외 처리하는 작업도 병행 수행하였다.
정제 및 검증 작업은 원문 추출 작업과 병행하여 반복적으로 수행하였으며 이를 통해 산출물의 품질을 최대한 향상시키도록 하였다. 그러나 전체적인 저작물의 물량이 방대하여 수작업으로 표본 추출하여 검토하는 데는 물리적인 한계가 있을 수밖에 없었다.
목록 검토를 통해 선정된 저작물은 독립성과 식별성을 확보하기 위해 원문 추출과 정제 전에 파일명을 부여하였다. 파일명은 다음과 같이 국립국어원의 말뭉치 파일명 규칙에 따라 부여하였다.
<표 12> 파일명 부여 규칙
구분 | 상세 | 정의 값 | ||
첫째 자리 | 말뭉치 유형 구분 | 문어 | “W” | |
둘째 자리 | 장르 분류 | 책-상상 “A” 책-정보 “B” 잡지 “C” 기타 “Z” | ||
셋째 두 자리 | 분석 층위 구분 | 원문 | 자료 | “OR” |
다섯째 두 자리 | 구축 연도 | “19” | ||
일련번호 | 여덟 자리 | 숫자 | 여덟 | 자리 |
파일명 예시
· WAOR1900000001.sjml 책-상상의 원문 자료 첫 번째 파일
· WBOR1900000001.sjml 책-정보의 원문 자료 첫 번째 파일
· WCOR1900000001.sjml 잡지의 원문 자료 첫 번째 파일
원문 자료 파일의 확장자는 SJML 이며, 문자 인코딩은 유니코드(UTF-8)이다. 기본 구조는 <header>와 <text>로 구성되어 있으며 그 형식은 다음과 같다.
<?xml version="1.0" encoding="UTF-8"?>
<SJML>
<header>
<fileInfo>
<fileId>WBRW1900000001</fileId>
....
</fileInfo>
</header>
<text>
....
</text>
</SJML>
<header>는 파일의 메타 정보를 담는 요소로, 그 구조는 다음과 같다.
태그 | 설명 및 하위 태그 | |
<fileInfo> | <fileId> | 파일의 고유 식별자(말뭉치 파일명) |
<annoLevel> | 주석 수준: 원문 자료 | |
<sampling> | 샘플링 방식(본문 전체/부분 추출 – 임의 추출/부분 추출 –특정 부분 추출) | |
<class> | 구축 계획에 따른 장르 분류: 책-상상, 책-정보, 잡지, 기타 | |
<subclass> | 하위 주제 분류(<class> 유형이 잡지, 책-상상, 책-정보인 경우에 해당, 한국십진분류법의 백의 자리 수에 대응하는 주제명 기입 (*한국십진분류법 코드가 715 인 경우 ‘7’이 의미하는 주제명 언어*) | |
<sourceInfo> | <title> | 제목 |
<author> | 저자 | |
<publisher> | 출판사 | |
<year> | 출판연도 |
마크업된 최종 문어 원문 자료 파일의 예시는 다음과 같다.
<?xml version="1.0" encoding="utf-8"?>
<SJML>
<header>
<fileInfo>
<fileId>WAOR1900002247</fileId>
<annoLevel>원시</annoLevel>
<sampling>부분추출</sampling>
<class>책-상상</class>
<subclass>문학</subclass>
</fileInfo>
<sourceInfo>
<title>고지인 1</title>
<author>최지영</author>
<publisher>arte</publisher>
<year>2016</year>
</sourceInfo>
</header>
<text>
프롤로그 1
서기 1653 년 여름, 파도는 그리 높지 않았다. 항해하기 매우 좋은 날이었다. 바타비아에서 출항한 아란타 상선 스페르웨르 호는 적당히 불어오는 바람을 타고 순항 중이었다. 분명 겉보기에는 그랬다. 그러나 배에 타고 있는 선원들은 혼란에 빠져 있었다. 어느 순간부터였을까. 스페르웨르 호는 저주받은 배가 되었다. 계속되는 선원들의 의문사로 인해 배를 버려야 한다는 의견들이 불거지고 있었다.
··· 중략 ···
</text>
</SJML>
제 3 장
사업 수행 결과
1. 장르별 수집 결과
본 사업을 통해 수집된 책, 잡지, 기타 문서 등의 문어 디지털 원문 자료의 통계는 다음과 같다. 제안 목표치인 저작물 종수 2 만종, 어절 수 6 억 어절을 모두 초과하여 달성하였으며, 제안 요청서에 명시된 장르별 권장 비율인 ‘책-상상’ 10%~40%, ‘책-정보’ 50~80%, ‘잡지’ 20% 이내, ‘기타’ 10% 이내를 모두 준수하였다.
<표 13> 장르별 수집 결과
장르 | 저작물 | 어절 | ||
수 | 비율(%) | 수 | 비율(%) | |
책-상상 | 4,919 | 24.53 | 184,234,144 | 27.20 |
책-정보 | 14,649 | 73.05 | 485,279,965 | 71.80 |
잡지 | 73 | 0.37 | 6,097,468 | 0.90 |
기타 (보고서 등) | 412 | 2.05 | 775,023 | 0.10 |
합계 | 20,053 | 100 | 676,386,600 | 100 |
‘책-정보’가 가장 많은 비중을 차지하는데 저작물 수로는 14,649 종으로 73%에 해당하며 어절 수로는 4 억 8 천만 어절 이상을 차지한다. 다음으로 소설이나 동화 가 속하는 ‘책-상상’이 4,919 종으로 24.5%를 차지하며 어절 수로는 1 억 8 천만 어절 규모이다. ‘잡지’와 ‘기타’는 각각 전체의 1%에 해당한다.
‘책-정보’와 ‘책-상상’의 경우 말뭉치 구축 및 활용 목적이 아닌 다른 목적으로 사용되거나 불법적으로 유통되는 것에 대한 저작권자의 우려를 어느 정도 완화하기 위해 저작물 중 일부는 저작물 원문 전체가 아닌 부분 추출을 적용하였다. 부분 추출의 최소 비율은 google books 에서 일반적으로 적용되는 미리 보기 비율인 30%로 하였다. 추출률에 따른 저작물 분포는 다음 표 14 와 같다.
말뭉치 구축을 위해 수집된 저작물 중 79.8%는 원문 전체를 추출하였으며, 원문의 50%가 추출된 저작물은 13%, 원문의 30%가 추출된 저작물은 전체 저작물의 7.2% 정도를 차지한다.
<표 14> 저작물의 추출 방식별 분포
장르 | 저작물 (종수) | 부분 추출 | 본문 전체 | |
30% | 50% | |||
책-상상 | 4,919 | 29 | 125 | 4,765 |
책-정보 | 14,649 | 1,417 | 2,489 | 10,743 |
잡지 | 73 | 0 | 0 | 73 |
기타 (보고서 등) | 412 | 0 | 0 | 412 |
합계 | 20,053 (100%) | 1,446 (7.21%) | 2,614 (13.04%) | 15,993 (79.75%) |
수집된 전체 저작물은 1,226 개 출판사의 출판물로부터 추출되었으며, 저작물 저자의 수는 12,055 명으로 파악되었다.
2. 주제별 수집 결과
가장 많은 비중을 차지하는 ‘책-정보’의 주제별 분포를 보면 다음 표 15 와 같다. 주제는 한국십진분류법의 백의 자리 수에 대응하는 주제명 기준으로 분류하였다.
<표 15> ‘책-정보’ 장르의 주제별 분포
주제 | 저작 | 물 | 어절 | |
수 | 비율(%) | 수 | 비율(%) | |
총류 | 694 | 4.7 | 19,192,838 | 4.0 |
철학 | 1,455 | 9.9 | 47,553,601 | 9.80 |
종교 | 965 | 6.6 | 34,063,871 | 7.0 |
사회과학 | 5,700 | 38.9 | 194,240,183 | 40.0 |
자연과학 | 423 | 2.9 | 11,562,952 | 2.4 |
기술과학 | 1,232 | 8.4 | 31,780,148 | 6.5 |
예술 | 598 | 4.1 | 21,831,218 | 4.5 |
언어 | 163 | 1.1 | 6,201,505 | 1.3 |
문학 | 2,092 | 14.3 | 64,421,940 | 13.3 |
역사 | 1,327 | 9.1 | 54,431,709 | 11.2 |
합계 | 14,649 | 100 | 485,279,965 | 100 |
사회과학 분야가 194,240,183 어절로 전체의 40%를 차지하였으며, 다음으로 문학 분야가 64,421,940 어절로 전체의 13.3%, 다음으로 역사 분야가 54,431,709 어절로 전체의 11.2%에 해당하는 것으로 집계되었다.
3. 연도별 수집 결과
원문 추출이 진행된 수집 저작물의 간행 연도별 분포는 다음 표 16 과 같다.
<표 16> 간행 연도별 수집 결과
저작물 | 어절 | |||
간행 연도 | 수 | 비율(%) | 수 | 비율(%) |
2000 년 이전 | 457 | 2.30 | 20,335,379 | 3.01 |
2001 년 | 1,046 | 5.20 | 28,928,293 | 4.28 |
2002 년 | 929 | 4.60 | 38,567,197 | 5.70 |
2003 년 | 1,672 | 8.40 | 73,761,511 | 10.91 |
2004 년 | 1,971 | 9.80 | 94,450,013 | 13.96 |
2005 년 | 1,747 | 8.70 | 59,045,713 | 8.73 |
2006 년 | 1,379 | 6.90 | 47,134,018 | 6.97 |
2007 년 | 1,770 | 8.80 | 66,544,822 | 9.84 |
2008 년 | 2,836 | 14.10 | 104,308,838 | 15.42 |
2009 년 | 1,368 | 6.80 | 46,164,641 | 6.83 |
2010 년 | 942 | 4.80 | 32,511,738 | 4.81 |
2011 년 | 686 | 3.40 | 22,157,067 | 3.28 |
2012 년 | 368 | 1.80 | 5,730,032 | 0.85 |
2013 년 | 395 | 2.00 | 6,167,553 | 0.91 |
2014 년 | 307 | 1.50 | 4,903,755 | 0.72 |
2015 년 | 446 | 2.20 | 5,819,246 | 0.86 |
2016 년 | 495 | 2.50 | 6,167,225 | 0.91 |
2017 년 | 544 | 2.70 | 6,196,939 | 0.92 |
2018 년 | 555 | 2.80 | 6,175,871 | 0.91 |
2019 년 | 140 | 0.70 | 1,316,749 | 0.19 |
합계 | 20,053 | 100 | 676,386,600 | 100 |
2000 년 이전 저작물이 457 종으로 2.3%를 점유하고 있으며, 2001 년에서 2008 년 사이의 저작물이 13,350 종으로 66.5%을 점유하고 있고, 2009 년에서 2013 년 사이의 저작물이 3,759 종으로 18.8%를 점유하고 있다. 가장 최근의 저작물이라 할 수 있는 2014 년에서 2019 년 사이의 저작물은 2,487 종으로 12.4%를 점유하고 있다. 현대 실사용 언어를 반영하기 위한 최근 10 년의 저작물은 6,246 종으로 전체 수집 저작물의 31.2%를 차지하는 것으로 파악되었다.
4. 결론
본 사업은 4 차 산업혁명 시대의 인공지능 서비스 개발 및 기술 혁신을 위한 중요 기반 자료인 국어 빅데이터(말뭉치) 구축 사업의 일환으로, 문어 말뭉치 구축을 위해 다양한 분야의 책, 잡지, 보고서 등 문어 자료를 수집하여 저작물 20,053 종, 어절 수로는 676,386,600 어절의 문어 말뭉치 원문 자료를 구축하였다.
대상 저작물 선정 시에는 다양하고 균형성 있는 언어 사용 양상을 반영하기 위해 특정 저자나 출판사의 성향과 특정 주제에 치우치지 않도록 하였다. 선정된 저작물은 말뭉치로 구축하여 연구 및 기술 개발용으로 학계, 연구기관, 산업체 등에 배포하기 위해 필요한 복제권, 전송권, 배포권, 2 차적 저작물 작성권의 범위에 대해 저작권을 위탁받은 14 개 저작권 대행사와 저작물 이용 허락 계약을 체결하였다. 수집된 전체 저작물은 1,226 개 출판사의 출판물로부터 추출되었으며, 저작물 저자의 수는 12,055 명이다.
수집 대상으로 선정된 저작물은 전자책 형태의 ePUB 파일로부터 원문 텍스트를 추출한 후, 추출된 데이터와 실제 원문의 정합성 및 이상 유무 검증을 검증이 완료된 저작물 원문 자료는 국립국어원 문어 말뭉치 원문 자료 구축 지침에 따라 파일명을 부여하고 저작물별로 저자, 출판사, 출판연도, 주제별 분류 정보 등의 메타 정보가 기록된 헤더 정보를 부착하여 XML 형식의 텍스트 파일로 저장하였다.
사업 추진 과정에서 발생한 주요 문제점을 살펴보면 다음과 같다.
첫 번째로, 말뭉치 구축 및 활용을 위한 저작권 이용 허락 계약 체결 과정에서 저작권자들의 연구 개발 목적 외의 상업적 이용에 대한 우려 및 저작물의 불법 복제, 불법 유통에 대한 근본적인 방지책의 부재로 인해 계약을 철회하는 일이 다수 있었다. 원문 추출 시 일부 저작물에 대해 원문 전체가 아닌 부분 추출을 적용하여 어느 정도 문제를 줄이기는 하였으나 앞으로 국립국어원이 수집된 원문 자료로 말뭉치를 구축하여 배포할 때 말뭉치의 활용성은 높이면서도 저작권의 침해를 최소화할 수 있는 방안을 마련해야 할 것이다.
두 번째로, 구축된 말뭉치가 어느 시기의 언어 현상을 반영하고 있는지를 알기 위해서 저작물 간행 연도를 메타 정보로 기록하게 되는데 출판사나 저작권자별로 전자출판 저작물의 발행일 기준이 다르고 원본 저작물과 전자출판 저작물의 출판
이력이 연계되어 관리되고 있지 않아 그 저작물이 처음 쓰인 시기, 즉 그 저작물에 쓰인 언어가 어느 시기를 반영하는 것인지를 찾기가 어려웠다. 본 사업에서는 전자출판물의 간행 연도를 메타 정보로 기록할 수밖에 없었다.
세 번째로, 말뭉치 구축을 위해 저작물에서 본문 텍스트만을 추출해야 하는데, 전자책 형식이 표준화되어 있지 않아 일괄적으로 필요한 부분만 추출하기가 어려웠다는 점이다. 형식의 비표준화로 인해 말뭉치 구축의 대상이 되는 본문 텍스트 외에 표지, 목차, 머리말, 부록, 색인, 도표/그림 및 그에 딸린 캡션, 각주, 참고문헌 등을 자동으로 제거할 수 없었다. 일일이 수작업을 해야 하나 2 만종이 넘는 방대한 저작물을 모두 수작업으로 정제할 수 없어 표본을 추출한 뒤 HTML 파일명이나 태그들을 확인하여 여러 번에 걸쳐 최대한 정제하였으나 한계가 있었다. 도서 지식 정보를 빅데이터로 구축하여 손쉽게 활용하기 위해서는 전자책을 만들 때 표준을 따르는 것이 필요할 것이다.
이번 ‘문어 말뭉치 원문 자료 수집’ 사업을 통하여 수집된 6 억 어절 이상의 한국어 문어 자료를 공공 말뭉치로 구축함으로써 4 차 산업혁명 시대에 대비하여 국어 연구 및 인공지능 언어 처리 산업 발전의 토대가 마련될 수 있기를 기대한다.
<부록1> 국가 언어 자원(말뭉치) 구축 및 활용 저작권 이용 허락 계약서
국가 언어 자원(말뭉치) 구축 및 활용 저작권 이용허락 계약서
저작자 및 저작권 이용허락자 (이하 “권리자”이라 함)와 저작권 이용자 국립국어원 (이하 “이용자”이라 함)은 아래 저작물에 관한 저작재산권 이용허락과 관련하여 다음과 같이 계약을 체결한다.
다 음
제1조 (계약의 목적)
본 계약은 저작재산권 이용허락과 관련하여 권리자와 이용자 사이의 권리관계를 명확히 하는 것을 목적으로 한다.
제2조 (계약의 대상)
본 계약의 이용허락 대상이 되는 권리는 아래의 저작물(이하 “대상저작물”)에 대한 저작재산권 중 당사자가 합의한 권리로 한다.
저작물: 저작자:
종별: ✔□ 어문저작물
권리: ✔□
복제권,
✔□ 전송권,
✔□ 배포권,
✔□ 2차적저작물작성권
※ 저작권 이용허락 대상 권리의 내용
1. 국립국어원 및 국립국어원이 발주한 용역 사업의 수행자가 대상저작물을 일정한 형식 으로 전자적 기록 매체에 담아 보존하는 일
2. 국립국어원 및 국립국어원이 발주한 용역 사업의 수행자가 자모, 음절, 어휘, 어절, 구 절, 문장 및 텍스트 단위의 국어 연구와 언어 정보 처리 분야에 응용하기 위해 대상저작 물을 복제·변형(목차·머리말·도표·그림·각주 등의 편집 및 삭제, 언어 단위별 분리, 언어적· 비언어적 정보 부착 등)하는 일
3. 국립국어원 및 국립국어원이 발주한 용역 사업의 수행자가 대상저작물 및 그 복제·변 형물을 연구 및 기술 개발용으로 학계·연구기관·산업체 등이 이용할 수 있도록 제공·배 포하는 일
4. 대상저작물 및 그 복제·변형물을 제공·배포받은 학계·연구기관·산업체 등이 국어 연구와 언어 정보 처리 분야 응용을 위하여 대상저작물 및 그 복제·변형물을 분석 및 처리하여 사용하는 것을 허락하는 일
제3조 (이용허락 기간)
대상저작물의 이용허락 최소 기간은 계약체결일부터 2030년 12월 31일까지로 한다. 최소 기 간 만료 후 권리자가 이용허락 중지 의사를 밝히지 아니하면 이용허락이 5년 단위로 갱신되 며, 권리자가 이용허락 중지 의사를 밝히면 그 의사 내용에 따라 이용허락이 중지된다.
제4조 (권리자의 의무)
(1) 권리자는 이용자에게 대상저작물에 관하여 본 계약서 제2조에 따른 저작재산권을 이용할 권리를 제3조의 기간 동안 비독점적으로 허락한다.
(2) 권리자는 이용자에게 계약 체결일로부터 10일 이내에 대상저작물의 이용을 위해 필요한 상당한 자료를 인도하여야 한다. 다만, 대상저작물이 한국저작권위원회에 등록되어 있지 않은 경우 이용자가 요청하면 이용허락자는 대상저작물의 저작재산권을 등록한 후 위 의 무를 이행한다.
(3) 권리자는 대상저작물에 제3자의 이용허락권, 질권 등이 존재하는 경우, 이용자에게 그 사 실을 사전에 알려야 한다.
(4) 권리자는 대상저작물의 저작재산권 전부 또는 일부를 제3자에게 양도하거나 이에 대하여 질권을 설정하고자 하는 경우, 사전에 이용자에게 이 사실을 통보하여야 한다.
제5조 (이용자의 권리 및 의무)
(1) 이용자는 대상저작물을 제3조의 이용허락 기간 동안 제2조의 이용 허락을 받은 범위 내에 서 비독점적으로 자유롭게 이용할 수 있다.
(2) 이용자는 과업수행자를 통해 저작권 이용료를 지급하되 지급방법은 부속합의서로 정한다. 이용허락 기간 자동 갱신에 따른 추가적인 이용료는 발생하지 않는다.
(3) 이용자는 관례적으로 저작자 및 저작재산권자의 성명 등 표시를 허용하는 대상저작물을 이용하는 경우, 그 저작자 및 저작재산권자의 성명 등을 표시하여야 한다.
(4) 이용자는 대상저작물의 이용함에 있어서 저작인격권을 침해하지 아니한다. 다만, 대상저 작물의 본질적인 내용을 변경하지 않는 범위 내에서 권리자와 협의 후 변형할 수 있다.
제6조 (확인 및 보증)
(1) 권리자는 이용자에게 다음 각 호의 사항을 확인하고 보증한다.
1) 대상저작물의 저작권이용허락을 체결하는 데 필요한 권리 및 권한을 적법하게 보유하고 있다는 것
2) 대상저작물의 내용이 제3자의 저작권, 상표권, 인격권을 비롯한 일체의 권리를 침해하지 아 니한다는 것
3) 대상저작물에 대하여 이용자에게 사전에 알린 제3자의 권리 외에는 이용자의 이용을 제한 할 수 있는 부담이 더 이상 존재하지 아니한다는 것
(2) 이용자는 권리자에게 다음 각호의 사항을 확인하고 보증한다.
1) 대상저작물에 적용된 이용허락 조건에 의해서만 대상저작물 재이용을 허락할 것
2) 대상저작물을 제3자의 명예권을 비롯한 인격적 권리를 침해하는 방식으로 이용하지 아니할 것
3) 대상저작물의 제공·배포 시 이용허락 조건 및 재배포 금지, 목적 외 사용금지 등 주의사항 을 고지할 것.
제7조 (계약내용의 변경)
본 계약 내용 중 일부를 변경할 필요가 있는 경우에는 권리자와 이용자의 서면합의에 의하여 변경할 수 있으며, 그 서면합의에서 달리 정함이 없는 한, 변경된 사항은 그 다음날부터 효력 을 가진다.
제8조 (계약의 해지)
(1) 당사자는 천재지변 또는 기타 불가항력으로 계약을 유지할 수 없는 경우에 본 계약을 해 지할 수 있다.
(2) 당사자는 상대방이 정당한 이유 없이 본 계약을 위반하는 경우에 상당한 기간을 정하여 상대방에게 그 시정을 최고하고, 상대방이 그 기간이 지나도록 이행하지 아니하는 경우에 는 계약을 해지할 수 있다. 다만, 상대방이 명백한 시정 거부의사를 표시하였거나 위반 사항의 성격상 시정이 불가능하다는 것이 명백히 인정되는 경우에는 위와 같은 최고 없이 계약을 해지할 수 있다.
(3) 본 계약에 대한 해지권의 행사는 상대방에 대한 손해배상청구권 행사에 영향을 미치지 아 니한다.
제9조 (손해배상)
당사자가 정당한 이유 없이 본 계약을 위반하는 경우, 그로 인하여 상대방에게 발생한 모든 손 해를 배상할 책임이 있다. 다만, 제8조 1항의 사유로 본 계약을 이행하지 못한 경우에는 손해 배상책임을 면한다.
제10조 (분쟁해결)
(1) 본 계약에서 발생하는 모든 분쟁은 권리자와 이용자가 상호 원만한 합의에 이르도록 노력 하여야 하며, 분쟁이 원만히 해결되지 않는 경우에는 소제기에 앞서 한국저작권위원회에 조정을 신청할 수 있다.
(2) 제1항에 따라 해결되지 아니할 때에는 대한민국의 민사소송법 등에 따른 관할법원에서의 소송에 의해 해결토록 한다.
제11조 (비밀유지)
양 당사자는 본 계약의 체결 및 이행과정에서 알게 된 상대방에 관한 정보, 본 계약의 내용 및 대상저작물의 내용을, 상대방의 서면에 의한 승낙 없이 제3자에게 공개하여서는 아니 된다.
제12조 (기타부속합의)
(1) 권리자와 이용자는 본 계약의 내용을 보충하거나, 이 계약에서 정하지 아니한 사항을 규정 하기 위하여 부속합의서를 작성할 수 있다.
(2) 제1항에 따른 부속 합의는 본 계약의 내용과 배치되거나 위반하지 않는 범위 내에서 유효 하다.
제13조 (계약의 해석 및 보완)
본 계약서에서 명시되어 있지 아니하거나 해석상 이견이 있을 경우에는 저작권법, 민법 등을 준용하고 사회 통념과 조리에 맞게 해결한다.
제14조 (계약 효력 발생일)
본 계약의 효력은 계약 체결일로부터 발생한다.
2019년 09월 00일
권리자 :
성명 (인)
주민등록번호 주소
이용자 :
성명 국립국어원장 (인) 주소 서울특별시 강서구 금낭화로 154
<부록2> 원문 자료 수집 저작물 출판사 목록
출판사 목록(가나다순)
Hans&Lee Warner Books
Crown Business D.H.미디어
Mantrip McGraw-Hill
講談社 | Dearborn Trade | media 2.0 | |
光文社 | Denstory | MID | |
예 문 | Doubleday | MSD미디어 | |
(주)고려원미디어 | eBook Korea | novel21 | |
(주)고려원북스 | emars | OOAM | |
(주)국일미디어 | e북크리슈나 | OrangeMint | |
(주)국일증권경제연구소 | e비즈북스 | Perseus Pr | |
(주)국일출판사 | e퍼플 | PHP연구소 | |
(주)드림아카데미 | Fireside | PHP출판사 | |
(주)새로운 제안 | Free Press | PLATORS | |
(주)양문 | GRIJOA FC | Portfolio | |
(주)위즈덤하우스 | Harper Business | Sams | |
(주)캐럿코리아 | Harvard Business | School | Signet Pr. |
21세기 북스
21세기군사연구소 0xxxxx.xxx angelarf
arte
Bantam Doubleday Dell Pub
Berrett-Koehler Pub. Broadway Books BSC북공간
CKBOOKS
CM미디어
Houghton Mifflin Co Human & Book IGM세계경영연구원 ITC
jNBook JnCbooks jonagym Jossey-Bass
ⓙ중앙일보 이코노미스트 KK 베스트 셀러즈
luver books M&K
TBS 브리태니커 Times Books
TTM 인터내셔날 프로덕션 Viking Pr
Wadsworth Publishing Company
Warner Books/ 황금가지 Weekly BIZ books
가교 가교출판 가나플러스 가라파고스
가람기획 | 계수나무 | 글도 |
가람문학사 | 고려대학교출판부 | 글러브社 |
가문비 | 고마북스 | 글로세움 |
가산 | 고수 | 금세기 |
가산출판사 | 고원 | 금융경제연수사 |
가야넷 | 고이북 | 금자탑 |
가톨릭대학교출판부 | 고즈윈 | 企業管理出版社 |
갈라파고스 | 골든북 | 기파랑 |
갈매나무 | 곰출판 | 길벗 |
강 | 共同通信社 | 길벗스쿨 |
講談社 | 과정학사 | 김영사 |
강이북스 | 광개토 | 김주욱 |
개마고원 | 광문각 | 깊은강 |
개미와베짱이 | 광문사 | 꼬마이실 |
갤리온 | 光文社 | 꽃삽 |
거름 | 교려대학교 출판부 | 꿈소담이 |
거울 | 교양인 | 꿈엔들 |
건강다이제스트 | 교육과학사 | 꿈의지도 |
건강신문사 | 국민서관 | 꿈이있는아이들 |
건국대학교출판부 | 국민출판사 | 끌레마 |
경당 | 국학자료원 | 끌리는책 |
경덕출판사 | 국학커뮤니티 | 나남신서 |
경문사 | 굿모닝북스 | 나남출판사 |
경성라인 | 굿인포메이션 | 나노미디어 |
경영자료사 | 궁리 | 나다북스 |
경영정신 | 궁리출판 | 나라원 |
경원각 | 그린비 | 나래 |
경향미디어 | 그물코 | 나무생각 |
경향신문사 | 글담 | 나무심는사람 |
나무연필 | 눌와 | 다할미디어 |
나무와숲 | 뉴미디어북 | 다홀미디어 |
나무의꿈 | 뉴월드미디어 | 달과소 |
나무처럼 | 느낌이 있는 나무 | 달리 |
나무한그루 | 느낌이 있는 책 | 달팽이출판 |
나비의활주로 | 늘봄 | 담앤북스 |
나비장책 | 늘푸른소나무 | 담장너머 |
나스카 미디어 | 늘푸른아이들 | 당대 |
나침반 | 닐다 | 대가 |
내인생의책 | 닛케이BP사 | 대경북스 |
내집마련정보사 | 다락원 | 대교베텔스만 |
네버앤딩스토리 | 다래 | 대교출판 |
네오그린토탈디자인 | 다리미디어 | 대도대한 |
네츄로 메디카 | 다미 | 대림문화재단 |
넥서스ACADEMY | 다빈치 | 대명종 |
넥서스BIZ | 다빈치 기프트 | 대산출판사 |
넥서스BOOKS | 다빈치북스 | 대한 미디어 |
넥서스주니어 | 다산교육 | 대한교과서 |
노나메기 | 다산라이프 | 대한기독교서회 |
노마드북스 | 다산북스 | 대한기독교출판사 |
노벨과 개미 | 다산어린이 | 대한미디어 |
노블마인 | 다산에듀 | 대한시독교서회 |
노블박스 | 다산책방 | 대현문화사 |
노블하우스 | 다산초당 | 대현출판사 |
논장 | 다시 | 더·마사다 |
놀자북 | 다연 | 더난출판사 |
누리달 | 다우출판사 | 더불어책 |
눈 | 다이아몬드사 | 德間書店 |
눈과마음 | 다치바나출판 | 데모스 |
데미안 | 돌파콘텐츠 | 디자인하우스 | |
덴스토리 | 동광출판사 | 디지털문학 | |
도깨비 | 동녘 | 디지털미디어리서치 | |
도디드 | 동도원 | 따비 | |
도래샘 | 동명사 | 또하나의문화 | |
도서출판 | 21세기 | 동문사 | 뜨인돌출판사 |
도서출판 | OLIN | 동방미디어북스 | 라온북스 |
도서출판 | 나라 | 동서문화사 | 라온제나 |
도서출판 | 렌토 | 동아 | 라이온북스 |
도서출판 | 쉼 | 동아시아 | 라이터스 |
도서출판 | 승지연 | 동아일보사 | 라인북 |
도서출판 | 시우 | 동양문고 | 라테르네 |
도서출판 | 양천사 | 동연 | 랜덤하우스중앙 |
도서출판 | 이슈투데이 | 동인랑 | 랜덤하우스코리아 |
도서출판 | 준우 | 동일출판사 | 러브이즈 |
도서출판 | 청어 | 동쪽나라 | 러비앤 |
도서출판 | 큰나무 | 두드림 | 레드스톤 |
도서출판 | 하나 | 두레 | 레몬북스 |
도서출판 | 행복에너지 | 두레미디어 | 로그인 |
도서출판가지 | 두루출판사 | 로망띠끄 | |
도서출판마당 | 두리 | 로맨스월드 | |
도서출판선인 | 두리미디어 | 로맨스토리 | |
도솔출판사 | 두산동아 | 로맨스하우스 | |
도지출판사 | 둥지 | 로맨티카 | |
도쿠마서점 | 드림레벌루션 | 로월 | |
돋을새김 | 드림박스 | 로이북스 | |
돌멩이 | 들녘미디어 | 로크미디어 | |
돌베개 | 들마루 | 롤링다이스 | |
돌봄과 치유 | 디앤씨미디어 | 루비박스 |
룩스 | 맑은물 | 문학동네 |
르네상스 | 맑은소리 | 문학리뷰 |
리니문고 | 매경출판 | 문학사상사 |
리더스북 | 매일경제신문사 | 문학세계사 |
리더앤리더 | 매직하우스 | 문학아카데미 |
리드리드출판 | 맨트립 | 문화관 |
리베르 | 머니플러스 | 문화미래이프 |
리빙북스 | 머큐리 | 문화사랑 |
리얼판타 | 메멘토 | 물병자리 |
리즈앤북 | 멘토press | 물푸레 |
리토피아 | 명서원 | 미네쟁어의 서재 |
리틀미다스 | 명선미디어 | 미다스북스 |
마가을 | 명지사 | 미디어2.0 |
마고북스 | 모색 | 미디어24 |
마당넓은집 | 모아북스 | 미디어샘 |
마야 | 모자이크커뮤니케이션즈 | 미디어숲 |
마우랜드 | 몽당연필 | 미디어연구소 |
마음산책 | 뫼 | 미디어윌 |
마음자리 | 뫼비우스 | 미래를소유한사람들 |
마음향기 | 무한도서출판 | 미래문화사 |
마이웨이라이프 | 문공사 | 미래북 |
마이웹 | 文藝春秋 | 미래사 |
마이클럽 | 문예출판사 | 미래와경영 |
마젤란 | 문우사 | 미래의창 |
마주한 | 문원 | 미래지식 |
마테북스 | 문원출판 | 미루나무 |
마티 | 문이당 | 미르북스 |
마하월드 | 문학과지성사 | 미르출판사 |
만물상자 | 문학관 | 미술문화 |
미스북스 | 밝은세상 | 부키 |
미채연 | 방동 | 북&월드 |
미카북 | 배영교육 | 북21 |
미토 | 백년글사랑 | 북공간 |
미토스북스 | 백만문화사 | 북극성 |
민서출판사 | 백배미디어 | 북노마드 |
민음in | 백산출판사 | 북돋움 |
민음사 | 백서공방(whitebooks) | 북랜드 |
민주화운동기념사업회 | 백암 | 북랩 |
밀리언하우스 | 버들미디어 | 북레시피 |
밀알 | 범우사 | 북로드 |
바다출판사 | 범조사 | 북마크 |
바람 | 베텔스만 코리아 | 북북서 |
바람출판사 | 별과우주 | 북샵미디어 |
바로북 | 보고사 | 북섬 |
바보새 | 보누스 | 북스넛 |
바오 | 보리 | 북스데이 |
바오로딸 | 보림출판사 | 북스컴 |
바울 | 보물창고 | 북스토리 |
바움 | 보성출판사 | 북씽크 |
바이북스 | 보자기 | 북아띠 |
바이올렛 | 복두출판사 | 북이십일 |
박영사 | 봄나라 | 북이즈 |
박우사 | 봄날의책 | 북인 |
박이정 | 봄날커뮤니케이션 | 북코리아 |
반니 | 봄알람 | 북코스모스 |
반디출판사 | 부광 | 북키앙 |
반딧불이 | 부동산net | 북토피아 |
발행 | 부크크 | 북포스 |
북폴리오 | 사닥다리 | 삼지사 |
북하우스 | 사단법인브랜드마케팅협회 | 삼진기획 |
북허브 | 사람의향기 | 상담과 치유 |
불광출판사 | 사이 | 상상미디어 |
뷰스 | 사이버여행아카데미 | 상상박물관 |
뷰티복두 | 사이언스북스 | 상상북스 |
브.레드 | 사이텍미디어 | 상상커뮤니케이션 |
브니엘 | 사회평론 | 상상하우스 |
브라운힐 | 산다슬 | 상서각 |
브레인 | 산처럼 | 상아 |
브리즈 | 산케이신문사 | 상현출판사 |
블루미르 | 산하 | 새갈마노 |
비룡소 | 산호와진주 | 새뜰심리상담소 |
비봉출판사 | 살림 | 새로운 사람들 |
비앤컴즈 | 살림Biz | 새로운 제안 |
비와삼 | 살림어린이 | 새로운문화사 |
비일상연구회 | 살림출판사 | 새론북스 |
비전비엔피 | 살림터 | 새미 |
비전코리아 | 삶과꿈 | 새빛에듀넷 |
비즈니스맵 | 삶이 보이는 창 | 새빛인베스트먼트 |
비즈니스북스 | 三笠書房 | 새움 |
비채코리아북스 | 삼문 | 새창출판사 |
빌라델비아 | 삼성경제연구소 | 샘터사 |
빛 | 삼성당 | 생각의나무 |
빛나라 | 삼성출판사 | 생명누리 |
뿌리 | 삼양미디어 | 생명의말씀사 |
뿌리깊은나무 | 삼양출판사 | 생명의서신 |
뿌리출판사 | 삼우반 | 샤인 |
사계절출판사 | 삼인 | 샤인북스 |
샤인이스트(shinEast) | 세림 | 스윙밴드 |
서광문화사 | 세미콜론 | 스카이미디어 |
서교출판사 | 세시 | 스캔들 |
서돌출판사 | 세이지(世利知) | 스콜라 |
서사원 | 세종서적 | 스크린M&B |
서울 P&B | 세창미디어 | 스타일리시컬쳐 |
서울경제경영 | 세창출판사 | 스토리클래스 |
서울대학교출판부 | 소나무 | 스토리하우스 |
서울창작 | 소담출판사 | 슬로비 |
서울포럼 | 소드북 | 승지연 |
서음출판사 | 소리울림 | 시간과공간사 |
서해문집 | 소마 | 시간의물레 |
석천미디어 | 소명출판 | 시공사 |
선 | 소모(somo) | 시공주니어 |
선.비젼 | 소설나라 | 시광 |
선영사 | 소설클럽 | 시니북스 |
선학사 | 소소 | 시대고시기획 |
설교자하우스 | 소진출판사 | 시대와 조류 |
설응도 | 소학사 | 시대의창 |
성결대학출판부 | 솔출판사 | 시대정신 |
성광문화사 | 쇼우텐社 | 시아북스 |
성미출판사 | 수다북스 | 시와사회 |
성바오로 | 수막새 | 시울 |
성우 | 수선재 | 시유시 |
성인당 | 순정아이북스 | 시학사 |
세계로미디어 | 숨비소리 | 신세림 |
세계사 | 슈퍼북 | 신앙과지성사 |
세나북스 | 스마트비즈니스 | 신영미디어 |
세담 | 스마트주니어 | 신원문화사 |
신의나라 | 아이워크북 | 에코비즈 |
실천문학사 | 아이웰콘텐츠 | 에코의서재 |
심마니 | 아이작가 | 엔크리스토 |
씨엔피솔루션 | 아이템풀 | 엘림마을 |
아고라 | 아이필드 | 엘블링 |
아동문학 | 아인북스 | 엠블라 |
아라크네 | 아인앤컴퍼니 | 여래 |
아롬미디어 | 아침나라 | 여러누리 |
아루이프로덕션 | 아침이슬 | 여름솔 |
아르고스 | 아카넷 | 여름언덕 |
아르케 | 아트북스 | 여명빛 |
아름다운 사람들 | 안그라픽스 | 여문책 |
아름다운날 | 알앤디비즈 | 여성신문사 |
아리랑나라 | 알펍 | 여수룬 |
아리샘 | 애플북스 | 여우오줌 |
아리솔 | 앨피 | 역락 |
아사히(朝日)신문사 | 앱스나라 | 역사넷 |
아선미디어 | 양문출판 | 역사비평사 |
아세아문화사 | 양영철 | 역사의아침 |
아세아미디어 | 어린이작가정신 | 연우 |
아스키 | 얼과알 | 연인M&B |
아시아 | 에디터 | 연필과지우개 |
아시아네트워크 | 에디토리얼 | 열대림 |
아울북 | 에버리치홀딩스 | 열린 |
아웃사이더 | 에세이 | 열린과학 |
아이디북 | 에오스 | 열린세상 |
아이비젼 | 에이원북스 | 열린책들 |
아이사랑심리상담연구소 | 에이지21 | 열림원 |
아이세움 | 에코리브르 | 열매출판사 |
열매하나 | 오즈북스 | 위즈덤하우스 | |
열번째행성 | 오토북스 | 위즈비즈 | |
영림카디널 | 올리브M&B | 윈바디어프로치 | |
영미디어 | 옹달샘 | 윈윈북스 | |
영상노트 | 와세다 | 윌북 | |
영어와 회계의 | 만남 | 와우밸리 | 유나미디어 |
영음사 | 와이미디어 | 유레카북스 | |
영인미디어 | 와이웨이브E&M | 유미디어 | |
xx.xxx | 와이즈북 | 유유 | |
영진출판사 | 와일드네이쳐 | 유토피아 | |
영화진흥위원회 | 요리나라 | 유페이퍼 | |
예담출판사 | 우니네트웍스 | 율리시즈 | |
예담프렌드 | 우리(We) | 은악 | |
예림당 | 우리글 | 은행나무 | |
예문 | 우물이 있는 집 | 은행나무 아이들 | |
예문서원 | 우석출판사 | 을유문화사 | |
예미 | 운디네 | 을파소 | |
예술미디어 | 움직이는 책 | 이 채 | |
예옥 | 움직이는서재 | 이가서 | |
예일출판사 | 웅동 | 이너북 | |
예향 | 웅진닷컴 | 이다미디어 | |
오늘 | 웅진씽크빅 | 이담북스 | |
오늘닷컴 | 웅진윙스 | 이덴슬리벨 | |
오늘의책 | 웅진지식하우스 | 이레미디어 | |
오래된미래 | 웅진출판 | 이론과실천 | |
오름 | 원더e북 | 이룸 | |
오미아트북스 | 원더박스 | 이룸나무 | |
오영출판사 | 원앤원북스 | 이룸어린이 | |
오월의봄 | 위고 | 이른아침 |
이마고 | 작가나라 | 조셉출판사 |
이미지박스 | 작가와 비평 | 早川書房 |
이비커뮤니케이션 | 작가정신 | 조화로운삶 |
이스트북스 | 작은길 | 종이나라 |
이야기제국(주) | 작은씨앗 | 좋은생각 |
이제이북스 | 작은이야기 | 좋은생각사람들 |
이지북 | 작은책방 | 좋은책만들기 |
이채 | 작크와 콩나무 | 주니어화니북스 |
이코북 | 작품 | 주변인의길 |
이콘출판 | 장락 | 주식회사 태믹스 |
이페이지 | 재단법인 미디어연구소 | ㈜케이펍 |
이프 | 재미와 감동 | 中經出版 |
인간사랑 | 재인 | 중국당안출판사 |
인동 | 전나무숲 | 中國文史出版社 |
인디북 | 전통과현대 | 중명출판사 |
인물과사상사 | 전파과학사 | 中信出版社 |
인카네이션 | 젊은출판사 | 중앙M&B출판 |
일간공업신문사 | 정민미디어 | 중앙경제평론사 |
일리 | 정보센터출판국 | 중앙교육진흥연구소 |
일본경제신문사 | 정은문화사 | 중앙북스 |
일본실업출판사 | 정은출판 | 중앙생활사 |
일송북 | 정음 | 중앙일보조인스랜드 |
일신각 | 정토출판 | 즐거운학교 |
일월서각 | 정한PNP | 지경사 |
일평 | 제안 | 지구문화사 |
자연사랑 | 제우미디어 | 지성사 |
자유지성사 | 제이앤북스 | 지식노마드 |
자음과모음 | 제이제이북스 | 지식여행 |
작가 | 제철소 | 지식의숲 |
知 와 사랑 | 책읽는사람들 | 체온365 |
지와인 | 책찌 | 체크무늬남방 |
지원미디어 | 천년의상상 | 초록세상 |
지원북클럽 | 천케이 | 초록인 |
지형 | 철수와영희 | 草思社 |
지호출판사 | 청계출판사 | 초승달 |
지훈출판사 | 청년사 | 최세민 |
진리탐구 | 청년의사 | 致知出版社 |
진선아이 | 청년정신 | 친구북 |
진선출판사 | 청도출판사 | 카멜북스 |
진한도서 | 청동거울 | 카멜팩토리 |
차림 | 청림출판 | 커뮤니케이션북스 |
차이나하우스 | 청마북스 | 컨콜디아사 |
찬우물 | 청명1979 | 컬처클럽 |
참콘경제연구소 | 청목사 | 케이북스 |
창작과비평사 | 청문각 | 케이앤제이 |
창작나무 | 청미디어 | 케이펍 |
창조문화 | 청솔B&C | 코난북스 |
창해 | 청솔출판사 | 콜로세움 |
채움 | 청아문화사 | 쿰라이프게임즈 |
책갈피 | 청아출판사 | 쿰란출판사 |
책과사람 | 청어람 | 큐니버시티 |
책과함께 | 청어람미디어 | 크라운레이스 |
책만드는집 | 청어와 삐삐 | 크레듀 |
책바지 | 청어ㆍ한국문인협회 | 크리스타 |
책벌레 | 청춘출판사 | 크림슨 |
책비 | 청하출판사 | 큰나출판사 |
책세상 | 청홍 | 큰방 |
책소리 | 淸華大學出版社 | 키메이커 |
킴스정보전략연구소 | 펄북스 | 피엠로맨스 |
타오름 | 페가수스 | 피엠이월드 |
타임비 | 페이지 | 피와눈물 |
타커스 | 평단문화사 | 피우리 |
탐탐일가 | 평단아트 | 하남출판사 |
태동출판사 | 평민사 | 하늘고래 |
태믹스 | 평사리 | 하루북스 |
태양기획 | 포럼 | 하얀풍차 |
태일출판사 | 포커스북 | 하이비전 |
텍스토어 | 퐁타넬 | 하이파이브 |
토네이도미디어그룹 | 푸르름 | 학문사 |
토판 | 푸르메 | 학민사 |
통계청 | 푸른e미디어 | 한가람서원 |
트릭스터북스 | 푸른길 | 한강수 |
티알씨그룹 | 푸른나무 | 한겨레신문사 |
티알씨출판부 | 푸른들 | 한국 언론재단 |
티에스아이 미디어 | 푸른물결 | 한국 장로교 출판사 |
티티하우스 | 푸른사상 | 한국경제신문 |
티파니 | 푸른숲 | 한국교육출판마케팅연구소 |
팅클라기산 | 푸른역사 | 한국그리스도사상연구소 |
파라북스 | 푸른영토 | 한국기독교교육교역연구원 |
파란미디어 | 푸른책들 | 한국기원 |
파란자전거 | 풀로엮은집 | 한국문인출판부 |
파랑새어린이 | 풀무 | 한국문학사 |
파파스북 | 퓨처인베스트 | 한국방송영상산업진흥원 |
파피루스 | 프레지덴트社 | 한국복음서원 |
팝콘북스 | 프리치 | 한국수필가협회 출판부 |
팬덤 | 플럼북스 | 한국수필출판부 |
퍼플 | 피엔씨글로벌네트웍스 | 한국씨네텔 |
한국언론재단 | 한울림 | 헬로우쿡 |
한국영화평론가협회 | 한장사 | 헬스투유 |
한국음주문화연구센터 | 한차M&B | 현대문학북스 |
한국장로교출판사 | 항덕원(恒德園) | 현대미디어 |
한국저작권위원회 | 해나무 | 현대사상사 |
한국전자출판협동조합 | 해냄출판사 | 현민 |
한국학술정보 | 해누리 | 현실과과학 |
한그루미디어 | 해든솔 | 현실문화연구 |
한글 | 해든아침 | 현암사 |
한길사 | 해바라기 | 현학사 |
한길아트 | 해우 | 형설출판사 |
한누리미디어 | 해원출판사 | 호메로스 |
한들출판사 | 해찬강 | 호이테북스 |
한림미디어 | 해토 | 홍문각 |
한마음사 | 해피북스 | 홍익CNC |
한문화 | 해피앤북스 | 홍익씨엔씨 |
한문화멀티미디어 | 햇빛섬 | 홍익인간 |
한불학예사 | 행복 | 홍익출판사 |
한빛문화사 | 행복에너지 | 홍익학당 |
한빛미디어 | 행복한 마음 | 화남출판사 |
한사랑 | 행복한 에너지 | 화니북스 |
한사상 | 행복한 책읽기 | 환경부 |
한성출판기획 | 행복한마음 | 환상 |
한솔아카데미 | 행복한발견 | 환상미디어 |
한숲출판사 | 행복한세상 | 황금가지 |
한스미디어 | 행복한책가게 | 황금나침반 |
한얼미디어 | 행복한책읽기 | 황금물고기 |
한올출판사 | 행복한풀잎 | 황금부엉이 |
한울 | 향연 | 황금열쇠 |
황매출판사 | 후마니타스 | 휴먼하우스 |
황소자리 | 휘닉스미디어 | 흐름출판 |
효리원 | 휴머니스트 | 희년 |
효성출판사 | 휴먼비전 | 흰돌 |
효일문화사 | 휴먼앤북스 | 힉문사 |
효형출판사 | 휴먼필드 | 힐하우스 |
<Abstract>
Collecting written language data for constructing written corpus
“Collecting written language data for constructing written corpus” is a project to build big Korean data in preparation for the 4th Industrial Revolution by the National Institute of Korean Language. This is very meaningful as a project to lay the groundwork to be used as an important material for AI (artificial intelligence) industry development and technological innovation in the 4th Industrial Revolution era.
This project, which was promoted as a part of the Korean language Big Data (corpus) construction project, collects written language data such as books, magazines, and reports from various literary fields, and constructs them into corpus. The purpose of this project is to anyone can be freely use it as public data in Korean for AI development industry and Korean language research.
In this project, the copyrights are selected to build a corpus that reflects various of modern Korean language, and the copyright license agreement contacts are granted to the copyright holders so that the corpus can be freely used for the development of artificial intelligence, language processing industry, and language research.
When selecting the target copyrights, the authors and publishers were not biased toward the specific topics. A total of 20,053 original books (copyrights) from 1,226 publishers were collected, and the works were distributed evenly according to themes in consideration of the large classification ratio in the book decimal classification.
Periodically, the publications after 2000 were selected and collected to reflect the use of modern Korean written language.
The selected copyrights shall be constructed as a corpus by the National Institute of Korea Language, and will be granted a copyright use agreement with the copyright holder for the range of reproduction rights, transmission rights, distribution rights, and secondary work rights necessary for distribution to academia, research institutes, and industries for research and technology development.
The selected copyrights were extracted from the original text of e-book files to construct a corpus, and then verified the integrity and abnormality of the extracted data with the actual text. The original text extraction work was performed by using the software to identifying the structure of e-book files that differed by copyright holders and publishers. The first verification work was performed by comparing word frequency with the e-book file to check whether the extracted original text was missing. Secondly, the sample was selected and verified for abnormality by hand.
The original text of the verified work is saved as an XML-formatted text file by giving the file name according to the instructions of the National Institute of Korean Language, and attaching header information containing “meta data” such as author, publisher, year of publication, and subject classification information for each work.
Through the above procedure, 20,053 works of copyrighted works and 676,386,600 words(eojeols) were collected. By media, ‘book-information’was the most common with 14,649 books (73% of the total), ‘book-imagination’was 4,919 books(24,5%), ‘imagination’was 412 books(2.1%), and ‘others’(0.4%).
By year, 2.3% were 457 books before 2000, 66.5% were 13,350 books from 2001 to
2008, and 18.8% were 3,759 books from 2009 to 2013. The total number of books written in the last five years is 12.4%, which is 2,487 books from 2014 to 2019.
In the Sejong Plan of the 21st century, books of the 1900s and early 2000s were constructed as corpus. Through this project, a large amount of corpus that can reflect the use of modern Korean written language has been built since 2000s, and it laid a great foundation for the Korean language research and language processing industry.
사업 책임자 이준영(주식회사 웅진 솔루션사업본부 부장) 사업 참여자 김정혁(주식회사 웅진 솔루션사업본부 부장) 김선영(주식회사 웅진 솔루션사업본부 차장) 송성목(주식회사 웅진 솔루션사업본부 차장) 이민호(주식회사 웅진 솔루션사업본부 과장) 최수아(주식회사 웅진 솔루션사업본부 대리) 김유미(주식회사 웅진 솔루션사업본부 사원) 정명구(주식회사 웅진 솔루션사업본부 사원)
노현호(주식회사 엠오에스에이 데이터사이언스팀 부장) 최광민(주식회사 엠오에스에이 데이터사이언스팀 과장) 이창현(주식회사 엠오에스에이 데이터사이언스팀 사원) 구대웅(주식회사 엠오에스에이 데이터사이언스팀 사원)
담당 연구원 이승재(국립국어원 언어정보과장)
이현주(국립국어원 언어정보과 학예연구관)
발행인: 국립국어원장 발행처: 국립국어원
서울시 강서구 금낭화로 154
전화 02-2669-9775, 전송 02-2669-9757
인쇄일: 2019년 11월 29일 발행일: 2019년 11월 29일 인 쇄: 비비드인쇄소
※ “이 책은 국립국어원의 용역비로 수행한 ‘문어 말뭉치 원문 자료 수집’ 사 업의 결과물을 발간한 것입니다.”