셋째, 게시 자료별로 구축 대상 자료의 메타 정보를 ‘매체 분류, 게시 누리집(사이트), 글 제목, 본문, 게시 날짜, URL 주소, 조회 수, 게시자 정보, 연령, 성별 등’으로 구축하 였다.
국립국어원 2022-01-34
11-1371028-000922-01
발 간 등 록 번 호
2022년 온라인 게시 자료 수집 및 xx
사업 책임자 x x x
x 출 문
국립국어xx 귀하
국립국어원과 체결한 xx용역 계약에 따라 ‘2022년 온라인 게시 자료 수집 및 xx’에 관한 xx 보고서를 작성하여 xx합니다.
■ 사업 기간: 2022년 4월 28일 ~ 2022년 11월 28일
2022년 11월 28일
사업 책임자: x x x((주)버즈메트릭스)
사업 수행자 (주)버즈메트릭스
사업 책임자 xxx
사업 참여자 xxx, xxx, xxx, xxx, xxx, xxx
<국문 요약>
2022년 온라인 게시 자료 수집 및 xx
본 사업은 4차 산업xx을 xx하여 인공지능 xx의 개발 및 xx을 위한 대규모 말 뭉치를 구축하여 국어 자원의 활용도와 가치를 제고하고, 실제 언어생활을 반영하는 온라 인 게시 자료를 수집하여 산업계 및 xx의 xx 개발·xx xx 등에 필요한 말뭉치 자 원을 확보하고 제공하는 데 목적이 있다. 이에 따른 주요 사업 xx을 요약하면 다음과 같다.
첫째, 참여자를 모집하여 온라인 게시 자료에 xx 저작권 xx 허락 계약을 체결하고, 계약이 체결된 참여자의 온라인 게시 자료를 수집하였다. xx 한국어 사용자의 언어 x x xx을 반영한 자료를 수집하기 위해 매체별 xx 수와 xx별 수집 한도를 xx하여 게시 자료가 특정 매체와 특정 xx에 편중되지 않도록 하였으며, 분야별·주제별로 xx 있는 자료를 수집하기 위해 목표 xx을 두고 수집 xx에서 키워드에 의거하여 분야와 xx를 분류함으로써 xx에 맞추어 게시 자료가 확보될 수 있도록 하였다.
둘째, xx소통망과 게시판에서 수집된 온라인 게시 자료 총 31x x을 원시 말뭉치 형 태로 구축하되 적합하지 않은 게시 자료를 제거하고, 비윤리적 xx의 문서는 31x x에 포함되지 않도록 별도로 분리하였다.
셋째, 게시 자료별로 구축 xx 자료의 메타 xx를 ‘매체 분류, 게시 누리집(사이트), 글 xx, 본문, 게시 날짜, URL 주소, 조회 수, 게시자 xx, xx, 성별 등’으로 구축하 였다.
주요어: 온라인 게시 자료, 말뭉치 수집, 원시 말뭉치
<Abstract>
2022 OnLine posting crawLing and Purification
The purpose of this project is to build a large corpus for the development and utilization of artificial intelligence technology in preparation for the 4th Industrial Revolution to enhance the utilization and value of Korean language resources. The main business contents accordingly are summarized as follows.
First, participants were recruited to sign a copyright permission contract for online posting materials, and online posting materials of the participants who signed the contract were collected. In order to collect data reflecting the language usage of modern Korean users, the number of accounts by media and collection limits by account were designated to prevent posting materials from being concentrated on specific media and accounts.
Second, 310,000 online postings collected from SNS and community site were constructed in the form of primitive corpora, but inappropriate postings were removed, and documents with unethical content were separately separated so as not to be included in 310,000.
Third, the meta information of the data to be constructed for each posting material was constructed by 'media classification, title, post, posting website, posting date, URL address, number of views, publisher information, age, gender, etc‘.
Key-words: online post corpus, web corpus, online post
- 4 -
<개조식 요약문>
2022년 온라인 게시 자료 수집 및 xx
1. xx 목적
○ 4차 산업xx xx 기반 xx 및 인공지능 xx 개발, xx을 위한 대규모 말뭉치 구축
○ 실제 언어생활을 반영하는 온라인 게시 자료를 수집하여 산업계 및 xx xx 개발
‧xx에 필요한 말뭉치 자원 확보
2. 주요 사업 xx
가. 온라인 게시 자료 수집
○ 온라인 게시 xx 자료 매체별·분야별·주제별 수집 (xx소통망(SNS: 페이스북·인스타그램), 게시판)
○ 저작 권리자(참여자)와의 저작권 xx 허락 계약을 통한 저작권 해결
나. 온라인 게시 자료 원시 말뭉치 구축 (총 31x x)
○ 비적합 자료 원시 말뭉치 구축 제외
○ 비윤리적 xx의 문서 분리 및 별도 말뭉치 xx
○ 개인 xx 비식별화 처리
다. 구축 xx 자료에 xx 메타 xx 구축
○ 게시 자료별 메타 xx 작성 및 목록 작성
(매체 분류, 게시 누리집(사이트), 글 xx, 본문, 게시 날짜, URL 주소, 조회 수, 게시자 xx, xx, 성별 등)
차 례
제1장 서론
1. 사업 목적 3
2. 사업 xx 범위 3
3. 사업 xx 절차 4
제2장 온라인 게시 자료 수집
1. 참여자 모집 및 xx 7
2. 저작권 xx 허락 계약 체결 10
2-1. 저작권 xx 허락 계약의 xx 10
2-2. 저작권 xx 허락 계약 체결 11
3. 온라인 게시 자료 수집 12
제3장 말뭉치 구축
1. 데이터 분류 및 xx 15
1-1. 비적합 자료 xx 15
1-2. 비윤리적 언어 표현 자료 분리 16
1-3. 비식별화 처리 17
1-4. 데이터 분류(분야별, 주제별) 18
2. 원시 말뭉치 구축 및 메타 xx 구축 23
참고 xx 27
부록
[붙임 1] 저작권 xx 허락 계약서 29
표 차례
<표 | 1> | 사이트 | 및 xx 확보 목표 7 |
<표 | 2> | 비적합 | 자료 xx 15 |
<표 | 3> | 말뭉치 | 언어의 비윤리적 표현 xx 16 |
<표 | 4> | 비식별화 처리 xx 17 | |
<표 | 5> | 분야 및 xx 분류 xx 19 | |
<표 | 6> | 분야별 xx 21 | |
<표 | 7> | 분야 내 주제별 xx 22 | |
<표 | 8> | 파일명 부여 xx 23 | |
<표 | 9> | 말뭉치 xx(JSON) 23 |
xx 차례
<xx | 1> | 사업 목적 및 필요성 3 |
<xx | 2> | 사업 xx 절차 4 |
<xx | 3> | 사업 참여자 모집 방법 8 |
<xx | 4> | 홈페이지 및 xx소통망 xx 화면 9 |
<xx | 5> | 저작권 xx 허락 계약서 11 |
<xx | 6> | 저작권 xx 허락 전자 계약 xx 절차 12 |
<xx | 7> | 민감 자료 데이터 분리 17 |
<xx | 8> | 분야별 임의 분류 결과 18 |
<xx | 9> | 분야별 수집 목표 xx 19 |
<xx | 10> xx소통망 말뭉치(JSON) 출력 예시 24 | |
<xx | 11> 게시판 말뭉치(JSON) 출력 예시 25 |
제 1 장
서 론
1. 사업 목적
본 사업은 4차 산업xx을 xx하여 인공지능 xx의 개발 및 xx을 위한 대규모 말 뭉치를 구축하여 국어 자원의 활용도와 가치를 제고하고, 실제 언어생활을 반영하는 온라 인 게시 자료를 수집하여 산업계 및 xx의 xx 개발·xx xx 등에 필요한 말뭉치 자 원을 확보하고 제공하는 데 목적이 있다.
<xx 1> 사업 목적 및 필요성
2. 사업 xx 범위
본 사업은 온라인 게시 자료를 수집하여 원시 말뭉치를 구축하고, 구축한 말뭉치에 x x 메타 xx를 구축하는 것으로 xx된다. 구체적인 사업 xx 범위는 다음과 같다.
ㅇ 온라인 게시 자료 수집
- 온라인 게시 xx 자료(xx소통망(SNS: 페이스북·인스타그램), 게시판) 매체별· 분야별·주제별 xx 수집
- 저작 권리자와의 저작권 xx 허락 계약을 통한 저작권 해결
ㅇ 온라인 게시 자료 원시 말뭉치 구축 (총 31x x)
- 비적합 자료 원시 말뭉치 구축 제외
- 비윤리적 xx의 문서 분리 및 별도 말뭉치 xx
- 개인 xx 비식별화 처리
ㅇ 구축 xx 자료에 xx 메타 xx 구축
3. 사업 xx 절차
본 사업은 온라인 게시 자료를 수집하여 원시 말뭉치를 구축하는 절차로 xx된다. 온 라인 게시 자료를 보유한 참여자 모집 및 저작권 xx 허락 계약을 xx하고, 계약x x 료된 참여자의 온라인 게시 자료를 수집하여 데이터를 xx한다. 이때 비윤리적 xx이 포함된 문서는 별도로 분리하여 원시 말뭉치를 구축한다. 그리고 해당 자료의 메타 xx 를 구축하는 절차로 사업을 xx하였다. 각 단계의 주요 xx은 다음과 같다.
<xx 2> 사업 xx 절차
제 2 장
온라인 게시 자료 수집
1. 참여자 모집 및 xx
본 사업은 제한된 사업 기간과 예산의 범위 안에서 저작권 xx xx 계약이 완료된 온 라인 게시 자료 보유자의 참여가 필요한 사업이다. 특히 31만 건의 온라인 게시 자료를 확보하기 위해서는 많은 참여자가 필요하다. 최소 9개 이상의 사이트에서 450개 이상의 xx을 확보하고, 분야별·주제별 xx 있는 자료를 수집하기 위해서는 다양한 분야를 xx 을 담은 온라인 게시 자료가 필요하였다.
사이트별 목표 xx와 xx 수는 국립국어원의 2019년 ‘웹 말뭉치 구축’자료를 xx으 로 하였다. xx소통망의 xx, 인스타그램과 페이스북 간의 xx이 각각 약 90%와 10% 를 xxx는 점을 고려하여 전체 30x x 중 90%인 27x x은 인스타그램으로, 10%인 3 x x은 페이스북으로 수집 목표를 정하였다. 게시판 역시 7개 사이트에서 수집이 이루어 진 점을 고려하여, 7개 이상 사이트에서 온라인 게시 자료 수집을 목표로 하였으며, xx 수는 450개 이상의 xx에서 수집되도록 목표를 xxx였다.
특정 사이트와 특정 xx에 게시 자료가 편중되지 않도록 1개 xx당 4x x 이하, 1개 게시판 사이트에서 5x x xxx 수집되지 않도록 추가적인 xx을 마련하였다.
<표 1> 사이트 및 xx 확보 목표
사이트 구분 | 수집 목표 | ||
xx | xx 수 | ||
xx소통망 | 인스타그램 | 270,000건 | 400개 이상 |
페이스북 | 30,000건 | ||
게시판 (7개 이상) | 네이버/다음 카페 | 4,000건 | 50개 이상 |
기타 커뮤니티 | 6,000건 | ||
합 계 | 310,000건 | 450개 이상 |
목표한 사이트와 xx 수를 확보하고, 분야 및 xx에 적합한 게시 자료를 확보하기 위해 여러 가지 방법을 통한 다양한 xx에서의 참여자 모집이 필수적이다. 따라서, 다음과 같은 참 xx 모집 방법을 통해 수집된 게시 자료의 다양성을 확보하고자 하였다.
<xx 3> 사업 참여자 모집 방법
첫 번째 참여자 모집 방법인 ‘주요 게시자 xx 및 참여 유도’는 사업 xx xx에서 내부적으로 보유한 데이터를 적극적으로 xx하였다. 내부에서 xx하고 있는 xx소통망 및 게시판 데이터를 검토하여 참여 조건에 부합하는 게시 자료를 보유한 참여자를 찾는 방법으로 xx하였다. 내부 축적된 온라인 게시 자료 중, xx 2년 이내 작성된 게시 자 료 200x x을 분석하여, 22년 게시글 xx 200건 이상의 게시 자료를 작성한 작성자 x x을 xx하였다. 22년 게시글 xx으로 추출한 이유는 본 사업의 수집 xx이 2019년 9 월 이후 게시 자료 xx이며, xx 활발하게 온라인 xx을 하고 있는 참여자를 선별하기 위함이다. 작성자 xx 선별 xx을 거쳐 xx된 xx 소유자에게 사업의 목적과 취지에 대해 안내하고 참여를 유도하는 xx으로 xx하였다.
두 번째로는 사업 xx xx의 온라인 패널인 ‘URX(메트릭스 그룹 온라인 패널) xx 을 xx으로 참여 안내와 xx xx’을 xx하였다. URX 패널은 2022년 5월 xx 약 130만 xx xx으로 가입되어 있어, 사업 참여를 유도하고 사업을 xxx는 일이 동시에 이루어xx 용이하였다. 또한, 패널 xx 본인이 직접 참여하는 것만으로는 제한된 시간 내에 충분한 모집이 이루어xx 어려우므로, 사업을 xxx고 주변인을 xx하는 xx을 xx하여 xx하였다.
세 번째 방법은 ‘자발적 참여’를 통한 참여자 모집이다. 국립국어원 누리집 게시판에 사 업 xx 안내 공고문을 게시하였고 사업 xx xx 누리집을 통해 사업 안내를 xx하였
으며, 인스타그램에 사업 참여에 xx xx 메시지를 게시함으로써 사업의 취지에 공감한 참여자의 자발적 참여를 유도하였다.
<xx 4> 홈페이지 및 xx소통망 xx 화면
<xx xx 누리집 팝업 안내>
<인스타그램 게시글 xx>
2. 저작권 xx 허락 계약 체결
본 사업 참여자는 온라인 게시 자료를 작성한 xx 자료의 저작권자로, 참여자와의 저 작권 xx 허락 계약 체결이 필요하다. 특히, 본 사업은 온라인 게시 자료를 수집하여 말 뭉치로 구축하는 일뿐만 아니라, xx·xx물을 xx 및 xx 개발용으로 xx‧연xxx‧ 산업체 등이 이용할 수 있도록 제공 및 배포하는 것을 목적으로 하므로, 저작권자로부터 저작권 xx 허락 계약이 xx되어야 한다. 향후 발생할 수 있는 법률적 분쟁을 xxx하 고 민간 활용도를 제고하기 위해 저작권 xx 허락 계약 체결은 본 사업에서 필수적인 x x이다.
2-1. 저작권 xx 허락 계약의 xx
저작권 xx 허락 계약서 xx 및 xx은 법률 검토를 거친 후 최종적으로 확정하였다. 본 사업의 특성에 따라 xx 권리의 xx은 복제권, xxx, 배포권, 2차적 저작물 작성 권, 편집 저작물 작성권을 포함하며, 저작권 xx 허락 계약에 xx된 계약서의 세부 x x은 다음과 같다.
※ 저작권 xx 허락에는 다음 사항을 포함한다.
1. 국립국어원 및 국립국어원이 발주한 용역 사업의 수행자가 xx저작물을 일정한 xx 으로 전자적 xx 매체에 담아 보존하는 일
2. 국립국어원 및 국립국어원이 발주한 용역 사업의 수행자가 xx, 음절, 어휘, 어절, 구 절, 문장 및 텍스트 단위의 국어 xx와 언어 xx 처리 분야에 xx하기 위해 xx저작물 을 xx·xx(목차·머리말·도표·xx·각주 등의 편집 및 삭제, 언어 단위별 분리, 언어적·비 언어적 xx 부착, 번역 등)하는 일
3. 국립국어원 및 국립국어원이 발주한 용역 사업의 수행자가 xx저작물 및 그 xx·변 형물을 xx 및 xx 개발용으로 xx·연xxx·산업체 등이 이용할 수 있도록 제공·배 포하는 일
4. xx저작물 및 그 xx·xx물을 제공·배포받은 xx·연xxx·산업체 등이 국어 xx와 언어 xx 처리 분야 xx을 위하여 xx저작물 및 그 xx·xx물을 분석 및 처리하여 xx하는 것을 허락하는 일
<xx 5> 저작권 xx 허락 계약서
저작권 xx 허락 기간은 계약 체결일부터 2038년 12월 31일까지로 하되, xx 허락 기간이 끝나기 6개월 전부터 1개월 전까지의 기간에 xxx가 서면으로 xx 허락 갱신거 절의 통지를 하지 아니하면 xx 허락은 5년 단위로 자동 갱신되며 xx 허락 xx이 유 지된다.
계약 xx xx과 계약서 원본 xx xx에서 개인xx xx 등의 xx를 xxx하기 위해, 계약서 xxx에 xxx 연락처, xx번호 뒷자리 등의 xx는 포함하지 않도록 하 였다.
2-2. 저작권 xx 허락 계약 체결
저작권 xx 허락 계약을 체결하기 위해서는 저작권자를 만나 계약을 체결하고, xx 간 계약서 각 1부씩을 xx하는 것이 원칙xx, 대면을 통해 계약을 체결하기 위해서는 많은 시간과 xx이 소요되며, 참여자 모집과 참여자 본인의 시간과 공간적 제약이 크기 때문에 전자 계약 시스템을 xxx여 계약을 xx하였다.
전자 계약 시스템을 통해 본인 인증 절차를 거침으로써, 참여자 본인에 xx 인증은 물 론 계약서에 직접 개인xx를 xx해야 하는 번거로움을 xxx할 수 있었다.
본 사업을 위해 저작권 xx xx 계약을 완료한 참여자는 총 463xxx, <표 2>의 비 적합 자료 xx에 따라 26xx 계약자는 제외하고 xx 437xx 계약자만을 xxx였다.
<xx 6> 저작권 xx 허락 전자 계약 xx 절차
3. 온라인 게시 자료 수집
온라인 게시 자료의 수집은 사업 xx xx 자체 개발 수집기인 ‘Buzz Crawler’를 이 용하여 수집하였다. 본 사업의 xx 참여자의 xx 또는 게시물 단위로 게시물을 수집하 는 xx으로 xx하였다.
xx소통망인 인스타그램과 페이스북은 참여자 xx xx의 게시 자료 수집, 게시판의 xx는 개별 게시 자료의 URL 주소를 xx하여 게시글 단위로 수집하는 xx을 xx하였 다.
제 3 장
말뭉치 구축
1. 데이터 분류 및 xx
본 사업의 목적에 따라 비적합 자료와 비윤리적 xxx 포함된 자료는 xx 또는 별도 문서로 분리하는 xx을 xx하였다.
1-1. 비적합 자료 xx
xx 비문서, 비국문 자료는 말뭉치 xx에서 제외하였다. 비문서는 이미지, 스티커, x x, 동영상, xx 링크, 웹 주소 등으로만 문서가 구성된 xx이며, 해시태그로만 구성된 게시물 역시 비문서로 xx하여 제외하였다. 또한, 전문이 외국어로 구성된 게시물 역시 말뭉치 xx에서 제외하였다.
다음으로, xx 게시 자료와 펌글 역시 제외하였다. xx소통망의 xx 작성자는 다르 xx 자료의 xx은 동일한 xx가 많아, 이 xx xx 문서로 xx하여 1건으로 xx하 고 xx 문서 건은 삭제하였다. 펌글로만 구성된 게시 자료 역시 본인이 직접 작성하지 않은 xxx므로 비적합 자료로 처리하였다. 또한, 동일한 xx에서 4x x을 초과하여 수집된 게시 자료 역시 자료의 다양성을 위해 삭제로 처리하였다.
<표 2> 비적합 자료 xx
비적합 자료 xx | 세부 xx |
비xx 기간 | 2019년 9월 이전 작성 자료 삭제 |
비문서 | 이미지, 스티커, xx, 동영상, xx 링크, 웹 주소, 해시태그로 만 구성된 게시 자료 삭제 |
비국문 자료 | 전문 외국어로 구성된 게시 자료 삭제 |
xx글, 펌글 | xx 게시 자료 삭제, 펌글(기사, 타인이 작성한 게시물 등)로만 구성된 게시 자료 삭제 |
xx별 한도 초과 자료 | xx별 4x x 초과 게시 자료 삭제 |
1-2. 비윤리적 언어 표현 자료 분리
비윤리적 언어 xxx 포함된 게시 자료는 별도로 분리하여, 납품 xx 원시 말뭉치에 포함되지 않도록 하였다. 직접적인 비윤리적 언어 표현으로 지정한 단어, 맥락 및 xx xx에서 비윤리적 표현에 해당하는 단어 단위를 xx으로 게시 자료를 선별하였다. 욕설, 비어, 속어, 차별 표현, 혐오 xxx 포함된 게시물을 선별해 별도 말뭉치 세트로 xxx 였으며, 비윤리적 언어 표현은 국립국어원의 ‘말뭉치 언어의 사회적 xx 조사·분 류’(2021) xx을 xx으로 하였다.
xx 비윤리적 언어 표현 역시 다양한 비속어로 나타나는 xx가 많고 자음으로만 표현 하는 등 xx이 다양하여 비윤리적 언어 표현을 xx하게 분리하는 xx에 어려움이 있었 다. 이에 따라 표현 xx과 연관된 다양한 용어로 확장하여 비윤리적 언어 표현을 선별함 으로써 원시 말뭉치에서 제외되도록 하였다.
<표 3> 말뭉치 언어의 비윤리적 표현 xx
표현 xx | xx |
혐오 표현 | 특정 개인 및 집단과 이들이 xx 속성에 대하여 적의, 혐오의 x x을 명시적으로 드러내는 표현 |
성적 표현 | 특정 개인 및 집단을 성적으로 묘사하거나 불필요한 맥락에서 특정 신체 부위 및 성적 행위를 적나라하게 드러내는 표현 |
욕설 표현 | 격이 낮고 속된 말, xx을 얕잡아 보고 경멸하는 태도를 드러내거 나 타인에게 불쾌감을 주는 표현 |
차별적 표현 | 암묵적으로 특정 개인 및 집단을 분리하고 불평등하게 xx하는 표 현 |
기타 | 위의 4가지 xx에 해당하지는 않지만, 사회적으로 용인되지 않는 표현 |
<xx 7> 민감 자료 데이터 분리
1-3. 비식별화 처리
참여자와 저작권 xx 허락 계약을 완료하였더라도 개인xx가 xx되지 않도록 비식별 화 처리가 필요하며, 비식별화 처리 xx xx에 따라 비식별 조치를 xx하였다. 이름, 이메일 주소 등 xx xx, 주민등록번호, 카드 번호, 전화번호 등 각종 번호 및 비밀번 호, xx 주소, 출신 및 소속 등의 개인xx와 관련된 사항은 xx되지 않도록 비식별화 처리 xx에 포함하였다. 단, 정치인, 연예인 등 공인의 이름x x식별화 제외하고 주소의 xx 동 이하의 구체적인 xxx 비식별화 처리하였다.
<표 4> 비식별화 처리 xx
비식별화 xx | 비식별화 표지 | xx |
이름 | &name& | 개인의 실명 (정치인, 연예인 등 공인 제외) |
온라인 xx(아이디) | &account& | 특정 사이트의 온라인 xx |
고유 식별 번호 (xx⑨록번호) | &social-security-num& | 개인의 주민등록번호 |
전화번호 | &tel-num& | 휴대폰 번호, 사업장 번호 등 |
카드 번호 | &card-num& | xx카드 번호 등 |
기타 번호 | &num& | 비밀번호 등 기타 비식별화 xx 번호 |
주소 | &address& | 동 이하의 xx 주소 |
출신 및 소속 | &affiliation& | 개인의 출신 및 소속 |
기타 비식별화가 필요한 xx | &others& | 위 xx 외 기타 비식별화 xx |
1-4. 데이터 분류(분야별, 주제별)
xx 한국어 사용자의 언어 xx xx을 반영한 다양한 xx의 자료를 수집하기 위해 분야별·주제별 목표 xx을 xxx고 목표 xx에 맞추어 게시 자료를 수집xxx 하였다.
분야별 목표 xx의 xx을 xxx고, 실제 온라인 게시 자료의 현실적인 데이터를 반 영하고자 국립국어원 ‘웹 말뭉치 구축‘(2019년) 자료 중 인스타그램 1,000건을 사전에 임 의 분류하여 분야별 xx을 분xxx았다.
분야는 포털사이트의 게시 자료 카테고리를 참고로 1차적으로 xxx였다. 그리고 임의 분류를 xx하면서 1차적인 xx을 통합 및 재편하여 xx/xx, 생활/쇼핑, 취미/여가, xx/교육 4개 분야로 xxx였다. 임의 분류 결과, 인스타그램 특성상 xx생활, 육아, xx 등 생활/쇼핑과 관련된 게시글이 절반을 xxx였으며, 취미/여가, xx/교육 순으 로 높은 xx을 xxx였다.
<xx 8> 분야별 임의 분류 결과
(N=1,000 / 단위 : %)
본 사업의 수집 xx 사이트가 인스타그램 외에도 페이스북과 게시판이 포함된 점을 고 려해 임의 분류 결과를 반영하되, 분야별 최소 15% 이상의 게시 자료를 확보하고 균등한 자료 수집을 위해 xx이 상대적으로 낮은 취미/여가, xx/교육, xx/xx 3개 분야는 15% 이상, 생활/쇼핑은 30% 이상 확보를 목표로 xxx였다. 또한 글이 단순하거나 x
x 판단이 불가능하여 분야를 분류할 수 없는 xx는 25% 미만이 되도록 목표를 정하였 다.
<xx 9> 분야별 수집 목표 xx
(단위 : %)
특정 주제가 없는 미분류를 제외한 4개 분야, 21개 xx에 xx xx을 xxx여 분류 하였으며, 주요 키워드를 xx으로 1차 분류 xx 후 미분류 게시 자료를 재분류함으로써 미분류 xx을 xxx하였다.
<표 5> 분야 및 xx 분류 xx
분야 | xx | 세부 xx | 분야 및 xx xx 예시 |
⑨활/ 쇼핑 | xx⑨활 | xx생활 | xx, 내면 다짐, 추억 xx, 슬픈 이야기, 유머, 데일리그램, 브이로그, 출근인증, xxxx그램, 출근xx그램 |
자기계발 | xxxxx, xx, 오늘의 다짐, 자기계발 | ||
가족/xx/ xx | xx/결혼/가족/xx | 결혼, 신혼, 가족, 기념일, xx/예물, 럽xx그램, 데이트, 연애담, 결별 이야기, 파티, xx, 행사, 동호회, 친목회 | |
xxx산/육아 | xx, 출산, 육아, 아이, 육아맘xx, 육아맘xx그램, 육아그램, 맘xx그램, 아가그램, 아가xx그램, 아기 xx | ||
xx/음식 | xx/음식 | 쿡xx그램, 밀키트, 집밥, xx, 레시피, 홈파티, 홈카페, 홈레스토랑, 술/와인/위스키 | |
인테리어/ 집꾸미기 | 인테리어/집꾸미기 | 집꾸미기, 인테리어, 홈스타일링, 리모델링, 온라인집들이, 집소개 | |
패션/xx/ 뷰티 | 패션/xx/뷰티 | OOTD, 코디, 헤어, 메이크업, 피부, 네일, xx, 복부xx, 다이어트, 바디프로필 |
분야 | xx | 세부 xx | 분야 및 xx xx 예시 |
반려동식물/ 키우기 | 반려동식물/키우기 | 개, xxx, 파충류, 식물, 멍xx그램, 냥xx그램, 견xx그램, 독xx그램, 캣xx그램, 애견용품, 길xxx | |
제품 구매/소개 | 제품 구매/소개 | 한정판, 명품, xx템, 받은 선물, 제품 판매글, 제품 xx, 개봉기, 할인권, 협찬 제품 | |
xx/ xx | xx/드라마 /방송 | xx/애니메이션/ OTT | xx, 애니메이션, 극장, 상영작 소개, 넷플릭스, 개봉, xx 시사회 |
드라마/방송/예능 | TV 방송, 드라마 xx xx, 예능짤, 방송프로그램 | ||
xx/전시/ xxx | xx/공예/xxx | xx/xx, 조각, 미술관, 박람회, 뮤지엄, xxx, 박물관 | |
뮤지컬/연극/xx | 뮤지컬, 오페라, 연극, 발레/xx xx | ||
도서/xx | 도서/xx | xx 작품, 도서소개, 서평, 오디오북, 만화책, 웹툰 | |
게임/캐릭터 | 게임 | 게임, 게임 캐릭터, 모바일 게임, 일반 캐릭터 포함 | |
음악/음반/ 콘서트 | 음악/음반/콘서트 | 클래식, 재즈, 국악, 음악감상, 음반, 음질, 사운드, 연주회, 콘서트 | |
인물/연예인 | 연예인/유명인 | 연예인, xx인, 유명인 인맥 xx, 팬덤, 팬클럽 | |
xx/ 교육 | 교육/취업/ 직업 | 교육/xx/강의 | 강의, xx, 강연회, xx, 과목, 외국어 학습, 코딩교육 |
직업/취업/자격증 | 합격 xx, 공시생, 자격증 xx, 취업, 면접, xx xx, 이직, xx, 아르바이트, 자소서 | ||
정치/xx/ 사회 | xx/재테크 | xx, 투자, 금융, 재테크, 코인 | |
정치/사회 | 대통령, 정치인, 정당, 정책, 선거 | ||
의료/xx | 의료/xx | xx, 질병, 질환, 약품, 입원 xx, 투약 xx, xxxx그램, xx기능식품 | |
기타 xx 공유/전문 xx | 공학/ IT/과학 | 이공계 xx xx xx, 전xxx, 전문가 | |
인문학/법학 | xx/법학 xx xx xx, 전xxx, 전문가 | ||
취미/ xx | xx/xx | xx/xx | 여행지, 관광지, 숙소, xx 교통편, 맛집, xx, 핫플, 캠핑, 차박, xx상품 |
xx/스포츠 | xx/스포츠 | 등산, 골프, 홈트, 낚시, 라이딩, 하이킹, 헬스, xx이, 오하운 | |
종교/봉사 | 종교/봉사 | 플로킹, 봉사xx, (돕는) 챌린지, 헌혈, xx, 교회, 사찰, 성당, 부활절 | |
기타 취미xx | 기타 취미xx | 취미 결과물 xx, 만들기, DIY, 수채화, 뜨개질, xx그리기, 덕질 xx글 | |
미분류 | 특정 xx 없음 단일 xx 판단 불가 | ·xx 없는 모호한 xx ·글이 짧아 xx 판단이 불가한 xx ·포함되는 분야 및 xx 없는 xx ·복합적인 xx으로 단일 xx로 판단하기 어려운 xx |
실제 수집 xx 결과, 인스타그램이 전체의 87%를 xxx는 자료의 특성상, 생활/쇼핑 xx이 44%로 높은 xx을 xxx였다. 미분류 xxx x분류를 통해 xxx하여 목표 xx xx 절반 xx으로 낮추었다.
그러나, 임의 분류 결과와 마찬가지로, 수집이 약 80% 이루어진 xx에서 중간 점검을 한 결과 ’xx/xx‘ xx이 5% xx으로 xx 낮았으며, ’xx/교육‘ 분야 역시 10% x x으로 목표 xx xx 부족한 xx이었다.
자발적 참여만으로는 분야별 목표 xx xx이 불가능하여, 약 80% 수집이 이루어진 시점 이후에는 xx xx 내부 자료를 xx하여 ’xx/xx‘, ’xx/교육‘ xx 게시물 x x xx을 선별해 추가 모집하는 xx을 통해 목표 xx을 확보하였다. xx 수집한 분야 및 주제별 xx은 다음과 같다.
<표 6> 분야별 xx
분야 | 문서 수(건) | xx | ※ 참고. 목표 xx |
⑨활/쇼핑 | 134,606 | 43% | 30% |
xx/xx | 46,562 | 15% | 15% |
xx/교육 | 47,291 | 15% | 15% |
취미/xx | 46,516 | 15% | 15% |
특정 xx 없음/xx 판단 불가 | 35,025 | 11% | 25% |
합계 | 310,000 | 100% | 100% |
참여자 게시물을 목표 xx을 xxx지 않고 수집을 xx했다면, 사이트별로 분야의 x x을 파악하는 xx가 있을 수 있으나, 의도적으로 분야별 목표 xx을 두어 할당한 것이 므로 사이트별 분야 xx은 본 사업에서는 파악하지 않았다.
분야 내 주제별 xx은 ’xx/xx‘ xx xx이 전체의 10%로 가장 높은 xx을 차지 하였으나, 전반적으로 다양한 주제별 게시 자료가 수집되었다. 주제별 xx은 다음과 같 다.
<표 7> 분야 내 주제별 xx
분야 | xx | 문서 수(건) | xx (%) |
⑨활/ 쇼핑 | xx생활 | 18,777 | 6.1 |
가족/xx/xx | 29,683 | 9.6 | |
xx/음식 | 24,658 | 8.0 | |
인테리어/집꾸미기 | 6,345 | 2.0 | |
패션/xx/뷰티 | 20,701 | 6.7 | |
반려동식물/키우기 | 14,377 | 4.6 | |
제품 구매/소개 | 20,065 | 6.5 | |
xx/ xx | xx/드라마/방송 | 14,783 | 4.8 |
xx/전시/박람회 | 8,057 | 2.6 | |
도서/xx | 11,999 | 3.9 | |
게임/캐릭터 | 2,876 | 0.9 | |
음악/음반/콘서트 | 6,388 | 2.1 | |
인물/연예인 | 2,459 | 0.8 | |
xx/ 교육 | 교육/취업/직업 | 12,881 | 4.2 |
정치/xx/사회 | 9,419 | 3.0 | |
의료/xx | 21,351 | 6.9 | |
기타 xx 공유/전문 xx | 3,640 | 1.2 | |
취미/ xx | xx/xx | 31,747 | 10.2 |
xx/스포츠 | 9,118 | 2.9 | |
종교/봉사 | 3,013 | 1.0 | |
기타 취미xx | 2,638 | 0.9 | |
미분류 | 특정 xx 없음/xx 판단 불가 | 35,025 | 11.3 |
합 계 | 310,000 | 100.0 |
2. 원시 말뭉치 구축 및 메타 xx 구축
수집과 분류 및 xx 작업이 완료된 온라인 게시 자료는 국립국어원의 원시 말뭉치 구축 지침에 지정된 xx과 xx을 xx으로 원시 말뭉치 자료를 구축하고 JSON xx xx로 출력하였다. 파일명 부여 xx과 JSON xx의 말뭉치 xx은 다음과 같다.
<표 8> 파일명 부여 xx
말뭉치 xx 구분 | 매체 및 장르 분류 | 분석 층위 구분 | 구축 xx | 8자리 xx번호 |
E: 온라인 게시 자료 말뭉치 | S: xx소통망 P: 게시판 | OR: xx 자료 RW: 원시 말뭉치 | 22 | 00000001~ 99999999 |
<표 9> 말뭉치 xx(JSON)
1 xx | 2 xx | 3 xx | xx |
id | 말뭉치 xx ID | ||
metadata | xx의 메타 xx | ||
title | 국립국어원 온라인 게시 자료 원시 말뭉치 [xxID] | ||
creator | xx(국립국어원) | ||
distributor | 배포자(국립국어원) | ||
year | 말뭉치 구축 xx(2022) | ||
category | 분류 | ||
annotation_level | 분석 층위 (원시) | ||
sampling | 샘플링 xx(게시자 모집 후 무작위 xx) | ||
document | 문서 xx | ||
id | 문서 ID | ||
metadata | 문서의 메타 xx | ||
title | 문서 제목 | ||
author | 작성자 | ||
publisher | 게시 플랫폼 | ||
date | 작성일시, 게시일시 | ||
topic | 주제 | ||
crawl_date | 크롤링 일시 | ||
url | URL 주소 | ||
paragraph | 문단 | ||
id | 문단 ID | ||
form | 정제된 형태 | ||
original_form | 원문 표기된 그대로의 형태(개인 정보 비식별화 후) |
원시 말뭉치 구축 지침에 따라 출력한 말뭉치 형식(JSON) 납품 형태는 다음과 같다.
<그림 10> 누리소통망 말뭉치(JSON) 출력 예시
<그림 11> 게시판 말뭉치(JSON) 출력 예시
참고문헌
국립국어원(2019), 웹 말뭉치 구축, 국립국어원.
국립국어원(2021), 말뭉치 언어의 사회적 인식 조사·분류, 국립국어원. 국립국어원(2021), 2021년 온라인 대화 자료 수집 및 정제, 국립국어원.
부록
[붙임 1] 국가 언어 자원(말뭉치) 구축 및 활용 저작권 이용 허락 계약서
국가 언어 자원(말뭉치) 구축 및 활용 저작권 이용허락 계약서
저작자 및 저작권 이용허락자 (이하 “권리자”이라 함)와 저작권 이용자 국립국어원(이하 “이용자”이라 함)은 아래 저작물에 관한 저작재산권 이용허락과 관련하여 다음과 같이 계약을 체결한다.
다 음
제1조 (계약의 목적)
본 계약은 저작재산권 이용허락과 관련하여 권리자와 이용자 사이의 권리관계를 명확히 하는 것을 목적 으로 한다.
제2조 (계약의 대상)
본 계약의 이용허락 대상이 되는 권리는 아래의 저작물(이하 “대상저작물”)에 대한 저작재산권 중 당사 자가 합의한 권리로 한다.
저작물: 저작자가 국립국어원의 2022년 온라인 게시 자료 수집 및 정제 사업 기간(2022년 4 월 28일부터 2022년 11월 28일까지) 동안 위 사업에 제공하는 모든 온라인 게시 자료
저작자:
종별: □✔ 어문저작물
권리: □✔ 복제권, ✔□ 전송권, □✔ 배포권, □✔ 2차적저작물작성권, □✔ 편집저작물작성권
※ 저작권 이용허락에는 다음 사항을 포함한다.
1. 국립국어원 및 국립국어원이 발주한 용역 사업의 수행자가 대상저작물을 일정한 형식으로 전자적 기록 매체에 담아 보존하는 일
2. 국립국어원 및 국립국어원이 발주한 용역 사업의 수행자가 자모, 음절, 어휘, 어절, 구절, 문장 및 텍스트 단위의 국어 연구와 언어 정보 처리 분야에 응용하기 위해 대상저작물을 복제·변형(목차·머리 말·도표·그림·각주 등의 편집 및 삭제, 언어 단위별 분리, 언어적·비언어적 정보 부착, 번역 등)하는 일
3. 국립국어원 및 국립국어원이 발주한 용역 사업의 수행자가 대상저작물 및 그 복제·변형물을 연구 및 기술 개발용으로 학계·연구기관·산업체 등이 이용할 수 있도록 제공·배포하는 일
4. 대상저작물 및 그 복제·변형물을 제공·배포받은 학계·연구기관·산업체 등이 국어 연구와 언어 정보
처리 분야 응용을 위하여 대상저작물 및 그 복제·변형물을 분석 및 처리하여 사용하는 것을 허락 하는 일
제3조 (이용허락 기간)
대상저작물의 이용 허락 기간은 계약체결일부터 2038년 12월 31일까지로 한다. 권리자가 이용 허락을 갱신하지 않고자 한다면 이용 허락 기간이 끝나기 6개월 전부터 1개월 전까지의 기간에 이용자에게 서면 으로 이용 허락 갱신거절의 통지를 하지 아니하면 이용 허락은 5년 단위로 자동 갱신되며 이용 허락 내용 이 유지된다.
제4조 (권리자의 의무)
(1) 권리자는 이용자에게 대상저작물에 관하여 본 계약서 제2조에 따른 저작재산권을 이용할 권리 및 제 3자에게 재이용을 허락할 권리를 제3조의 기간 동안 비독점적으로 허락한다.
(2) 권리자는 이용자에게 계약 체결일로부터 10일 이내에 대상저작물의 이용을 위해 필요한 상당한 자료 를 인도하여야 한다. 다만, 대상저작물이 한국저작권위원회에 등록되어 있지 않은 경우 이용자가 요청하면 이용 허락자는 대상저작물의 저작재산권을 등록한 후 위 의무를 이행한다.
(3) 권리자는 대상저작물에 제3자의 이용 허락권, 질권 등이 존재하는 경우, 이용자에게 그 사실을 사전 에 알려야 한다.
(4) 권리자는 대상저작물의 저작재산권 전부 또는 일부를 제3자에게 양도하거나 이에 대하여 질권을 설 정하고자 하는 경우, 사전에 이용자에게 이 사실을 통보하여야 한다.
제5조 (이용자의 권리 및 의무)
(1) 이용자는 대상저작물을 제3조의 이용허락 기간 동안 제2조의 이용 허락을 받은 범위 내에서 비독점 적으로 자유롭게 이용할 수 있고 제3자에게 재이용을 자유롭게 허락할 수 있다.
(2) 이용료는 설정하지 아니한다.
(3) 이용자는 관례적으로 저작자 및 저작재산권자의 성명 등 표시를 허용하는 대상저작물을 이용하는 경 우, 그 저작자 및 저작재산권자의 성명 등을 표시하여야 한다.
(4) 이용자는 대상저작물을 이용함에 있어서 저작인격권을 침해하지 아니한다. 다만, 제2조에 규정한 바 에 따라 대상저작물에 대한 변형 등을 할 수 있으며, 대상저작물의 본질적인 내용을 변경하지 않는 범위 내에서 수정 및 편집을 할 수 있다.
제6조 (확인 및 보증)
(1) 권리자는 이용자에게 다음 각 호의 사항을 확인하고 보증한다.
1. 대상저작물의 저작권이용허락을 체결하는 데 필요한 권리 및 권한을 적법하게 보유하고 있다는 것
2. 대상저작물의 내용이 제3자의 저작권, 상표권, 인격권을 비롯한 일체의 권리를 침해하지 아니한다는 것
3. 대상저작물에 대하여 이용자에게 사전에 알린 제3자의 권리 외에는 이용자의 이용을 제한할 수 있는 부담이 더 이상 존재하지 아니한다는 것
(2) 이용자는 권리자에게 다음 각호의 사항을 확인하고 보증한다.
1. 대상저작물의 이용허락을 받은 범위 내에서 제3자에게 재이용을 허락할 것
2. 대상저작물을 제3자의 명예권을 비롯한 인격적 권리를 침해하는 방식으로 이용하지 아니할 것
제7조 (계약내용의 변경)
본 계약 내용 중 일부를 변경할 필요가 있는 경우에는 권리자와 이용자의 서면합의에 의하여 변경할 수 있으며, 그 서면합의에서 달리 정함이 없는 한, 변경된 사항은 그 다음날부터 효력을 가진다.
제8조 (계약의 해지)
(1) 당사자는 천재지변 또는 기타 불가항력으로 계약을 유지할 수 없는 경우에 본 계약을 해지할 수 있 다.
(2) 당사자는 상대방이 정당한 이유 없이 본 계약을 위반하는 경우에 상당한 기간을 정하여 상대방에게 그 시정을 최고하고, 상대방이 그 기간이 지나도록 이행하지 아니하는 경우에는 계약을 해지할 수 있다. 다만, 상대방이 명백한 시정 거부의사를 표시하였거나 위반 사항의 성격상 시정이 불가능하다는 것이 명백 히 인정되는 경우에는 위와 같은 최고 없이 계약을 해지할 수 있다.
(3) 본 계약에 대한 해지권의 행사는 상대방에 대한 손해배상청구권 행사에 영향을 미치지 아니한다.
제9조 (손해배상)
당사자가 정당한 이유 없이 본 계약을 위반하는 경우, 그로 인하여 상대방에게 발한 모든 손해를 배상 할 책임이 있다. 다만, 제8조 1항의 사유로 본 계약을 이행하지 못한 경우에는 손해배상책임을 면한다.
제10조 (비용의 부담)
계약 체결에 따른 비용은 이용자가 전부 부담한다.
제11조 (분⑨해결)
(1) 본 계약에서 발하는 모든 분쟁은 권리자와 이용자가 상호 원만한 합의에 이르도록 노력하여야 하 며, 분쟁이 원만히 해결되지 않는 경우에는 소제기에 앞서 한국저작권위원회에 조정을 신청할 수 있다.
(2) 제1항에 따라 해결되지 아니할 때에는 대한민국의 민사소송법 등에 따른 관할법원에서의 소송에 의 해 해결토록 한다.
제12조 (비밀유지)
양 당사자는 본 계약의 체결 및 이행과정에서 알게 된 상대방에 관한 정보, 본 계약의 내용을, 상대방의 서면에 의한 승낙 없이 제3자에게 공개하여서는 아니 된다.
제13조 (기타부속합의)
(1) 권리자와 이용자는 본 계약의 내용을 보충하거나, 이 계약에서 정하지 아니한 사항을 규정하기 위하 여 부속합의서를 작성할 수 있다.
(2) 제1항에 따른 부속 합의는 본 계약의 내용과 배치되거나 위반하지 않는 범위 내에서 유효하다.
제14조 (계약의 해석 및 보완)
본 계약서에서 명시되어 있지 아니하거나 해석상 이견이 있을 경우에는 저작권법, 민법 등을 준용하고 사회 통념과 조리에 맞게 해결한다.
제15조 (계약 효력 발⑨일)
본 계약의 효력은 계약 체결일로부터 발한다.
2022년 월 일
권리자 :
성명 (인)
주민등록번호(앞자리만)
이용자 :
성명 국립국어원장 (인)
주소 서울특별시 강서구 금낭화로 154
<기획·연구>
국립국어원 강미영 언어정보과장 국립국어원 이보라미 학예연구관 국립국어원 서샛별 학예연구사 국립국어원 윤희상 연구원
<사업 참여자>
사업 책임자 이영희 (㈜버즈메트릭스)
사업 참여자 김수진 (㈜버즈메트릭스)
신현주 (㈜버즈메트릭스) 김도현 (㈜버즈메트릭스) 이진상 (㈜버즈메트릭스) 유지현 (㈜버즈메트릭스) 권주원 (㈜버즈메트릭스)
발행인: 국립국어원장 발행처: 국립국어원
서울시 강서구 금낭화로 154
전화 02-2669-9775, 전송 02-2669-9727
인쇄일: 2022년 11월 28일 발행일: 2022년 11월 28일 인 쇄: ㈜타라그래픽스
※ 이 책은 국립국어원의 용역비로 수행한 ‘2022년 온라인 게시 자료 수집 및 정제’ 사업의 결과물을 발간한 것입니다.