더불어민주당(597건)과 국민의힘(599건) 누리집에 게시된 논평·성명·보도자료 등 발표문 전수를 수집했다. 2001년부터 2025년까지 발표된 1196건이다. 김종우 연세대 연구교수(사진·사회학)에게 분석을 의뢰했다. 김 교수는 문서 안에서 단어가 나타나는 횟수와 의미 연결 방식, 글에서 드러난 감정 등을 분석하는 새로운 사회과학 연구 기법과 전통적인 사회학 연구 이론을 접목해 한국 사회의 담론 형성을 연구하는 학자다. 지난해 2월에는 유튜브 생중계 영상을 통해 집회 현장 시민 발언의 언어 연결망을 분석했다. 또 보수 진영 유명 유튜버의 집회 현장에서와 스튜디오에서 발언을 비교해 두 공간의 담론이 사안에 따라 어떻게 변화하고 상호작용하는지 연구하기도 했다.
정치사회학적 이론과 텍스트 마이닝 기법(토픽모델링과 정서 분석)을 결합해 정량적·정성적 분석을 병행했다. 다량의 텍스트 분석 기법인 토픽모델링은 잠재된 주제를 자동으로 추출하는 방법이다. 확률적으로 유사한 주제들을 수차례 뽑도록 해 정확도를 높이는 방식으로 계산한다. 정서 분석은 2022년 서울대학교 심리학과 연구팀에서 12개 플랫폼에서 수집한 한국어 댓글 5만개를 분석해 43가지 레이블로 구분한 데이터셋을 활용했다. 하나의 문서 안에서 가장 많이 드러나는 감정을 하나의 개체로 처리했다. 주요 연도별 인물은 해당 연도 문서에서 가장 많이 언급된 인물군을 개체명 인식 기법으로 다빈출 인물을 중심으로 선별했다. 주변 인물은 한국언론진흥재단 뉴스 빅데이터 분석 서비스 ‘빅카인즈’를 활용해 추렸다. 주요 인물의 이름과 ‘구속영장’이 함께 언급된 기사를 바탕으로 관계도를 분석했다. 빅카인즈에서 제공하는 모든 언론사 기사를 이용했다. 취재=윤준호·이예림·소진영 기자
사진=남정탁·최상수 기자
편집=서혜진·도진희 기자
일러스트·그래픽=권기현·손성하 기자
윤준호·이예림·소진영 기자