Project / 텍스트 분석 프로젝트

# .1 개요

2026. 4. 8.

image.png

본 수업에서는 한 학기동안 진행할 프로젝트

주제 선정 유의사항

  • 10년간 꾸준한 기사량과 장기 추세가 존재하는가
  • 검색 키워드가 명확하여 관련 기사 수집이 안정적인가
  • 사건 자체보다 구조적 변화와 방향성을 보여줄 수 있는가
  • 시각화 이후 해석 가능한 인사이트를 도출할 수 있는가
  • 키워드 하나가 아니라, 그 키워드를 통해 확인하고 싶은 변화까지 포함하는가
  • 최종적으로 그래프를 근거로 의미 있는 결론을 제시할 수 있는가

image.png 본래 프로젝트 주제로 해당 주제를 선정했으나,
  1. 검색 키워드의 범위가 너무 넓고

  2. 10년 장기 추세로 보기엔 시계열 일관성이 약했음

  3. 기술 나열형 주제에 가까워서 해석 포인트가 흐려졌음

  4. 기사량은 있어도 분석 대상이 너무 업계 편향적일 수 있었음

해당 사유로 인해 프로젝트의 주제를 변경하였다.

변경한 프로젝트 주제는

<지난 10년간 한국 소설 출간 메타로 본 주제/정서 키워드 변화>

해당 주제는 장기 시계열 분석 과제의 기준을 대체로 충족한다고 판단했다. 국립중앙도서관 국가자료종합목록 및 ISBN 서지정보 API를 통해 연도별 출간 목록과 ISBN 기반 메타데이터를 안정적으로 확보할 수 있고, 네이버 책 검색 API와 알라딘 OpenAPI를 통해 소개문·카테고리 등 보조 텍스트를 결합할 수 있다. 이에 따라 단순한 키워드 언급량 비교를 넘어서, 지난 10년간 한국 소설의 주제 및 정서 표현이 어떻게 변화했는지를 구조적으로 해석할 수 있는 분석 주제로 적합하다고 보았다.

image.png 해당 데이터 api는 이런 식의 구조로 진행하기로 하였다. image.png 해당 단계로 프로젝트를 진행할 예정이다.

-> 현재 국립중앙도서관 open api key 발급승인을 기다리는 중이다.