설문조사 주관식 응답 분석 방법, 문항 유형별로 알아보기

설문조사 주관식 응답 분석 방법, 문항 유형별로 알아보기

간단한 설문조사를 할 때도 객관식 보기를 구성할 수 있을 만큼의 정보가 부족하거나 자유로운 답변을 받고 싶을 때 주관식 문항을 활용하곤 합니다. 그런데 이렇게 수집한 주관식 응답 데이터는 정작 잘 활용하지 못할 때가 많습니다. 댓글을 읽듯 하나씩 보고 인상적인 응답만 동료에게 공유하는 정도에 그치는 경우가 많죠.

주관식 응답도 다양한 방식으로 분석할 수 있어요. 예를 들어 형태소 단위로 응답 데이터를 쪼개서 많이 언급된 키워드가 무엇인지 볼 수 있고, 금액이나 횟수 등 숫자형 응답은 평균·최빈값·중앙값 등 다양한 지표를 산출해볼 수도 있죠.

오픈서베이의 데이터 분석 툴 오픈애널리틱스는 주관식 응답 분석을 쉽게 시작할 수 있도록 다양한 기능을 제공합니다. 이번 글에서는 상대적으로 접근하기 쉬운 키워드 추출과 평균·최빈값·중앙값 등을 활용해서 주관식 응답 데이터를 분석하는 방법을 알아봅니다.

주관식 응답의 3가지 유형

주관식 응답은 다음과 같이 크게 2가지, 숫자형과 문자형으로 나눌 수 있습니다. 문자형은 다시 단답형과 서술형으로 나뉘어요. 유형별로 결과를 해석하는 단계나 봐야 할 지표가 달라서 기억해두면 좋습니다.

  • 숫자형 주관식
    • 숫자로 답하는 유형으로, 대개 개월·원·회 등 단위를 제시하고 숫자로 답하도록 합니다.
  • 문자형 주관식
    • 단답형: 명사형으로 답하는 유형입니다. (ex. 가장 좋아하는 브랜드, 요즘 떠오르는 트렌드 등)
    • 서술형: 문장형으로 답하는 유형입니다. (ex. 좋아하는 이유, 불편한 점 등)

그럼 지금부터 주관식 응답 유형별로 결과 해석을 쉽게 시작하는 방법을 알아봅니다.

1. 숫자형 응답, 다양한 지표와 차트 활용하기

먼저 주관식 숫자형 응답부터 살펴보겠습니다. 주관식 숫자형은 개수, 횟수, 가격 등에 관한 의견을 구체적인 숫자로 받고 싶을 때 유용해요. 예를 들면 “OO 제품을 한 번 구매하면 얼마나 오래 쓸 수 있다고 생각하나요?”나 “다음과 같은 제품이 있다면 얼마에 살 것 같나요?” 등 다양한 질문을 할 수 있죠.

💡 주관식 숫자형 문항 자주 활용해도 될까?

기간이나 금액에 관해 물을 때 주관식 숫자형 문항을 활용하는 경우가 많습니다. 그런데 주관식 숫자형 문항은 주의해서 사용해야 해요. 응답자가 구체적으로 떠올리기 어려운 숫자는 주관식으로 물으면 오히려 부정확한 응답을 얻을 수도 있기 때문입니다.

예를 들어 ‘지난 한 달 동안 식료품 구매에 쓴 돈’은 어림잡을 순 있어도 정확한 금액을 바로 기억해내기는 어려울 거예요. 이럴 때는 객관식으로 10만 원 미만/10만 원 이상~20만 원 미만과 같이 구간을 제시하고 선택하도록 하는 편이 좋아요.

1) 평균과 함께 최빈값·중앙값 등 지표 함께 보기

숫자 데이터가 있으면 누구나 평균(전체 데이터의 합을 데이터의 수로 나눈 값)을 먼저 찾아볼 거예요. 평균이 주로 대표값으로 활용되기는 하지만, 최빈값·중앙값 등 다양한 지표를 함께 살펴보는 게 좋습니다. 설문조사에서는 응답자가 질문을 오해하거나 단위를 착각하는 등 다양한 이유로 오응답이 생길 수 있어요. 이런 오응답은 주관식 숫자형에서 예상되는 결과 범위를 크게 벗어나는 값을 만들곤 합니다. 이를 이상치라고 부르는데, 이상치가 있는 경우에는 평균만으로 전체 데이터를 파악하기 어려울 수 있습니다.

그래서 평균 외에도 다음과 같은 다양한 지표를 함께 보며 데이터의 의미를 파악해야 합니다. 아래는 주관식 숫자형 응답 데이터를 분석할 때 평균 이외에도 함께 보면 좋은 대표적인 지표예요. 아래 지표는 모두 오픈애널리틱스에서 자동으로 계산해 보여줍니다.

  • 표준편차: 평균을 중심으로 응답 데이터가 얼마나 좁거나 넓게 분포하고 있는지 나타내는 지표예요. 표준편차가 클수록 데이터가 넓게 퍼져있고, 작을수록 평균에 가깝게 분포합니다.
  • 최빈값: 언급되는 빈도가 높은 값으로, 숫자의 크기 자체에는 의미가 없는 데이터를 볼 때 유용합니다. 예를 들어 ‘올해 휴가를 계획하는 달’을 물었다면, 12월이 숫자 자체가 크고 1월이 작은 건 의미가 없죠. 이런 때에 최빈값이 중요한 지표가 됩니다.
  • 중앙값: 전체 데이터를 작은 것부터 오름차순 나열했을 때 딱 가운데에 놓이는 값입니다. 이상치의 영향을 받지 않는 값이 필요할 때 많이 활용됩니다. 대표적으로 소득 수준이 여기에 해당합니다. 소득 수준의 평균은 소수의 고소득자 때문에 지나치게 높아지는데, 중앙값은 그 영향을 받지 않거든요.
  • 최솟값, 최댓값: 각각 가장 작은 값과 가장 큰 값입니다. 최솟값이나 최댓값에서 지나치게 튀는 값을 발견한다면 이상치를 의심해볼 수 있어요.
  • Percentile 30과 Percentile 70: 전체 데이터를 작은 것부터 오름차순 나열했을 때 하위 30%와 하위 70(=상위 30%)에 해당하는 값입니다. 100명이라면 30번째, 70번째 응답이죠. 응답을 작은 그룹, 중간 그룹, 큰 그룹으로 나누고 싶을 때 활용할 수 있는 지표예요.

2) 숫자형 응답에서 이상치 골라내는 방법

그럼 이상치는 어떻게 골라낼 수 있을까요? 지금부터는 예시 설문을 함께 보겠습니다. 응답자에게 무선 이어폰을 구매하면 보통 얼마나 사용할 수 있다고 생각하는지 개월 단위로 물었어요. 그런데 ‘360개월’이라는 응답이 눈에 띕니다. 일반적으로 무선 이어폰을 30년씩이나 쓴다고 생각하진 않을 텐데요. 아마 응답 단위가 개월이 아니라 일수라고 착각한 듯 보입니다. 그렇다면 우리는 이 값을 이상치라고 판단할 수 있어요. 주관식 숫자형 응답을 해석할 때는 이상치를 찾아 골라내는 게 중요합니다.

이상치를 찾는 데 한 가지 팁이 있다면 최솟값과 최댓값, 그리고 히스토그램을 활용하는 겁니다. 히스토그램은 전체 데이터를 일정한 간격(구간)으로 나누고, 각 구간에 포함되는 데이터의 개수를 막대로 나타낸 차트입니다. 막대가 높을수록 해당 구간에 데이터가 많다는 의미라서, 데이터가 어떻게 분포하고 있는지 한눈에 확인할 수 있습니다.

무선 이어폰 사용 기간을 물었던 문항의 결과 차트를 볼까요? 최댓값이 360인데 차트를 보니 90부터 360 사이엔 응답이 없습니다. 이를 보고 우리는 360이 혼자 지나치게 큰 값이라고 판단할 수 있어요.

오픈애널리틱스 결과 요약 탭

💡이상치를 찾는 기준이 있나요?

이상치를 찾는 데 정해진 기준은 없어요. 시장 상황과 비즈니스에 대한 이해를 바탕으로 이 응답이 나올만한 응답인지를 판단해야 합니다. 무선 이어폰 브랜드 담당자라면 이어폰을 30년 쓴다는 응답은 상식적이지 않다고 생각할 수 있는 것처럼요. 물론 통계적으로 이상치를 정의하는 다양한 방법론도 있으니, 필요하다면 전문가의 도움을 받을 수도 있습니다.

3) 구간 설정 기능으로 더 쉽게 차트 분석하기

또 주관식 숫자형 응답 데이터를 히스토그램으로 시각화할 때는 구간을 적절하게 설정해주어야 합니다. 오픈애널리틱스는 구간이 15로 기본 설정되어 있는데, 필요에 따라 자유롭게 수정할 수 있습니다. 15는 응답을 묶기에 너무 크거나 작은 간격일 수 있으니까요. 아래 이미지는 무선 이어폰 사용 기간 응답 차트를 구간 6으로 수정해 그린 히스토그램입니다. 이전보다 응답의 분포를 파악하기 수월해졌죠.

오픈애널리틱스 결과 요약 탭

2. 단답형 응답, 워드클라우드 활용하기

이번에는 주관식 문자형 중 단답형 응답을 살펴봅니다. 문자 데이터는 다양한 방법으로 분석할 수 있는데, 그중 가장 쉽게 시작할 수 있는 방법은 키워드별 언급량을 확인하는 거예요. 오픈애널리틱스에서는 워드클라우드 형태로 가장 많이 언급된 키워드를 한눈에 보여줍니다. 워드클라우드는 말 그대로 단어 구름이라는 뜻으로, 텍스트 데이터를 시각화하는 대표적인 방법이에요.

아래는 “가장 자주 사용하는 무선 이어폰 브랜드의 제품명을 알려주세요”라는 주관식 문항의 응답을 워드클라우드로 나타낸 결과입니다. 워드클라우드에서는 특정 단어가 언급된 빈도가 높을수록 글자가 크고 빈도가 낮을수록 작게 나타납니다. 그래서 한눈에 언급이 많이 된 단어를 파악할 수 있어요. 이 워드클라우드에는 ‘에어팟’ ‘에어팟2’ ‘버즈’ ‘qcy’가 가장 크게 보이네요. 오른쪽에는 언급 빈도가 높은 단어 Top 10 목록도 확인할 수 있습니다.

오픈애널리틱스 결과 요약 탭

💡 워드클라우드 노출 기준은?

워드클라우드에서 글자 크기를 결정하는 기준은 제작 툴마다 다릅니다. 오픈애널리틱스는 전체 응답에 대해 고유 알고리즘으로 표준화 과정(언급 빈도의 평균과 표준편차를 활용하는 방식)을 거쳐, 가장 자주 언급된 순서대로 5개 구간으로 나누어 글자의 크기와 색깔을 달리 나타냅니다. 또한, 워드클라우드가 너무 복잡해지지 않도록 언급률이 전체의 3%에 미치지 못하는 응답은 제외합니다.

3. 서술형 응답, 로우 데이터까지 함께 보기

마지막으로 서술형 응답입니다. 워드클라우드는 서술형 응답을 해석하는 데도 마찬가지로 유용한 도구예요. 앞서 살펴봤듯, 워드클라우드는 텍스트 데이터의 경향을 한눈에 파악할 수 있도록 도와주기 때문입니다.

하지만 서술형은 응답 길이가 긴 만큼 단답형보다는 조금 더 까다롭습니다. 서술형에서는 언급된 단어 자체는 물론, 그 단어가 문장 안에서 사용된 맥락과 뉘앙스도 중요하기 때문이에요. 그래서 서술형 응답을 볼 때는 워드클라우드를 활용해 경향성을 파악한 다음, 꼭 응답 원본(로우 데이터)까지 살펴보기를 추천합니다.

이번에는 향후 무선 이어폰을 살 때 중요하게 고려할 점에 대해 서술형으로 받은 응답을 보겠습니다. 워드클라우드를 먼저 보니 ‘음질이’ ‘연결이’ ‘가격이’ ‘가성비’가 눈에 띕니다. 이것만 봐도 우리는 무선 이어폰에서 중요한 요소는 음질, 연결, 가격임을 짐작할 수 있어요. 주요 키워드라고 불러도 좋겠습니다. 하지만 구체적으로 어떤 연결이 중요한지, 음질이 어떠하기를 바라는지까지는 알 수 없어요.

오픈애널리틱스 결과 요약 탭

그래서 오픈애널리틱스에서는 문자 응답 원본을 함께 볼 수 있습니다. 보기 기준을 ‘문자 응답 원본’으로 바꾼 뒤 주요 키워드였던 ‘연결’을 문자 응답 원본에서 검색해볼게요. 그러자 ‘연결 방법이 쉬워야 한다’ ‘연결이 끊기지 않아야 한다’ ‘빠르게 연결되어야 한다’ 등 조금씩 의미가 다른 구체적인 응답을 확인할 수 있습니다. 이처럼 워드클라우드를 활용해 주요 키워드를 골라내고, 키워드 위주로 응답 원본을 살펴보면 응답의 뉘앙스까지 파악할 수 있답니다. 더 고도화된 분석이 필요하다면 별도 문의를 통해 전문가의 도움을 받을 수도 있습니다.

오픈애널리틱스 결과 요약 탭

주관식 응답 데이터 해석이 어려운 이유

지금까지 주관식 응답 데이터 해석을 쉽게 시작하는 방법을 알아봤습니다. 사실 주관식 응답을 깊게 분석하기 시작하면 끝이 없어요. 특히 문자는 대표적인 비정형 데이터로, 분석하기 매우 까다롭습니다. 형태소 분석 외에도 텍스트에서 주제를 파악하고 이에 따라 단어를 카테고리화하는 토픽 모델링, 단어 간의 연결 관계를 분석하는 의미연결망 분석 등 다양한 방법론이 꾸준히 발전하고 있죠.

하지만 우리의 목적은 텍스트 분석 방법론을 익히는 게 아니라 주관식 설문 응답 결과를 이해하는 것이니, 아주 복잡한 분석이 필요한 경우가 아니라면 오픈애널리틱스와 같은 적절한 툴의 도움을 받으면 됩니다. 해석하기 까다롭긴 해도 주관식 문항은 응답자의 더 자세한 의견을 확인할 수 있는 좋은 방법이에요. 잘 활용할 수 있다면 한층 더 풍부한 인사이트를 얻을 수 있을 겁니다.

📝 오픈서베이에서 설문조사 시작하기

혹시 설문조사 또는 오픈애널리틱스에 대해 더 궁금한 점이 있거나 자신의 목적에 적합한 조사 방법을 알고 싶다면 아래 링크를 눌러 오픈서베이에 1:1로 문의해보세요.

✔️ 오픈서베이에 1:1 문의하기

주관식 데이터 분석 더 연습하기

글에서 활용한 무선 이어폰 관련 조사는 오픈애널리틱스에서 누구나 결과를 직접 확인하고 분석해볼 수 있습니다. 아래 버튼을 눌러 오픈애널리틱스 예시 설문에서 주관식 문자형 데이터의 워드클라우드와 응답 원본을 살펴보고, 숫자형 데이터의 다양한 지표와 차트를 직접 확인해보세요.

오픈서베이 콘텐츠 마케팅 매니저