분석 배경
데이터 분석가 직무로 취업을 준비하면서 다양한 기업들의 신입 데이터 분석가 채용 공고를 모아보기 시작
수집한 채용 공고를 체계적으로 분석해보며 데이터 분석가 신입에게 요구되는 역량과 경험에는 주로 어떤 것들이 있는지 파악하여
나의 부족한 부분을 명확히 파악하고 채워나가는 방향성을 잡
기 위함이지만 사실 월간데이터노트 발표를 위해 분석해보고 싶었습니다. (솔직)
분석 목적
- 요즘 데이터 분석가 신입 공고에 요구되는 역량과 키워드 흐름을 파악한다.
- 채용 공고 텍스트에 숨겨진 패턴을 기반으로 취업 준비 방향성 제시한다.
데이터 개요 : 경력 사항, 고용 형태, 입사 전형
경력 사항
- 신입(경력무관) > 3년 이상 > 2년 이상 > 1년 이상 순
경력사항 | 유형 수 |
신입 | 20개 |
6개월 이상 | 1개 |
1년 이상 | 6개 |
2년 이상 | 9개 |
3년 이상 | 14개 |
고용 형태
- 정규직 > 인턴 > 계약직 순
고용 형태 | 유형 수 |
정규직 | 44개 |
인턴 | 4개 |
계약직 | 2개 |
정규직 or 계약직 | 1개 |
입사 전형
- 입사 전형에 대한 정보가 없는 3건 제외
- 추가 전형 / 변동 가능성이 있는 케이스 제외
- 대부분의 경우 2차 면접까지 있음, 과제 및 변동 사항까지 고려하면 절반 가량 쿼리테스트를 진행하고 있음
전형별 진행비율 | 포함된 공고 수 | 비고 | |
1차 면접 | 100% | 51 | - |
2차 면접 | 84% | 42 | - |
쿼리테스트 | 42% | 21 | 과제 4건, 변동 4건 제외 |
인성/역량검사 | 6% | 3 | 3차 면접 4건 제외 |
데이터 분석 : 토픽 모델링, 채용 키워드 분석
[채용 키워드 분석]
분석 방법
TF-IDF (Term Frequency-Inverse Document Frequency)
문서 내에서 단어의 중요도를 수치화하는 방법
특정 문서에 자주 등장하지만 전체 문서에서는 드문 단어에 높은 가중치를 부여
단어 빈도수(Frequency)
특정 단어가 전체 텍스트 집합에서 등장한 횟수를 단순 집계하여, 빈번히 사용되는 핵심 키워드를 파악
진행 순서
- 텍스트 구분
공고를 주요 업무 / 자격 요건 / 우대 사항 3개 영역으로 구분 - 텍스트 전처리:
- 특수 문자 제거
- 불용어 처리
- 형태소 분석기를 통한 명사 및 의미 있는 토큰 추출
- TF-IDF 기반 분석
- TF-IDF 점수를 계산하여 각 영역별로 상대적으로 중요한 단어를 추출
- 빈도수 기반 분석
- 단어별 등장 빈도수를 집계하여 자주 언급된 핵심 키워드를 확인
- 결과 해석 및 비교:
- TF-IDF 기준과 빈도수 기준 결과를 비교하여, 단순히 많이 나오는 단어와 진짜 의미상 중요한 단어를 함께 해석
[토픽모델링]
분석 방법
LDA(Latent Dirichlet Allocation)
문서 집합에서 숨겨진 주제(Topic)를 발견하는 비지도 학습 방법
각 문서는 여러 주제의 혼합으로, 각 주제는 특정 단어들의 분포로 구성되어 있다고 가정
TF-IDF (Term Frequency-Inverse Document Frequency)
진행 순서
- 텍스트 데이터 전처리 (불용어 제거, 정규화 등)
- 단어 빈도(TF-IDF) 기반 주요 키워드 도출
- LDA 모델 학습하여 5개의 대표 토픽 도출
- 토픽별 상위 키워드 분석 및 회사별 대표 토픽 매칭
- pyLDAvis를 활용해 토픽 시각화 및 해석
채용 키워드 분석 : 가장 많이 등장하는 키워드는?
- 수집한 채용공고를 기준으로, 주요 업무 / 자격 요건 / 우대 사항으로 구분하여 주요 키워드를 분석
- TF-IDF 기준과 빈도수 기준을 모두 활용하여, 어떤 단어들이 가장 빈번하게 등장하고, 어떤 키워드가 상대적으로 중요한 의미를 가지는지 함께 파악
- TF-IDF와 빈도수 기준을 병행하여 단순 출현 횟수뿐만 아니라 '상대적 중요도'가 높은 키워드까지 함께 고려
1. 주요 업무 : 신입 데이터 분석가에게 기대하는 역할
- 주요업무 영역에서는 '데이터', '분석', '설계', '지표' 등의 키워드가 높은 순위를 차지
- 분석 역량 뿐만아니라, 설계 역량(지표 설계, 데이터 구조 설계 등)도 초반부터 중요하게 요구됨
- 비즈니스와 고객 관점에서 문제를 바라보는 시각이 필요
순위 | 빈도수 단어 | 빈도수 | TF-IDF 단어 | 평균 TF-IDF |
1 | 데이터 | 207 | 고객 | 0.058353 |
2 | 분석 | 157 | 데이터 분석 | 0.057969 |
3 | 설계 | 48 | 지표 | 0.057420 |
4 | 지표 | 46 | 비즈니스 | 0.049632 |
5 | 비즈니스 | 45 | 설계 | 0.049205 |
6 | 인사이트 | 42 | 인사이트 | 0.045791 |
7 | 고객 | 38 | 관리 | 0.042798 |
8 | 서비스 | 34 | 서비스 | 0.042413 |
9 | 대시보드 | 32 | 지원 | 0.041202 |
10 | 전략 | 31 | 도출 | 0.040252 |
2. 자격 요건 : 신입 데이터 분석가에게 요구되는 기본기
- 자격요건에서는 '분석', '경험', 'SQL', '문제 해결 능력'이 강하게 나타남
- SQL 기반 데이터 추출/분석 능력 필수
- 문제를 정의하고 해결하는 사고력 강조
- 팀 내외부와 협업할 수 있는 커뮤니케이션 능력 중시
순위 | 빈도수 단어 | 빈도수 | TF-IDF 단어 | 평균 TF-IDF |
1 | 데이터 | 143 | 분석 | 0.138908 |
2 | 분석 | 119 | 경험 | 0.093910 |
3 | 경험 | 74 | 데이터 분석 | 0.079937 |
4 | 문제 | 33 | 능력 | 0.066844 |
5 | 능력 | 31 | 역량 | 0.057388 |
6 | 역량 | 29 | sql | 0.052082 |
7 | sql | 28 | 커뮤니케이션 | 0.049220 |
8 | 커뮤니케이션 | 25 | 문제 | 0.048999 |
9 | 도출 | 23 | 도출 | 0.042093 |
10 | 해결 | 21 | 이해 | 0.040994 |
3. 우대 사항 : 신입 지원자에게 기대하는 추가 경쟁력
- 우대사항에서는 '경험', '데이터 분석 경험', '도메인 이해도'가 높은 빈도와 중요도를 보임
- 다양한 데이터 프로젝트 경험이 플러스 요인
- 서비스나 비즈니스 도메인에 대한 이해를 갖춘 지원자를 선호하는 경향
순위 | 빈도수 단어 | 빈도수 | TF-IDF 단어 | 평균 TF-IDF |
1 | 경험 | 112 | 데이터 | 0.121766 |
2 | 데이터 | 82 | 분석 | 0.089997 |
3 | 분석 | 59 | 데이터 분석 | 0.062201 |
4 | 서비스 | 26 | 서비스 | 0.056525 |
5 | 비즈니스 | 18 | 이해도 | 0.047200 |
6 | 이해 | 17 | 분석 경험 | 0.044519 |
7 | 이해도 | 16 | 경험 데이터 | 0.043989 |
8 | 시각 | 15 | 업무 | 0.042764 |
9 | 업무 | 14 | 이해 | 0.041113 |
10 | 프로젝트 | 12 | 비즈니스 | 0.041097 |
토픽 모델링 : 대표 토픽별 주요 키워드, 요즘 기업에서는 어떤 인재를 원할까?
pyLDAvis Top-30 기준
대표 토픽 | 주요 키워드 (pyLDAvis Top-30 기준) |
Topic 1 | 데이터, 분석, 경험, 서비스, 지표, 인사이트, 비즈니스, 도출, 문제, 설계, 가설, 해결, 이해, 결과, 업무, 고객, 마케팅, 전략, 시각, 개선, 추출, 정의, 대시보드, 커뮤니케이션, 검증, 협업, 성장, 사용, data, 의사결정 |
Topic 2 | 데이터, 분석, 경험, 비즈니스, 업무, 서비스, 인사이트, 설계, 지원, 운영, sql, 대시보드, 의사결정, 게임, 구축, python, 환경, 개발, 개선, 관리, 능력, 도출, 행동, 시각, 고객, 자동화, 결과, 처리, tableau, 커뮤니케이션 |
Topic 3 | 데이터, 분석, 경험, 문제, 게임, 제품, 설계, 비즈니스, 유저, KPI, 고객, 개선, 능력, 통계, 구축, 마케팅, 테스트, 지표, 시각, 정의, 제안, 콘텐츠, 관리, 업데이트, 광고, 관심, BI, 파악, 논리 |
Topic 4 | 데이터, 협업, 분석, 경험, 기획, 서비스, 대시보드, 제공, 문제, 시각, 업무, 프로, Redash, 방식, 수준, 개발, 지식, 최적, 유기, 도입, SaaS, 커뮤니케이션, SQL, Data, BI, 마케팅, 역량, 수집, Tableau |
Topic 5 | 분석, 데이터, 프로젝트, 문제, 경험, 구성원, 전달, 인사이트, 커뮤니케이션, 도출, SQL, 역량, 실행, 의미, 입사, 비즈니스, 이해도, 해결, 제안, 구조, 실험, 기획, 디지털, 결과, 기여, 서비스, 시각, 졸업, 상황, 면적 |
단어 확률(Probability) 기준
대표 토픽 | 주요 키워드 (LDA 토픽 모델링 내 단어 확률(Probability) 기준) |
Topic 1 | 분석, 데이터, 프로젝트, 문제, 경험, 구성원, 전달, 인사이트, 커뮤니케이션, 도출, SQL, 역량, 실행, 의미, 입사, 비즈니스, 이해도, 해결, 제안, 구조, 실험, 기획, 디지털, 결과, 기여, 서비스, 시각, 졸업, 상황, 면적 |
Topic 2 | 데이터, 분석, 경험, 비즈니스, 업무, 서비스, 인사이트, 설계, 지원, 운영, SQL, 대시보드, 의사결정, 게임, 구축, Python, 환경, 개발, 개선, 관리, 능력, 도출, 행동, 시각, 고객, 자동화, 결과, 처리, Tableau, 커뮤니케이션 |
Topic 3 | 데이터, 협업, 분석, 경험, 기획, 서비스, 대시보드, 제공, 문제, 시각, 업무, 프로, Redash, 방식, 수준, 개발, 지식, 최적, 유기, 도입, SaaS, 커뮤니케이션, SQL, Data, BI, 마케팅, 역량, 수집, Tableau |
Topic 4 | 데이터, 분석, 경험, 서비스, 지표, 인사이트, 비즈니스, 도출, 문제, 설계, 가설, 해결, 이해, 결과, 업무, 고객, 마케팅, 전략, 시각, 개선, 추출, 정의, 대시보드, 커뮤니케이션, 검증, 협업, 성장, 사용, Data, 의사결정 |
Topic 5 | 데이터, 분석, 경험, 문제, 게임, 제품, 설계, 비즈니스, 유저, KPI, 고객, 개선, 능력, 통계, 구축, 마케팅, 테스트, 지표, 시각, 정의, 제안, 콘텐츠, 관리, 업데이트, 광고, 관심, BI, 파악, 논리, 결과 |
*두 결과는 단어 순위와 특성이 달라질 수 있음*
LDA 모델 내장 출력(print_topics)은 각 토픽 내부의 높은 확률 단어를 보여주는 반면, pyLDAvis 시각화는 전체 토픽 간 차별성을 고려해 해당 토픽에 더 특화된 단어를 선정한다.
구분 | lda_model.print_topics() | pyLDAvis 시각화 Top-30 (Top-λ relevance) |
선택 기준 | 각 토픽 내에서 확률(probability)이 높은 단어 순 | 전체 코퍼스와 비교하여 토픽에 상대적으로 더 특화된 단어 순 |
초점 | 토픽 내부에서 많이 나오는 단어 | 다른 토픽과 차별되는 단어를 강조 |
추출 방식 | 토픽-단어 분포에서 직접 뽑음 | λ (relevance weight, 기본 0.6) 를 적용해서 계산함 |
단어 분포 | 개별 토픽에 종속 | 전체 토픽 간 상대성 고려 |
*λ (relevance weight) : λ 값은 0과 1 사이 숫자,
λ 값 | 의미 | 단어 선택 기준 |
λ = 1 | 토픽 내 확률 (topic probability) 기준 | "이 단어가 이 토픽 안에서 얼마나 많이 등장하는가?"에만 초점 |
λ = 0 | 단어의 고유성 (term specificity) 기준 | "이 단어가 이 토픽에만 독특하게 나타나는가?"를 중시 |
λ = 0.6 (기본값) | 둘을 혼합 | "토픽 안에서 많이 등장" + "토픽 특유성" 모두 고려 |
Topic 1: 프로젝트 실행 및 커뮤니케이션 중심
- 에이블리코퍼레이션, 나이스지니데이타, 이노션
주요 키워드: 분석, 데이터, 프로젝트, 문제, 경험, 구성원, 전달, 커뮤니케이션, 실행, 인사이트
핵심 키워드 : 경험, 서비스, 지표, 인사이트, 비즈니스, 도출, 문제, 업무
- 특성:
- 프로젝트 단위로 문제 해결하는 방식
- 프로젝트 진행 과정에서 협업과 커뮤니케이션을 통한 실질적 실행력 강조
- 해석:
➔ 데이터 분석 역량뿐 아니라 실제 프로젝트 경험과 커뮤니케이션, 문제 해결 능력을 바탕으로, 구성원 간 협력과 결과 중심 실행을 중시하는 포지션
➔ 분석만 하는 게 아니라 "실행력"까지 기대하는 포지션
Topic 2: 비즈니스 성장 + 테크 기반 분석형
- 토스 플레이스, 넷마블, 쿠팡
주요 키워드: 데이터, 분석, 서비스, 설계, 구축, 자동화, Python, SQL, 관리, 개선
핵심 키워드 : 비즈니스, 업무, 서비스, 구축, 운영, 개발, 개선, 고객
- 특성:
- 데이터 시스템/서비스를 구축하고 자동화하는 엔지니어링 성향
- 업무 자동화/최적화 기반 설계(개발/운영 포함)
- SQL, Python 같이 언어 활용 능력 강조
- 해석:
➔ "기술형 데이터 분석가", 비즈니스 결과에 직접 기여
➔ 서비스와 데이터 시스템 구축, Python, SQL 기반의 자동화 및 관리 최적화 역량 중요시
Topic 3: SaaS/BI 기반 협업형 분석가
- 채널톡, 로앤컴퍼니(lawtalk)
주요 키워드: 데이터, 협업, 서비스, 대시보드, 제공, SaaS, Redash, BI, Tableau
핵심 키워드 : 고객, 제품, 지표, 마케팅, 테스트, 개선
- 특성:
- Redash, Tableau, SaaS 등 BI 툴/분석 플랫폼 경험 강조
- BI 도구 기반 협업 및 데이터 시각화/제공 중심
- 해석:
➔ "SaaS나 BI 환경 안에서 협업을 주도하는 실무형 데이터 분석가"
➔ BI 툴과 SaaS 환경에서 데이터를 수집·가공·제공하고, 협업과 커뮤니케이션을 통해 인사이트를 빠르게 공유하는 데이터 분석 업무에 초점
Topic 4: 비즈니스 전략형 데이터 분석가
- 토스 인컴, 토스 뱅크, 말해보카, 카카오페이, 타다, 미리디, 라포랩스, 우아한형제들(배달의민족) 등
주요 키워드: 지표, 인사이트, 전략, 가설, 검증, 성장, 마케팅, 의사결정, 개선
핵심 키워드 : 협업, 대시보드, 서비스, 기획, 제공, 개발, BI, SaaS, 커뮤니케이션
- 특성:
- 지표 기반 문제 인식 → 가설 수립 → 결과 분석 → 인사이트 제시
- 마케팅, 전략, 개선까지 비즈니스 성과 최적화에 초점
- 해석:
➔ 지표 기반 전략 수립과 비즈니스 임팩트 창출에 집중하는 분석 포지션
➔ 데이터 보는 것만 아니라 가설 → 검증 → 개선의 사이클로 전략/성과 관점까지 고민
Topic 5: 제품/유저 중심 성장형
- 무신사, 마티니 아이오, 버즈빌, 기어세컨드, 베이글코드 등
주요 키워드: 게임, 제품, KPI, 유저, 콘텐츠, 구축, 업데이트, 광고, 통계, 논리
핵심 키워드 : 프로젝트, 문제, 경험, 인사이트, 기획, 결과, 서비스, 구조
- 특성:
- 제품(게임, 콘텐츠 등) 중심 KPI 관리/개선/테스트
- 사용자 행동(유저) 중심 분석
- 해석:
➔ "제품/서비스 데이터 기반으로 유저 행동을 분석하고, KPI 성장을 주도하는 분석가"
➔ 거의 "데이터 기반 그로스(Growth) 분석가" 포지션
정리 : 토픽별 특징 및 키워드 요약
토픽별 문서 비중
- Topic 1: 4개 문서 (7.84%)
- Topic 2: 12개 문서 (23.53%)
- Topic 3: 2개 문서 (3.92%)
- Topic 4: 26개 문서 (50.98%)
- Topic 5: 7개 문서 (13.73%)
대표 토픽 | 특징 | 해석 키워드 |
Topic 1 | 기초 분석 & 문제 정의/실행 | 프로젝트 운영 + 실행/커뮤니케이션 역량 |
Topic 2 | 비즈니스 최적화 + 테크 스킬 강조 | 서비스 설계 및 구축, 비즈니스 자동화, Python/SQL |
Topic 3 | 협업형 SaaS/BI 분석 | BI툴 협업, SaaS/ BI 툴 Redash/Tableau 활용 분석 |
Topic 4 | 전략/성과 인사이트 분석 | 지표 기반 전략/가설 검증/성장 주도 |
Topic 5 | 제품 중심 유저 그로스 해킹 | 제품 중심 KPI 관리/콘텐츠 개선 |
주요 혜택 및 복지
- 건강검진 지원, 경조사 지원, 무제한 간식, 리프레시 휴가, 식대 지원, 장비 지원 등등 휴가 및 업무 환경 + 문화 지원
구분 | 내용 |
2-gram | 업무 관련, 업무에 필요한, 건강검진 지원, 경조사 지원, 무제한 간식, 리프레시 휴가, 식대 지원, 근무 환경을, 명절 선물, 자율과 책임의 |
3-gram | 자율 출퇴근 제도, 반기별 성과급 지급, 점심 식대 지원, 명절 선물 지급, 명절 상여금 생일축하비, 자율과 책임의 문화, 자율과 효율의 근무, 훌륭한 팀과 동료(?), 법인카드 전원 지급, 정보 공유와 수평적인 |
4-gram | 업무 관련 비용 100, 관련 비용 100 지원, 최고급 장비 소프트웨어 제공, 자율과 효율의 근무 환경을, 자율과 책임의 원칙 아래, 문제 해결을 위해 협업하고, 문화 속에서 구성원 업무에, 경조 휴가 경조금 지원, 지급 매월 통신비 체력단련비(?), 공유와 수평적인 문화 속에서 |
근무지
- 강남구에 근무지가 가장 많았고 (21개) 다음 서초구(7개), 성남시 등 기타 지역(7개)
지역 | 개수 |
강남구 | 21 |
서초구 | 7 |
기타 (경기도 성남시 등) | 7 |
송파구 | 4 |
구로구 | 3 |
마포구 | 3 |
성동구 | 2 |
관악구 | 2 |
중구 | 2 |
용산구 | 1 |
영등포구 | 1 |
마무리
데이터 기반 문제 정의와 해결 능력
SQL 역량
비즈니스 이해를 바탕으로 인사이트를 도출하는 논리적인 사고력
팀과 원활하게 협업할 수 있는 커뮤니케이션 능력
그외 도메인... 이 중요함을 깨달았습니닷
'글또 > project' 카테고리의 다른 글
월간 데이터 노트 3월 : 성공적인 하루를 위한 나만의 조건 방정식 (0) | 2025.03.29 |
---|---|
사이드 프로젝트 : 배달 데이터 분석(3) - 핵심 지표 선정, 가설 검증 및 가설 채택, 문제 정의 (0) | 2025.03.16 |
월간 데이터 노트 2월 : 케이크 가심비 프로젝트 (7) | 2025.03.01 |
사이드 프로젝트 : 배달 데이터 분석(2) - 현황 파악, 문제 정의를 위한 가설 설정 (0) | 2025.02.16 |
시간을 지배하는 법 : 데이터 기반 생활 패턴 개선 프로젝트 (1) | 2025.02.01 |