텍스트 마이닝 또는 텍스트 에널레틱

14일간 매일 포스트하는 데이터 블로그 챌린지 [😈데블챌] 2기의 네번째 포스트, 이번에는 인간의 언어를 분석하는 텍스트 에널레틱입니다.

인간의 언어를 정량적으로 이해하려는 노력은 지금까지 꾸준히 존재해왔습니다.

텍스트 마이닝, 텍스트 에널레틱이라고 불리는 텍스트 분석은 말뭉치, 어근, 단어, 문장, 그리고 문서까지를 단위로 분석하여 인사이트를 도출해내는 분석 방법을 의미합니다.

[요약]

텍스트 분석에서 가장 많이 사용되는 개념은 바로 TF-INDF 라고 불리는 지표인데요. 특정 텍스트 내에서 얼마나 자주 특정 단어나 구문이 사용되었는지, 그리고 다른 문장이나 문서에 비해 얼마나 자주 사용되었는지를 가중치를 사용해 나타내는 지표입니다.

즉 얼마나 문장에서 특정 단어가 자주 사용되었는지, 그리고 다른 문장에 비해 얼마나 자주 사용되었는지를 나타내는 지표인 것이죠. 이러한 분석은 그룹별 또는 비교군 별 비교가 가능하고, 각 맥락을 파악할수 있어서 매우 흥미로운 분석이기도 합니다.

[인사이트]

HR 분야에서는 점점 더 근로자의 정성적 특징을 정량적으로 파악하고자 하는 시도들이 증가하고 있습니다. 근로 평가, 피드백, 회고 등을 텍스트 분석하여 유의미한 결과를 찾아내는 것이 앞으로의 트렌드가 될 수 있다는 생각을 합니다.

앞으로도 데이터 분석을 재미있고 가치있게 배울수 있도록 데이터 리차드가 함께 하겠습니다.

#데이터리차드 #데블챌 #4일차 #데이터분석 #😈

Text Mining in HR) 나한테는 있는데 너한테는 없는 것 * HeartCount Blog

HeartCount Blog on Svbtle

Text Mining in HR) 나한테는 있는데 너한테는 없는 것 * HeartCount Blog

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 5월 30일 오후 10:11

댓글 0