비 개발자가 GPT, 뤼튼으로 한글 데이터 카테고라이징 머신 러닝 하기
3시간동안 GPT 4.0, 뤼튼과 함께 작업한 산출물입니다. 많이 부족하지만 빠르게 지식을 습득한 케이스입니다. 리서치 결과 데이터나 VoC를 수집한 뒤 자동으로 카테고리화 하는 방법을 물어보았고 머신러닝을 하라고 해서 구글 코랩에서 파이썬 언어로 작업되었습니다. 결과적으로, 원하는 카테고리를 정해주면 카테고리의 주제에 속하는 한글 데이터를 묶어서 보여줍니다. GPT가 Silhouette Score, Davies-Bouldin Index 지표를 개선시키면 결과가 정확해진다고 하셔서 개선 중에 있습니다. 약 3만개의 한글 문장을 2차원으로 축소한 후 K-평균 군집화를 적용, 성능을 평가합니다. 차원 축소는 t-SNE를 사용하였고, 데이터를 군집화 하는데는 K-평균 알고리즘이 사용되었습니다.(저는 뭔 뜻인지 모릅니다..... 맥북 M1 Air로 하려니 오래걸리네요...) t-SNE(T-distributed Stochastic Neighbor Embedding)는 고차원 데이터를 저차원(여기서는 2차원)으로 변환하는 기법입니다. 이런 기법은 주로 고차원 데이터를 시각화할 때 사용됩니다. K-평균(K-Means)은 주어진 데이터를 K개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작합니다.