기본적으로 알아야 할 머신러닝 알고리즘 10

머신러닝을 공부하면서 늘 헤깔리는 것중에 하나가 알고리즘 부문인 거 같습니다. 마침, 이 알고리즘을 깔끔하게 정리한 글이 있어 공유해 봅니다. 데이터 영역에 관심있는 분들 뿐만 아니라 머신러닝이나 AI에 관심있는 분들은 원문을 꼭 일독하시길 강추(!)합니다~^^ 📜 지도학습 👉 선형회귀, 로지스틱 회귀, K-최근접 이웃, 나이브 베이즈, 결정 트리, 랜덤 포레스트, XG부스트, 라이트GBM, 📜 비지도학습 👉 K-평균 군집화, 주성분 분석(PCA) 🔔 선형 회귀(Linear Regression) 🚩 문제 유형 : 회귀 🚩 적합한 데이터 유형 : 종속변수와 독립변수가 선형 관계에 있는 데이터 🚩 장점: 모델이 간단하기 때문에 구현과 해석 용이, 짧은 모델링 시간 🚩 단점: 최신 알고리즘에 비해 예측력이 떨어진다. 🚩 유용한 곳: 연속된 변수 예측, 예를 들어 BMI(체질량지수), 매출액, 전력 사용량과 같은 변수 사용시 🔔 로지스틱 회귀(Logistic Regression) 🚩 문제 유형 : 분류 🚩 적합한 데이터 유형 : 종속변수와 독립변수가 선형 관계에 있는 데이터 🚩 장점: 구현 용이, 계수(기울기)를 사용해 각 변수의 중요성 파악 용이 🚩 단점: 선형 회귀 분석을 기본으로 하기 때문에, 선형 관계가 아닌 데이터에 대한 낮은 예측력 🚩 유용한 곳: Yes/No, True/False와 같은 두 가지 범주로 나뉜 값을 예측하거나 /분류 문제에 있어서 기준선 Baseline으로 활용 🔔 K-최근접 이웃(KNN) 🚩 문제 유형 : 회귀/분류 🚩 적합한 데이터 유형 : 아웃라이어가 적은 데이터 🚩 장점: 직관적이고 간단함. 선형모델과 다르게 별도의 가정 불필요 🚩 단점: 데이터가 커질수록 속도 및 성능 저하 가능성. 아웃라이어에 취약함 🚩 유용한 곳: 주로 분류(Classification)에서 사용되며, 로지스틱 회귀로 해결할 수 없는 3개 이상의 목표 변수들도 분류 가능, 작은 데이터셋에 적합 🔔 나이브 베이즈(Naive Bayes) 🚩 문제 유형 : 분류 🚩 적합한 데이터 유형 : 독립변수의 종류가 매우 많은 경우 🚩 장점: 비교적 간단한 알고리즘으로 빠른 속도와 작은 훈련셋으로도 예측 가능 🚩 단점: 모든 독립변수가 각각 독립적임을 전제로 함. 숫자형 변수가 많은 때는 부적합 🚩 유용한 곳: 각 독립변수들이 모두 독립적이고 그 중요도가 비슷할 때 유용 / 자연어 처리(NLP)에서 간단하지만 좋은 성능 / 범주 형태의 변수가 많을 때 적합 🔔 결정 트리(Decision Tree) 🚩 문제 유형 : 회귀/분류 🚩 적합한 데이터 유형 : 일반적인 데이터 🚩 장점: 데이터에 대한 가정이 없기에 어디에나 자유롭게 적용 가능한 모델(Non-parametric) / 아웃라이어에 거의 영향 받지 않음 / 결정트리 그래프 통해서 직관적인 이해와 설명 가능 / 시각화 🚩 단점: 트리가 무한정 깊어지면 오버피팅 문제 야기 / 다른 트리기반 모델에 비하면 상대적으로 낮은 예측력 🚩 유용한 곳: 종속변수가 연속형 데이터와 범주형 데이터인 경우 모두 사용 가능 / 모델링 결과를 시각화해야 하는 경우 / 아웃라이어가 많은 경우 🔔 랜덤 포레스트(Random Forest) 🚩 문제 유형 : 회귀/분류 🚩 적합한 데이터 유형 : 일반적인 데이터 🚩 장점: 아웃라이어에 거의 영향 받지 않음 / 선형,비선형 데이터에 상관없이 잘 작동 🚩 단점: 상대적으로 느린 학습 속도 / 수많은 트리를 동원하기 때문에 모델 해석이 어려움 / 부스팅 모델에 비하면 예측력이나 속도 부족 / 시각화 부분에서는 결정 트리에 비해 미흡 🚩 유용한 곳: 앙상블 기법을 사용한 트리 기반 모델 중 가장 보편적인 방법으로 부스팅 모델을 이해하려면 꼭 알아야 할 필수 알고리즘 🔔 XG부스트(XGBoost) 🚩 문제 유형 : 회귀/분류 🚩 적합한 데이터 유형 : 일반적인 데이터 🚩 장점: 빠른 예측 속도와 예측력 / 변수 종류가 많고 데이터가 클수록 뛰어난 성능 🚩 단점: 복잡한 모델로 해석의 어려움 / 더 나은 성능을 위한 까다로운 하이퍼파라미터 튜닝 🚩 유용한 곳: 캐글 컴피티션의 우승자가 많이 사용하 성능이 검증된 그래서 가장 인기 있는 부스팅 모델 🔔 라이트GBM(LightGBM) 🚩 문제 유형 : 회귀/분류 🚩 적합한 데이터 유형 : 일반적인 데이터 🚩 장점: XGBoost보다도 빠르고 높은 정확도 / 예측에 영향을 미친 변수의 중요도 확인 가능 / 변수 종류가 많고 데이터가 클수록 상대적으로 뛰어난 성능 🚩 단점: 복잡한 모델로 해석의 어려움 / 더 나은 성능을 위한 까다로운 하이퍼파라미터 튜닝 🚩 유용한 곳: 표로 정리된 데이터(tabular data)에서 캣부스트, XGBoost와 함께 가장 좋은 성능을 보여주는 알고리즘 🔔 K-평균 군집화(K Means Clustering) 🚩 장점: 비교적 간단한 구현 / 쉽게 해석 가능한 클러스터링 결과 /수 많은 데이터를 가지고 있는 경우 클러스터링을 통해 데이터를 적절한 수의 그룹으로 나누고 그 특징을 살펴볼 수 있는 장점 🚩 단점: 사용자가 직접 선택해야 하는 최적의 K값 / 거리 기반 알고리즘이기 때문에, 변수의 스케일에 따라 다른 결과 가능성 🚩 유용한 곳: 여러 클러스터링 기법 중에서도 가장 보편적이고 무난함 🔔 주성분 분석(PCA) 🚩 장점: 다차원을 2차원에 적합하도록 차원 축소하여 시각화 유용 / 변수 간의 높은 상관관계 문제 해결 🚩 단점: 기존 변수가 아닌 새로운 변수사용한 해석이 어려움 / 차원이 축소됨에 따라 정보 손실 가능성 🚩 유용한 곳: 다차원 변수들을 2차원 그래프로 표현 필요시 / 변수가 너무 많아 모델 학습에 시간이 너무 오래 걸릴 때 /오버피팅을 방지 용도

확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT

요즘IT

확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 3월 17일 오전 3:42

 • 

저장 97조회 3,658

댓글 0

    함께 읽은 게시물

    스트레스를 잘 관리하면서 건강하게 살아가고 싶다면, 우선 살아있는 한 우리가 해야 할 일들은 영원히 없어지지 않을 것이므로, 해야 할 일을 100% 해내면서 할 일 목록을 완전히 없애는 데 많은 노력을 들이기보다는 70% 정도만 해내도 만족할 필요가 있다.

    ... 더 보기

    [박진영의 사회심리학]스스로 만들어 내는 스트레스

    m.dongascience.com

    [박진영의 사회심리학]스스로 만들어 내는 스트레스

    지금 당장 퇴사해야 합니다!

    ... 더 보기

    ‘똑부(똑똑하고 부지런하기)보다 똑게(똑똑하지만 게으른) 리더가 되라.’ 리더십 코칭에서 빠지지 않는 훈수다. 현장 리더들의 말을 들어보면 실행이 쉽지 않다.

    ... 더 보기

    [김성회의 고사성어 리더십] `똑게 리더십` 3가지 법칙 - 매일경제

    매일경제

    [김성회의 고사성어 리더십] `똑게 리더십` 3가지 법칙 - 매일경제

    조회 400



    개발자는 개발만 잘하면 될까

    최근에 친구가 추천해준 데일 카네기의 인간관계론을 읽던 중 고액 연봉을 받는 엔지니어들의 특징에 대한 흥미로운 내용이 있었다.

    ... 더 보기

     • 

    저장 13 • 조회 2,549


    여전히 나이를 중요하게 여기는 우리나라에서 사회생활할 때 가장 큰 변곡점이 오는 나이는 40세다. 물론 20대말과 30대 중반, 40대 중반, 50대에도 중간중간 크고 작은 변곡점이 있기는 하지만, 다시 돌이키기 어려울 정도로 이후 방향을 고착화시킨다는 의미에서, 혹은 현재 커리어패스가 중심이 아니라 이후 인생 2막이나 3막을 자발적이던 강제적이던 가야하는 상황은 아니라는 의미에서, 사회생활 시작과 함께 만들어온 커리어패스를 가지고 일을 할 수 있다는 기준에서 볼 때, 40세는 상징적이다.


    60세면 당연히 할아버지, 할머니 소리를 들으면서 70세 전후에 죽는게 당연했던 불과 20여년 전까지만해도 예전의 40세는 일하고 있는 산업과 분야에서 전문성과 리더십을 충분히 갖추고 있는 베테랑으로 이제 그동안 쌓아온 역량과 네트워킹으로 퇴직할 때까지

    ... 더 보기