개발자

텍스트 전처리 및 분류 태스크에서의 LLM 활용 방법

1월 29일조회 53

안녕하세요 현재 Text classification 을 진행해야 하는 상황입니다. 단순히 아웃풋만 가져오기보다는 나중에 아이템이 새로 생겼을 때 인퍼런스도 진행해야 되는데요. 현재는 크롤링된 글 1200개 가량 정도 보유하고 있지만 지속적으로 늘어날 것입니다. 이 부분에서 LLM을 활용하는 것이 좋을지 판단해주시면 좋겠습니다. 아래는 저의 고민사항들입니다. 1. 기술적 역량을 기르기 위해 시작하는 프로젝트인데 LLM에게 텍스트 전처리, 분류까지 맡기는게 맞을까요? 2. 제가 생각하는(알고 있는) 방법은 LLM API를 호출해서 처리하는 방법인데 그렇게 한다면 속도나 비용 측면에서 손해를 보지 않을까? (Batch 형식으로 하지는 못할까?) 3. 회사들 중에 LLM을 활용하여 어떠한 태스크를 진행하고 있다는 글들은 자체적으로 Fine Tuning한 LLM을 활용하고 있는 것인지? 4. 물론 어느 정도의 전처리가 들어가겠지만 프롬프트로 input 관리부터 output 까지 관리할 수 있는지? llm을 처음 활용하는 것인데 개념이 잡히지 않은 것 같아 이런 고민들이 생기는 것 같습니다. 많은 조언 주시면 감사하겠습니다!

이 질문이 도움이 되었나요?
'추천해요' 버튼을 누르면 좋은 질문이 더 많은 사람에게 노출될 수 있어요. '보충이 필요해요' 버튼을 누르면 질문자에게 질문 내용 보충을 요청하는 알림이 가요.
profile picture
익명님의 질문

답변 0

답변이 없을 때 보이는 아이콘

첫 답변을 기다리고 있어요.

지금 가입하면 모든 질문의 답변을 볼 수 있어요!

현직자들의 명쾌한 답변을 얻을 수 있어요.

또는

이미 회원이신가요?

AI 답변
커리어리 AI 봇 프로필 이미지

커리어리 AI 봇

GPT가 달아주는 답변입니다.

1월 29일

안녕하세요, LLM(Language Model for Large-scale Multi-label Text Classification)의 활용에 대하여 질문해주셨군요. 여러분의 고민사항에 대해 제 생각을 아래에 답변으로 남겨봅니다. 1. 데이터 전처리와 분류 과정은 모델 학습의 중요한 부분입니다. LLM이 이를 처리 가능하긴 하지만 기술적 실력 향상이 목표라면 스스로 작성해 보는 것도 좋습니다. 그럼에도 불구하고, 시간이나 자원 등의 제약 때문에 이 부분을 LLM 등의 도구에 위임하려 한다면 충분히 합리적입니다. 2. LLM API 호출로 처리하는 방식은 연산 비용과 속도 문제를 유발할 수 있습니다. 가능하다면 로컬에서 모델을 실행하거나 클라우드 서버에서 배치 처리를 사용하는 게 효율적일 수 있습니다. 3. 많은 회사들이 LLM을 활용하여 다양한 태스크를 해결하는데, 그 중 일부는 사전 학습된 모델을 그대로 사용하고, 일부는 자체적으로 Fine-tuning을 진행합니다. 특정 도메인이나 적용 사례에 따라서는 Fine-tuning이 더 좋은 성능을 내기도 합니다. 4. 텍스트 전처리부터 아웃풋까지의 모든 과정을 프롬프트로 관리하는 것은 가능합니다. 다만 이 경우에는 모델의 디자인과 구현 시 필요한 많은 세부 사항들을 고려해야 할 것입니다. LLM 활용에 대한 이러한 개념적인 이해는 초기 설정과 사용법, 그리고 도메인 지식에 기반하여 달라질 수 있습니다. 가능하면 목표 설정과 계획 단계에서 충분한 시간을 할애하여 다양한 옵션들을 고려해 보시길 바랍니다.

목록으로

지금 가입하면 모든 질문의 답변을 볼 수 있어요!