Paper page - LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs
huggingface.co
LongWriter: 장문 출력을 위한 LLM 개선과 LongWriter-6k 데이터 세트 및 LongBench-Write 벤치마크 개발
현재의 장문맥 대규모 언어 모델(LLM)은 최대 100,000개의 토큰을 처리할 수 있지만, 2,000단어를 초과하는 출력을 생성하는 데 어려움을 겪고 있습니다. 이는 감독 미세 조정(SFT) 중에 긴 출력 예시가 부족하기 때문입니다. 이 문제를 해결하기 위해, 에이전트 기반 파이프라인인 AgentWrite를 도입하여 모델이 20,000단어 이상의 일관된 출력을 생성할 수 있도록 했습니다. 이를 통해 2천 단어에서 32천 단어까지의 데이터를 포함한 LongWriter-6k 데이터 세트를 구축하고, 이를 사용해 기존 모델의 출력 길이를 10,000단어 이상으로 확장하는 데 성공했습니다. 또한, LongBench-Write라는 벤치마크를 개발하여, 개선된 모델이 초장문 생성에서 뛰어난 성능을 발휘함을 입증했습니다.
https://huggingface.co/papers/2408.07055
OpenResearcher: AI 기반 플랫폼을 통한 연구 동향 파악 및 도메인 별 지식 제공
OpenResearcher는 연구자들이 최신 연구 동향을 파악하고 새로운 분야를 탐구하는 데 도움을 주기 위해 인공지능(AI) 기술을 활용한 혁신적인 플랫폼입니다. 이 플랫폼은 검색 증강 생성(RAG)을 기반으로 대규모 언어 모델(LLM)과 최신 도메인별 지식을 통합하여, 연구자의 쿼리를 이해하고 과학 문헌을 검색하며, 필터링된 정확하고 포괄적인 답변을 제공합니다. 또한, 답변을 자체 수정할 수 있는 다양한 도구를 개발하여 효율성과 효과성을 높입니다. OpenResearcher는 연구자들이 시간을 절약하고 새로운 인사이트를 발견하며, 과학적 혁신을 촉진할 수 있도록 지원합니다.
https://huggingface.co/papers/2408.06941
사전 신청 후 과정 입학하면 데이터 분야 참고 서적 증정! 데이터사이언티스트 과정 지원하기 : https://bit.ly/3YBFXNf
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 8월 14일 오전 6:00
앞으로의 코테는 설명을 주고 코드를 짜라고 하는 것이 아니라, 코드를 주고 설명을 하라는 것이 유효할 것이다.
내 경우는 이미 그렇게 하고 있는데, 요구사항을 주고 개발을 요청. 결과물이 요구사항대로 개발이 잘 되었다면, 다음 단계로 제출한 코드를 리뷰하며 설명을 요청한다.
나는 종종 생산성을 올리기 위한 각종 개발 툴은 물론, 라이브러리나 소스 코드를 구매하기도 한다.
소스 코드의 경우 실제로 써먹지 못하는 경우도 상당수 되긴 하지만, 그래도 구성이나 코드를 보면서 배우는게 있기 때문에 학습 비용이라고 생각하고 가끔 구매하는 편이다.