Syntactic Structures.
arXiv.org
AI, 인간 언어의 벽을 넘을 수 있을까? - 불가능한 언어 학습 도전
이 연구는 대규모 언어 모델(LLM)이 인간에게 불가능한 언어를 학습할 수 있는 촘스키 등의 주장에 대해 실험적 증거를 제시하며 반박합니다. 저자들은 인위적으로 불가능한 언어 데이터셋을 생성하고, GPT-2 모델을 학습시켜 퍼플렉서티, 서프라이절, 인과 추상화 분석 등 다양한 평가 방법을 통해 학습 과정과 결과를 분석했습니다. 그 결과, GPT-2 모델은 불가능한 언어를 학습하는 데 어려움을 겪으며, 특히 자연어에서 중요한 정보 지역성(information locality)을 파악하지 못하는 것을 확인했습니다. 이는 LLM이 인간의 언어 학습과 근본적인 차이가 있음을 시사하며, LLM이 언어 학습에 필요한 선천적인 요소를 완전히 배제할 수 없다는 것을 보여줍니다.
https://arxiv.org/pdf/2401.06416
딥러닝, 갑골 문자의 비밀을 밝히다: 이미지 생성 기술로 미지의 문자 해독
이 논문은 딥러닝, 특히 이미지 생성 기술을 활용하여 갑골 문자를 해독하는 새로운 방법론을 제시합니다. 갑골 문자는 상당 부분이 미해독 상태로 남아있어 전통적인 자연어 처리(NLP) 기법을 적용하기 어려운데, 이 연구는 이미지 생성 모델을 이용하여 이러한 한계를 극복하려 합니다. 구체적으로, 조건부 확산 모델을 통해 갑골 문자 이미지를 입력으로 받아 그에 대응하는 현대 한자 이미지를 생성합니다. 이 과정에서 '국소 구조 샘플링(LSS)' 기법을 통해 갑골 문자의 부분적인 구조 정보를 학습하고, 'Zero-shot Refinement' 전략을 통해 생성된 이미지의 정확도를 높입니다. 실험 결과, 제안된 모델은 기존 이미지-이미지 변환 모델들보다 갑골 문자 해독에 뛰어난 성능을 보였습니다. 이는 딥러닝 기반 이미지 생성 기술이 고대 문자 해독과 같은 전통적인 언어학 문제 해결에 새로운 가능성을 제시함을 시사합니다.
https://arxiv.org/pdf/2406.00684
데이터를 비즈니스 가치로 연결하는 데이터 사이언티스트 전문 과정 모집 중! : https://bit.ly/3YBFXNf
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 8월 22일 오전 6:21
이
... 더 보기