GPT-2를 이용한 한국어 텍스트 압축의 구현 | 커리어리

GPT-2를 이용한 한국어 텍스트 압축의 구현체가 등장. 1069바이트의 헌법 전문으로 벤치마크를 돌렸을 때 압축 효율이 89.6%로, 잘 알려져 있는 여러 압축 알고리즘을 압도적으로 뛰어넘는 수치. 동일한 내용에 대해, 같은 타겟에 대해 GZip은 40.5%, Bzip2는 42.2%, Brotli는 45.3% 가량의 압축 효율을 보였다고 하네요. 신경망이 차원 축소 후 분류를 수행하거나, 차원 축소 후 재구성을 통해 생성 모델 역할을 하는데 그 공통 분모에 해당하는 차원 축소만을 통해 압축에 사용될 수 있다는 좋은 발상인 것 같습니다.

GPC.Dle

Dle

2021년 2월 16일 오전 2:11

댓글 0

주간 인기 TOP 10

지난주 커리어리에서 인기 있던 게시물이에요!

더 많은 인사이트를 둘러보세요!