Nomic-Embed, 혁신적 벡터 변환 처리 능력 meswiser, 2024-08-262024-08-26 오픈소스 텍스트 임베딩 모델 ‘Nomic-Embed(노믹 임베드)’ 노믹 임베드는 텍스트 임베딩에 대한 새로운 접근 방식을 통해, 긴 문맥에서 텍스트를 효과적으로 임베딩하고 새로운 아키텍처와 학습 전략을 도입하여 성능을 향상시킨 모델입니다. 노믹 임베드는 8,192 토큰의 긴 문맥을 다룰 수 있는 능력을 갖추고 있는 것이 특징입니다. 또한, 다음과 같은 특징을 가지고 있습니다. 긴 문맥 처리 : 노믹 임베드는 회전 위치 임베딩을 도입하여, 입력 시퀀스의 길이에 상관없이 모델이 문맥을 파악할 수 있도록 합니다. 이를 통해, 긴 텍스트 문맥을 처리하는 능력을 가지고 있습니다. 긴 문서나 대화에서 의미 있는 정보를 추출하는데 활용됩니다. 가변적인 임베딩 차원 : 일명 마트료시카 표현 학습 기법을 사용하여 임베딩 차원을 가변적 및 다양화함으로써 더 많은 정보를 추출하고 다양한 특성을 표현할 수 있습니다. 오픈소스 : 오픈소스 형태로 무료 제공되며, 어느 누구나 사용할 수 있습니다. 높은 효율성 : 일부 토큰 간의 상호작용만 계산하는 Flash Attention을 적용하여 비용을 크게 절약할 수 있습니다. 일반 텍스트 임베딩 모델과 비교해, 노믹 임베드가 가지고 있는 가장 큰 장점은 긴 문맥의 문장을 처리할 수 있는 능력입니다. 일반적은 임베딩 모델에 비해 처리할 수 있는 문장의 길이가 10배 가까이 커서, 보다 쉽고 편하게 인공지능 활용이 가능하지요. 또 하나의 특장점은 다양한 차원의 임베딩을 수행하도록 하는 것입니다. 일명 ‘마트료시카 표현 학습’이라고 불리는 이 특징은 다양한 크기와 복잡성의 임베딩을 생성하기 위한 다단계 임베딩 구조를 사용하는 기술입니다. 데이터의 다양한 측면을 포착하고, 범용적인 임베딩을 생성할 수 있습니다. 리스트가 개발중인 비개방형 인공지능 모델에도 노믹 임베드 기술이 활용될 예정입니다. Gemma-2와 노믹 임베드를 활용하여 GPT 기술을 활용한 개방형 모델에 버금가는 성능을 보여줄 것으로 예상됩니다. AI산업동향