✨ SKT Fly Ai - Segment Anything Model

SAM은 기존 분할 모델들과는 달리, 사용자가 직접 점이나 박스 같은 프롬프트를 입력하면 원하는 객체만 분할할 수 있다. 특히, 사전에 학습된 클래스가 아니어도 분할이 가능한 제로샷 성능이 있다. 이 모델을 통해 단순히 이미지 속 모든 객체를 찾는 것이 아니라, 사용자가 원하는 것만 찾아내는 방식으로 전환한 점이 핵심이라 생각하였다. 이러한 기능을 가능하게 하는 기술 중 하나는 ViT-H 기반의 강력한 이미지 인코더라고 할 수 있다.
ViT는 이미지를 조각낸 뒤, 텍스트처럼 처리하고 전체적인 문맥을 이해하는 방식이다. 따라서 이미지 속 패턴을 정교하게 파악할 수 있다. 또한 점, 박스, 텍스트 등의 프롬프트를 모두 256차원 벡터로 변환해주는 프롬프트 인코더 구조도 함께 설계되었다.

돌아가기: SKT Fly Ai 활동