[LLM] Claude 3.5 Sonnet 출시 개인적인 느낀점

2024. 6. 22. 01:02DL

이 글을 작성하는 현재시간 기준으로 어제 Claude의 새로운 모델이 공개됐습니다. 제가 개발을 하며 사용하고 있는 AWS Bedrock에도 바로 출시가 됐더군요, Claude에서 AWS에 올린 글에 나온 그래프만 봐도 기존에 Opus를 뛰어넘는다고 표현하고 있습니다. 

성능 그래프

저는 이 내용이 뜨자마자 바로 Bedrock을 이용해서 모델을 사용해보았습니다. 그리고 느낀점을 한번 올려보겠습니다.

 

1. 모델의 성능 변화

기존의 Cluade는 제가 느끼기에 좀 더 대화에 최적화 된 튜닝 방식을 가지고 있다고 생각했습니다. 그 이유는 다양하게 LLM을 활용할 때 많이 쓰는 방식이 답변에 대한 특정 Fromating을 요구하는 경우가 많은데, 이 경우 실패율이 꾀 높습니다. 그런데 이때 출력되는 결과물을 보면 "좋습니다 답변해드릴게요." 라던가 "주어진 정보를 바탕으로 요청자에게 정보를 제공합니다." 같은 대화형 답변을 포함하고 있는 경우가 많더라구요, 그런데 Claude3.5 Sonnet이 출시되고 사용해본 감상은 모델 성능이 확 개선되면서 Format유지 같은 간단한 명령은 이제는 너무 잘 처리하게 됐습니다. 

2. 맥락 추론

기존에는 Context를 RAG를 사용해서 제공해도 그 속에 담긴 의미나 전체적인 맥락을 모두 고려하지 못하는 모습을 많이 보였습니다. 그런데 이것도 많이 개선되었습니다. 주어진 정보를 통해서 스스로 추측을 하거나 더 좋은 정보를 제공하기 위해서 답변에 사용하는 어휘같은 것들이 확실히 좋아졌습니다.

 

3. 수학적 능력 및 코드이해

이 부분은 제가 직접 실행해본 케이스는 아니지만 주변 사용자들의 경험을 토대로 상당한 성능개선이 이루어졌다고 합니다. 앞으로 코드를 작성하는데 많은 도움이 될것으로 기대하고 있습니다.

 

4. 비용

기존의 3.0 Sonnet의 비용은 1M Token당 3$였습니다. 이번에 공개된 3.5 Sonnet의 비용은 1M Token당 3$이죠 성능은 체감상 2배 이상인데 가격은 같습니다. 심지어 GPT4-o랑 비교해도 손색이 없는데 무려 2$나 저렴합니다. 다수의 유저가 이용하는 서비스를 만들때 이정도 가격 인하는 정말 드라마틱하게 운영비용 감소를 만들것 같습니다.

 

- 총평

3개월간 어플리케이션을 개발하고 있는데요, 여러가지 문제점들이 있었습니다. 1번 항목과 2번항목을 테스트해본 이유도 그런부분에서 문제가 있었기 때문인데요, 프롬프트 엔지니어링을 통해서 해결하려 백방 노력했지만 100퍼센트 잡지 못하는 것들이었죠, 프레임워크의 도움을 받아서 이런 부분들을 비용을 조금 더 들이더라도 해결할 순있었죠, 그런데 모델 개선 한방에 모든게 좋아졌습니다. 심지어 비용까지도요

 

조금은 씁쓸함이 남는 하루였습니다. 프롬프트의 구조적 개선 RAG의 데이터 품질 개선도 ChatBot의 품질에 영향을 많이 미치지만.. 어느정도 성숙한 데이터와, 프롬프트가 완성되고 난 후에는 모델 성능개선 한방에 드라마틱한 변화를 만드는 현상이 엔지니어로서는 달갑지많은 않습니다.

 

이상 감상을 마칩니다.