[LLM] Data Splitters (with Langchain)
우리는 RAG를 구성하기 위해서 다향한 데이터를 Embedding하여 VectorDB에 저장해야 한다고 바로 이전글에서 알아보았는데요 그럼 어떻게 Embedding할 데이터를 만들까요? 일반적으로 html, Text, PDF, MS Document(Excel, ppt, docs)등 다양한 문서의 형태가 있는데 이것들을 Read -> Chunk로 분할 하여 Embedding에 사용되기 직전 까지의 과정을 한번 살펴볼겁니다. 너무 많은 Text Splitter가 있는데 그중에서 Character Splitter를 살펴보려고 합니다. 더 많은 Splitter에 대해서는 아래 링크를 참고하시기 바랍니다!https://python.langchain.com/v0.1/docs/modules/data_connectio..
2024.06.22