[langchain, RAG] gemma3 멀티모달 기능 사용해서 이미지 읽기

기술정리남 2025. 3. 20. 22:02

2025. 3. 20. 22:02

gemma3 멀티모달 기능 사용해서 이미지 읽기

- 아래 앨범의 이미지를 읽어서 이 앨범의 정보를 찾아 내는 Code

- 프레임워크: Ollama

- LLM : gemma3:12b

from langchain_ollama.llms import OllamaLLM

def get_ollama_llm_model(model_name='gemma3:12b'):
    return OllamaLLM(model=model_name)


from my_ollama import get_ollama_llm_model
from utils import get_image_base64

model = get_ollama_llm_model()
image_64 = get_image_base64('../images/bonjovi.png')
img_context = model.bind(images=[image_64])
img_context.invoke("이 앨범은 어느 밴드의 앨범인가??")

테스트 결과를 보면 이미지를 읽어서 정확하게 정보를 인식하고 있습니다.

'Langchain,RAG' 카테고리의 다른 글

LangChain에서 Tool Calling이란? (0)	2025.03.20

기술정리남

[langchain, RAG] gemma3 멀티모달 기능 사용해서 이미지 읽기

gemma3 멀티모달 기능 사용해서 이미지 읽기

'Langchain,RAG' 카테고리의 다른 글

+ Recent posts

티스토리툴바