Descripción de Imágenes con Ollama

Script en Python que utiliza Ollama para describir imágenes utilizando modelos de lenguaje.

Descripción del Proyecto

Este proyecto consiste en un script en Python que utiliza el modelo de lenguaje Ollama para describir imágenes. El script recorre una carpeta de imágenes y envía cada una a Ollama para obtener una descripción detallada.

Características

Procesamiento automático de múltiples imágenes en una carpeta.
Uso de modelos Ollama para describir imágenes (ej. Llava).
Conversión de imágenes a formato base64 para envío al modelo.
Guardado automático de las descripciones generadas en un archivo de texto.

Requisitos

Python 3.x
Librería Ollama (instalable con pip)
Modelo Llava o similar en Ollama
Librerías PIL y base64

Uso

Para usar el script:

Instala las dependencias necesarias: pip install ollama Pillow
Asegúrate de tener un modelo como llava descargado en Ollama.
Ejecuta el script: python descripcion_imagenes_ollama.py

Ejemplo de salida

El script genera un archivo llamado descripciones_ollama.txt con el siguiente formato:

Imagen: ejemplo.jpg
Descripción: Una imagen de una persona usando un ordenador.

Imagen: paisaje.png
Descripción: Un paisaje natural con montañas y un río.

Código Fuente

Puedes descargar el código fuente del script en Python desde el siguiente enlace:

Descargar código fuente

Repositorio GitHub

El proyecto también está disponible en GitHub:

Acceder al repositorio