🖼️ Sistema de Consulta de Imágenes con IA

VERSIÓN BETA

Una aplicación innovadora que permite realizar consultas en lenguaje natural sobre una base de datos de imágenes MongoDB, utilizando modelos de lenguaje avanzados para convertir texto plano en consultas de base de datos optimizadas.

📋 Requisitos Mínimos del Sistema

🖥️ Hardware Recomendado

🎮

Tarjeta Gráfica: Compatible con CUDA

Necesaria para acelerar el procesamiento de IA

🧠

Modelo de IA: Ollama gemma3:4b

Modelo de lenguaje optimizado para tareas de consulta

📏

Ventana de Contexto: 40,000 tokens

Longitud máxima del contexto que puede procesar el modelo

💾

Memoria VRAM: 24 GB mínimo

Memoria dedicada de la tarjeta gráfica

🧵

Memoria RAM: 32 GB mínimo

Memoria del sistema para operaciones generales

⚠️ Importante: El sistema requiere una configuración de hardware especializada para funcionar correctamente. Asegúrese de tener todos los componentes antes de proceder con la instalación.

🚀 Características Principales

🗣️

Consultas en Lenguaje Natural

Pregunta en español o inglés sobre tus imágenes usando frases naturales como "¿Cuántas fotos tengo tomadas en 2024?"

🎯

Detección Inteligente de Tipo de Consulta

El sistema identifica automáticamente si deseas contar elementos, listar resultados o buscar información específica.

🔧

Limpieza Automática de JSON

Función avanzada que corrige automáticamente errores comunes en el JSON generado por IA.

📱

Interfaz Gráfica Moderna

Interfaz intuitiva desarrollada en PyQt6 con funciones avanzadas de gestión de texto.

📊

Formateo Inteligente de Respuestas

Las respuestas se adaptan al contexto: conteos concisos, listas organizadas, búsquedas detalladas.

💾

Guardado Automático de Sesiones

Todas las consultas se guardan automáticamente en archivos de texto organizados por fecha.

📝 Esquema de la Base de Datos

El sistema trabaja con una base de datos MongoDB llamada "album_2" con una colección "imagenes" que contiene información detallada sobre cada imagen:

Campos principales de cada documento de imagen:

nombre_archivo: Nombre del archivo de la imagen
ruta_completa: Ubicación completa del archivo
ancho/alto: Dimensiones de la imagen en píxeles
fecha_creacion_*: Información temporal de creación (día, mes, año, hora, minuto)
objetos_detectados: Array de objetos identificados por IA con porcentaje de confianza
descripcion: Descripción textual generada por IA
visto/descrito: Marcadores booleanos para gestión de estado
hash_sha512: Hash para verificación de integridad

🔧 Instalación y Configuración

1. Instalar Dependencias Python

pip install pymongo langchain langchain-community langchain-ollama pyqt6

2. Instalar y Configurar Ollama

Descargue e instale Ollama desde ollama.ai

# Descargar el modelo gemma3:4b con contexto extendido
ollama pull gemma3:4b

⚠️ Asegúrese de que el modelo esté configurado con una ventana de contexto de 40,000 tokens.

3. Configurar MongoDB

Inicie el servicio MongoDB localmente en el puerto 27017 y asegúrese de tener la base de datos "album_2" con la colección "imagenes" poblada con datos de imágenes procesadas.

4. Ejecutar la Aplicación

python 1-busqueda_2_gemma3_4b_40K_mejorada_v1_interfaz_qt.py

📁 Descargar código fuente

💡 Tipos de Consultas Soportadas

1. Consultas de Conteo

¿Cuántas imágenes tienen un ancho mayor a 1000 píxeles?
¿Cuántas fotos tengo tomadas en el mes de enero?
¿Cuántas imágenes contienen personas?

2. Consultas de Listado

Muestra todas las imágenes tomadas en 2024
Lista las fotos más recientes ordenadas por fecha
Dime qué imágenes tienen objetos detectados

3. Consultas de Búsqueda Específica

Encuéntrame la imagen llamada "foto001.jpg"
Busca imágenes con una descripción que contenga "playa"
Mostrar información detallada de la imagen con hash específico

🎨 Funcionalidades de la Interfaz

🖱️ Campo de Consulta

Área de entrada de texto donde puedes escribir tus preguntas en lenguaje natural.

🔍 Botón Buscar

Ejecuta la consulta actual y muestra los resultados formateados.

💾 Auto-guardado

Activa/desactiva el guardado automático de consultas y respuestas en archivos.

📂 Historial

Muestra los últimos archivos guardados y su ubicación en el sistema.

🗑️ Opciones de Limpieza

Menú avanzado para limpiar resultados, mantener encabezados, o eliminar consultas específicas.

📋 Menú Contextual

Click derecho en el área de resultados para copiar, filtrar solo consultas/resultados, etc.

⌨️ Atajos de Teclado

Ctrl+L: Limpiar el área de resultados
Ctrl+H: Mostrar historial de consultas
Ctrl+S: Activar/desactivar auto-guardado
Ctrl+Q: Salir de la aplicación

📁 Sistema de Archivos de Logs

Todas las consultas se guardan automáticamente en la carpeta consultas_imagenes/ con el siguiente formato:

Estructura de archivos:

consulta_YYYYMMDD_HHMMSS.txt: Consultas individuales con pipeline MongoDB
sesion_completa_YYYYMMDD_HHMMSS.txt: Resumen completo de todas las consultas en una sesión

🔬 Notas sobre Versiones Beta y Desarrollo

© 2025 - Sistema desarrollado en Python como herramienta experimental de investigación en procesamiento de lenguaje natural aplicado a consultas de base de datos de imágenes. Versión beta con funcionalidades avanzadas en evolución constante.

🖼️ Visor de Imágenes Integrado: Visualización directa de resultados con navegación intuitiva

📈 Análisis Estadístico: Gráficos y métricas avanzadas sobre el conjunto de datos

🔍 Filtros Avanzados: Criterios de búsqueda más complejos y personalizables

🌐 Interfaz Web: Versión accesible desde navegador web