Vision MCP Server

Servidor MCP que integra modelos Qwen2-VL para análisis de imágenes, OCR y lectura de diagramas directamente desde Claude Code, con soporte local y remoto.

1 de febrero de 2026

El problema

Claude Code carece de capacidad nativa para analizar imágenes, diagramas de arquitectura o capturas de pantalla de código, lo que obliga a los desarrolladores a describir manualmente el contenido visual o cambiar de herramienta. En flujos de trabajo donde se revisan diagramas, se hace OCR de documentos o se analizan screenshots de errores, la ausencia de visión limita significativamente la productividad del asistente de código.

Por qué lo construimos

El protocolo MCP permite extender Claude Code con herramientas custom, y los modelos Qwen2-VL ofrecen capacidades de visión de alta calidad en tamaños que caben en GPUs de consumo (2B parámetros en 4GB VRAM). Construirlo internamente nos permite optimizar para nuestro hardware específico (RTX 2070 local y DGX Spark remoto vía Tailscale), personalizar las herramientas para nuestros casos de uso frecuentes (diagramas de arquitectura, OCR de documentos en español, análisis de código) y mantener la inferencia completamente privada sin depender de APIs externas de visión.

Qué aprendimos

La GPU GB10 del DGX Spark (Grace Blackwell) utiliza la arquitectura sm_121, que no está soportada por PyTorch en los contenedores NGC actuales, obligando a ejecutar en CPU temporalmente. El lazy loading del modelo es crítico en servidores MCP: cargar 4GB de pesos en memoria al inicio bloquea innecesariamente cuando el modelo podría no usarse en toda la sesión. El protocolo MCP con transporte stdio es simple y confiable para servidores locales, pero para servidores remotos el transporte HTTP con health checks es esencial para detectar caídas del contenedor Docker.

Stack técnico

Python Qwen2-VL PyTorch MCP Protocol Docker DGX Spark Tailscale

Ver en GitHub