Question 1

¿Con qué LLMs trabajáis?

Accepted Answer

Modelos frontier cloud — Claude (Anthropic), GPT (OpenAI), Gemini (Google) — para trabajo de alto razonamiento y contexto largo. Modelos open-weights — Llama, Qwen, Mistral, Gemma, DeepSeek — para despliegues on-prem o sensibles al coste vía [LLM Studio](/tech-stack/llm-studio). La selección del modelo se hace en la fase de viabilidad según la tarea específica, no por defecto. Frecuentemente enrutamos entre 2–3 modelos en una sola aplicación para equilibrar coste y calidad.

Question 2

¿Podéis desplegar LLMs on-premises para requisitos de residencia de datos?

Accepted Answer

Sí. Para clientes de industrias reguladas (fintech, salud, legal, gov) o con requisitos estrictos de soberanía, desplegamos modelos open-weights completamente en tu infraestructura. Ningún dato sale del perímetro. Hemos entregado despliegues on-prem para [flujos de compliance KYC](/case-studies/fintech-compliance) y [puntuación de riesgo en contratos](/case-studies/contract-risk-scoring) donde los LLMs cloud no eran opción.

Question 3

¿Qué es RAG y lo necesitamos?

Accepted Answer

Retrieval-augmented generation — el LLM recibe tus documentos o datos relevantes inyectados en el contexto en el momento de la consulta, para que pueda responder sobre tu contenido específico en lugar de solo sus datos de entrenamiento. La mayoría de aplicaciones LLM útiles necesitan alguna forma de RAG: asistentes de atención al cliente, agentes de conocimiento interno, pipelines de análisis de documentos, checks de compliance. Construimos pipelines RAG con chunking correcto, embedding, reranking y eval — no solo similitud vectorial que se rompe a escala.

Question 4

¿Cómo controláis el coste en aplicaciones LLM en producción?

Accepted Answer

Tres capas. (1) Enrutado de modelo — usa un modelo pequeño y barato para clasificación rutinaria, reserva el modelo frontier para llamadas genuinamente difíciles. (2) Caché de prompts — reutiliza prompts de sistema comunes para cortar el coste de tokens un 50–90%. (3) Observabilidad — cada llamada se loggea con tokens, latencia y resultado downstream. Revisión mensual del coste contra el KPI para el que se construyó la integración. Ahorro típico cuando tomamos una integración ingenua: 40–70%.

Question 5

¿Qué incluye una colaboración típica de integración LLM?

Accepted Answer

Scoping y validación del caso de uso (¿es un LLM realmente la herramienta correcta?), selección de modelo y pruebas de viabilidad, diseño del harness de evaluación, ingeniería de prompts y construcción de pipeline RAG, integración en tu aplicación, instrumentación de observabilidad y coste, puertas de revisión humana para llamadas de alto impacto, despliegue en producción y ajuste mensual. Precio fijo, típicamente 40 000–120 000 € según alcance y si on-prem es requisito.

Integración y despliegue LLM

Qué cubre «integración LLM» en QwertyBit

Qué entregamos

Los modelos y herramientas que usamos

Dónde se cruza la integración LLM con el resto de QwertyBit

Cómo empezar

Anthropic

LLM Studio

CrewAI

Pre-check KYC y flujos LLM conscientes de compliance

Motor de puntuación de riesgo en contratos

Resúmenes de casos y generación de documentos

Lo que los dueños de negocio preguntan antes de firmar

¿Listo para ver dónde los agentes pueden reducir tus costes?