Bloque 04 · 8 min

Una base vectorial sin actualizar se vuelve mentirosa

Pinecone es vectorial. Drive es la fuente. Si ambos no se sincronizan, Claude responde con info vieja y un KAM le cita un dato incorrecto a Unilever. Acá las 3 formas de mantenerla viva — y cuál es el cocktail recomendado para Seeds.

Pinecone + Drive + n8n 3 opciones comparadas Workflow listo para clonar

01 · El problema, con ejemplo Seeds

drift de la vectorial · qué pasa cuando nadie sincroniza

lunes 09:14

Legal sube SLA-OnDemand-v3.docx al Drive. Reemplaza la v2 con cláusulas nuevas.

lunes 09:14

La vectorial sigue indexando la v2. Nadie le avisó del cambio.

jueves 16:40

KAM le pregunta a Claude "¿cuál es el SLA actual de On Demand?". Claude busca en la vectorial.

jueves 16:42

Cita la v2. El KAM lo manda a Unilever. Tres días después, lío contractual.

02 · Tres opciones

Manual, n8n o Pinecone Assistant

Las tres funcionan. La diferencia es cuánto humano necesitan y cuánto te cuestan. Para Seeds, n8n es el sweet spot — ya tienen instancia y el workflow se clona en una tarde.

Manual

"el humano se acuerda"

Setupcero
Mantenimientoalto · depende del humano
Confiabilidadbaja
Costotiempo del equipo
OK paraequipos chicos, drift tolerable
Riesgomentir como en el ejemplo

n8n + triggers

workflow automático

Setupmedio
Mantenimientobajo
Confiabilidadalta
Costoinfra n8n + embeddings
OK paraSeeds — recomendado
Riesgosi se cae n8n hay que tener alerta

Pinecone Assistant

all-in con Pinecone

Setupbajo
Mantenimientomínimo
Confiabilidadalta
Costofee Pinecone más alto
OK paraequipos sin n8n / quieren black box
Riesgomenos control de la lógica

03 · Workflow recomendado

Drive → n8n → Pinecone

Auto-play para verlo correr. Cada nodo se ilumina a medida que avanza el flujo, y el último notifica al canal de Slack para que alguien sepa qué se actualizó.

trigger · drive folder "ya vectorizados"

01 · trigger

Drive Trigger

Dispara cuando hay archivo nuevo o modificado en la carpeta Ya Vectorizados.

02 · routing

Route by file type

PDF / DOCX / TXT / GSheet → cada uno con su parser específico.

03 · parse

Extract + chunk

Chunks de 800 tokens con 100 overlap. Conserva título, headings y números de página.

04 · metadata

Generar metadata

Campos: doc_type, area, audience, fileId, createdTime.

05 · embed

OpenAI text-embedding-3-small

Vectoriza cada chunk. 1.536 dimensiones por embedding.

06 · upsert

Pinecone — index "seeds"

Upsert por fileId. Si el archivo cambió, borra los chunks viejos y mete los nuevos.

07 · log

Slack #vectorial-status

Notifica: "actualizado SLA-OnDemand-v3.docx — 18 chunks, +2 vs v2".

04 · Reglas de oro

Cinco cosas que no podés saltear

Probadas con clientes que tuvieron drift en producción. Cada una resuelve un fail típico que se ve en la realidad.

Borrá antes de upsertear

Si el archivo cambió, borrá los chunks viejos por fileId antes de meter los nuevos. Sino quedan duplicados y Claude cita versiones que ya no existen.

Metadata rica > muchos namespaces

Filtrar por metadata es más barato y flexible que partir todo en namespaces. Un solo index seeds con metadata buena alcanza.

Re-vectorizá manual los críticos

Cambios legales o de pricing no esperan al cron. El workflow tiene que tener un endpoint manual para forzar re-index al toque.

Logueá cada update en Slack

Alguien tiene que poder responder "¿cuándo se actualizó X?". Sin log no hay forma — y eso te muerde el día que falla.

Quality check mensual

5 preguntas conocidas con respuesta correcta esperada. Si la vectorial empieza a fallar en 2 de 5, hay drift y hay que actuar.

05 · Templates listos para clonar

Tres workflows n8n que ya existen

Empezá clonando el #4552 (es el más cercano al setup Seeds). Ajustá los parámetros de chunking + el schema de metadata + el destino Pinecone.

n8n.io · #3199

Drive → Pinecone básico

Ingesta inicial. Bueno para cargar de cero la base. No tiene update incremental.

Ver template →

n8n.io · #4552 ★

Index docs from Drive

El recomendado para Seeds. Trigger por modificación, dedup por fileId, metadata extensible. Clonalo y ajustalo.

Ver template →

n8n.io · #5807

Document Q&A · OpenAI + Pinecone + Drive

Si querés probar el lado consumo (no solo ingesta), este te arma el endpoint completo de Q&A.

Ver template →

Más detalle: docs.pinecone.io · docs.n8n.io · Pinecone node