Mantener la vectorial viva ← módulos
Bloque 04 · 8 min

Una base vectorial sin actualizar se vuelve mentirosa

Pinecone es vectorial. Drive es la fuente. Si ambos no se sincronizan, Claude responde con info vieja y un KAM le cita un dato incorrecto a Unilever. Acá las 3 formas de mantenerla viva — y cuál es el cocktail recomendado para Seeds.

Pinecone + Drive + n8n 3 opciones comparadas Workflow listo para clonar
drift de la vectorial · qué pasa cuando nadie sincroniza
lunes 09:14
Legal sube SLA-OnDemand-v3.docx al Drive. Reemplaza la v2 con cláusulas nuevas.
lunes 09:14
La vectorial sigue indexando la v2. Nadie le avisó del cambio.
jueves 16:40
KAM le pregunta a Claude "¿cuál es el SLA actual de On Demand?". Claude busca en la vectorial.
jueves 16:42
Cita la v2. El KAM lo manda a Unilever. Tres días después, lío contractual.

Manual, n8n o Pinecone Assistant

Las tres funcionan. La diferencia es cuánto humano necesitan y cuánto te cuestan. Para Seeds, n8n es el sweet spot — ya tienen instancia y el workflow se clona en una tarde.

Manual

"el humano se acuerda"
  • Setupcero
  • Mantenimientoalto · depende del humano
  • Confiabilidadbaja
  • Costotiempo del equipo
  • OK paraequipos chicos, drift tolerable
  • Riesgomentir como en el ejemplo

Pinecone Assistant

all-in con Pinecone
  • Setupbajo
  • Mantenimientomínimo
  • Confiabilidadalta
  • Costofee Pinecone más alto
  • OK paraequipos sin n8n / quieren black box
  • Riesgomenos control de la lógica

Drive → n8n → Pinecone

Auto-play para verlo correr. Cada nodo se ilumina a medida que avanza el flujo, y el último notifica al canal de Slack para que alguien sepa qué se actualizó.

trigger · drive folder "ya vectorizados"
01 · trigger
Drive Trigger
Dispara cuando hay archivo nuevo o modificado en la carpeta Ya Vectorizados.
02 · routing
Route by file type
PDF / DOCX / TXT / GSheet → cada uno con su parser específico.
03 · parse
Extract + chunk
Chunks de 800 tokens con 100 overlap. Conserva título, headings y números de página.
04 · metadata
Generar metadata
Campos: doc_type, area, audience, fileId, createdTime.
05 · embed
OpenAI text-embedding-3-small
Vectoriza cada chunk. 1.536 dimensiones por embedding.
06 · upsert
Pinecone — index "seeds"
Upsert por fileId. Si el archivo cambió, borra los chunks viejos y mete los nuevos.
07 · log
Slack #vectorial-status
Notifica: "actualizado SLA-OnDemand-v3.docx — 18 chunks, +2 vs v2".

Cinco cosas que no podés saltear

Probadas con clientes que tuvieron drift en producción. Cada una resuelve un fail típico que se ve en la realidad.

01

Borrá antes de upsertear

Si el archivo cambió, borrá los chunks viejos por fileId antes de meter los nuevos. Sino quedan duplicados y Claude cita versiones que ya no existen.

02

Metadata rica > muchos namespaces

Filtrar por metadata es más barato y flexible que partir todo en namespaces. Un solo index seeds con metadata buena alcanza.

03

Re-vectorizá manual los críticos

Cambios legales o de pricing no esperan al cron. El workflow tiene que tener un endpoint manual para forzar re-index al toque.

04

Logueá cada update en Slack

Alguien tiene que poder responder "¿cuándo se actualizó X?". Sin log no hay forma — y eso te muerde el día que falla.

05

Quality check mensual

5 preguntas conocidas con respuesta correcta esperada. Si la vectorial empieza a fallar en 2 de 5, hay drift y hay que actuar.

Tres workflows n8n que ya existen

Empezá clonando el #4552 (es el más cercano al setup Seeds). Ajustá los parámetros de chunking + el schema de metadata + el destino Pinecone.

n8n.io · #3199
Drive → Pinecone básico
Ingesta inicial. Bueno para cargar de cero la base. No tiene update incremental.
Ver template →
n8n.io · #4552 ★
Index docs from Drive
El recomendado para Seeds. Trigger por modificación, dedup por fileId, metadata extensible. Clonalo y ajustalo.
Ver template →
n8n.io · #5807
Document Q&A · OpenAI + Pinecone + Drive
Si querés probar el lado consumo (no solo ingesta), este te arma el endpoint completo de Q&A.
Ver template →

Más detalle: docs.pinecone.io · docs.n8n.io · Pinecone node