Knowledge Graph · Schema-Agnóstico

De cualquier base de datos
a un grafo que piensa

Tomamos la base de datos de cualquier empresa + sus documentos, y armamos un grafo que responde preguntas que un Excel no puede. Recorré los pasos abajo 👇

Empresa Deal Persona Sector Documento Descubierto
1

Objetivo

Cómo lo hace

Detalle técnico

Tip: arrastrá los nodos del grafo · usá ◀ ▶ o las pestañas para avanzar y retroceder.

La idea en una frase

Conectás tu base de datos y tus documentos → el sistema los entiende, los conecta y arma un mapa de todo lo que la empresa sabe — sin programar nada a medida por cliente.

? ¿Por qué un grafo?

La diferencia entre una lista y un mapa de conexiones.

Planilla

Filas en tablas. Conectar dos cosas = cruzar tablas a mano cada vez.

clientes        facturas
Acme            F1 → Acme
Globex          F2 → Globex
Grafo

Puntos conectados por líneas con nombre → se pueden recorrer (multi-hop).

Anatrabaja en→Acme←facturó—F1

📋 Ejemplo simple

TABLA clientes                  TABLA facturas
│ 1 │ Acme SL │ retail │        │ F1 │ cliente 1 │ 12000 │

①②③

Organization {name:"Acme SL", sector:"retail"}←BILLED_TO—Invoice {12000}

④⑥ Email "…lo firma su CTO Ana" →

Ana—CTO de→Acme SL

Dos vías de entrada

Base de datosDocumentos
CómoMapeo schema (IA 1×) + carga determinísticaExtracción por IA de cada documento
Descubre nuevoNo (la base ya tiene las entidades) (competidores, personas, hechos)
CifrasExactas, sin IABest-effort + revisión humana

🔌 Ingesta de documentos — un adapter por fuente

Los documentos llegan de muchos lados. Un conector fino (adapter) los unifica → el motor no cambia.

GmailDrive NotionUploadS3
Adapter · DocSource
1 Fetch — trae el doc de la fuente
2 Extraer texto — PDF · DOCX · OCR
3 Provenance — de qué fuente y cuándo
4 Dedup — hash de contenido (no reprocesar)
Motor · idéntico
cognify → EDC → cross-source

Grafo

Sumar una fuente nueva = un adapter de ~50 líneas (fetch · extraer · provenance · dedup). El motor (descubrimiento + coherencia + cross-source) no se toca. El mismo documento que llega por dos fuentes se deduplica por hash; las entidades, por el linker.

💬 Qué preguntas responde

¿Competidores de mi cartera, según los decks?
¿Qué reveló el deck de esta participada?
¿A qué empresas llegó la plata de este fondo?
¿Cuánto NAV tengo por sector?

Resultados reales (cartera de Mazinger)

0
empresas → Organization
0
NAV total (query nativa)
0
tipos descubiertos (EDC)
0
nodos limpios (de ~2400)
Multi-hop real — sacado de los documentos, no de las tablas:
Exoticca      → lanzó "Jordania" · opera Francia/España · reporta net revenue
Evantic Fund I → distribuye a Mazinger · 1.42x DPI · invirtió en Inspirit
NeuralPath AI  → founded_by Marc Puig + Elena Valls · pilot Siemens Energy

Qué lo hace agnóstico

Cartera VCOrganization · Deal · Fund · Person
Estudio jurídicoOrganization · Deal(caso) · Person(abogado) · Invoice

Mismo código, schemas opuestos → grafo CRM coherente. Sirve para Mazinger y cualquier otra empresa.

🧩 Con qué lo construimos: por qué Cognee

Evaluamos tres opciones. Cognee es la única que hace ingesta agnóstica + descubrimiento, sobre nuestro Neo4j.

Cognee ✅GraphitiOmnigraph
Qué esMotor que construye el grafoMemoria temporalMotor de base (reemplaza Neo4j)
Cualquier DB sin código a medida⚠️❌ schema a mano
Descubre entidades/relaciones del texto⚠️ solo relaciones
Corre sobre nuestro Neo4j❌ motor propio
Cifras determinísticas (sin IA)❌ LLM por registro
Madurez / open-source✅ Apache-2.0❌ muy nuevo
Por qué Cognee — qué nos permite

Es el único que combina las tres cosas que necesitábamos: ingiere cualquier base sin mapeo a medida, descubre lo que vive en los documentos, y corre sobre nuestro Neo4j. Encima le sumamos nuestra capa propia (plegado, coherencia EDC, cross-source) por sus hookssin forkear.

Graphiti no descubre tipos de entidad nuevos y obliga IA en cada registro (malo para las cifras). Omnigraph es otra capa —un reemplazo de Neo4j— con el schema escrito a mano: no es agnóstico, y es muy nuevo.

¿Cuánto cuesta?

El motor es gratis. El costo es la IA — y se concentra en los documentos, no en la base.

Paso¿Usa IA?Costo
Ingesta de la base (migrate)No · determinístico~$0
Mapeo del schemaSí · 1 sola vez (no por fila)centavos
PlegadoNo · determinístico~$0
Descubrimiento en docs (cognify)Sí · por documentoel grueso
Coherencia (EDC) + cross-sourceSí · capeadocentavos

La base puede ser enorme y costar casi nada — su ingesta es determinística. Lo que escala el costo es la cantidad de documentos.

$0
licencia (open-source Apache-2.0)
¢–$0.5
por documento (estimado)
$1–$10
cartera + cientos de docs · 1 vez
¢/día
mantenimiento (solo lo nuevo)
Palancas de ahorro ya aplicadas: mapeo schema-only (cero filas al LLM) · docs incrementales (hash → no reprocesar) · caps en EDC/cross-source · modelo barato (Haiku + text-embedding-3-small).
Estimación, no medición exacta: en el PoC no instrumentamos el costo en dólares. Se puede correr un batch midiendo tokens para una cifra dura.

Ventajas y desventajas

Balance honesto: por qué nos sirve y qué hay que tener en cuenta.

Ventajas
  • Agnóstico de verdad — cualquier base, sin código a medida por cliente.
  • Descubre lo que no está en las tablas — competidores, founders, rondas, desde los documentos.
  • Cifras exactas — los números salen de la base, nunca los inventa la IA.
  • Corre sobre nuestro Neo4j — no nos ata a una base propietaria.
  • Open-source (Apache-2.0) — sin licencia; extensible por hooks, sin forkear.
  • Barato — el costo se concentra en docs; la base es casi gratis.
Desventajas

Casi todo pasa por una sola cosa: la calidad de la IA.

  • Calidad ~80%, no 100%la desventaja que importa. Necesita revisión humana (HITL) en el alta. Es el trabajo #1.
  • Depende del dominio → un schema raro o un doc mal redactado baja la precisión del mapeo/extracción.
  • No-determinismo → la IA puede variar entre corridas; hay que versionar y auditar cada build.
  • Trazabilidad → cuesta justificar línea por línea por qué linkeó X con Y; se suma provenance.
  • Madurez pre-1.0 → parcheamos 2 bugs; riesgo de breaking changes (pinear versión).
  • Privacidad → los docs se mandan a la API del LLM (sensible con data confidencial).
En una línea: la desventaja que importa es la calidad — la IA acierta ~80%, así que necesita revisión humana (HITL) en el alta. El resto (madurez pre-1.0, no-determinismo, privacidad) es manejable y conocido; OCR y multi-tenant los resolvemos nosotros. Ninguna es bloqueante.