KG Schema-Agnóstico — Cómo funciona

Empresa Deal Persona Sector Documento Descubierto

Objetivo

Cómo lo hace

Detalle técnico

Tip: arrastrá los nodos del grafo · usá ◀ ▶ o las pestañas para avanzar y retroceder.

★ La idea en una frase

Conectás tu base de datos y tus documentos → el sistema los entiende, los conecta y arma un mapa de todo lo que la empresa sabe — sin programar nada a medida por cliente.

? ¿Por qué un grafo?

La diferencia entre una lista y un mapa de conexiones.

Planilla

Filas en tablas. Conectar dos cosas = cruzar tablas a mano cada vez.

clientes        facturas
Acme            F1 → Acme
Globex          F2 → Globex

Grafo

Puntos conectados por líneas con nombre → se pueden recorrer (multi-hop).

Anatrabaja en→Acme←facturó—F1

📋 Ejemplo simple

TABLA clientes                  TABLA facturas
│ 1 │ Acme SL │ retail │        │ F1 │ cliente 1 │ 12000 │

①②③ →

Organization {name:"Acme SL", sector:"retail"}←BILLED_TO—Invoice {12000}

④⑥ Email "…lo firma su CTO Ana" →

Ana—CTO de→Acme SL

⑂ Dos vías de entrada

	Base de datos	Documentos
Cómo	Mapeo schema (IA 1×) + carga determinística	Extracción por IA de cada documento
Descubre nuevo	No (la base ya tiene las entidades)	Sí (competidores, personas, hechos)
Cifras	Exactas, sin IA	Best-effort + revisión humana

🔌 Ingesta de documentos — un adapter por fuente

Los documentos llegan de muchos lados. Un conector fino (adapter) los unifica → el motor no cambia.

GmailDriveWhatsApp NotionUploadS3

→

Adapter · DocSource

1 Fetch — trae el doc de la fuente

2 Extraer texto — PDF · DOCX · OCR

3 Provenance — de qué fuente y cuándo

4 Dedup — hash de contenido (no reprocesar)

→

Motor · idéntico
cognify → EDC → cross-source
↓
Grafo

Sumar una fuente nueva = un adapter de ~50 líneas (fetch · extraer · provenance · dedup). El motor (descubrimiento + coherencia + cross-source) no se toca. El mismo documento que llega por dos fuentes se deduplica por hash; las entidades, por el linker.

💬 Qué preguntas responde

›¿Competidores de mi cartera, según los decks?

›¿Qué reveló el deck de esta participada?

›¿A qué empresas llegó la plata de este fondo?

›¿Cuánto NAV tengo por sector?

✓ Resultados reales (cartera de Mazinger)

empresas → Organization

NAV total (query nativa)

tipos descubiertos (EDC)

nodos limpios (de ~2400)

Multi-hop real — sacado de los documentos, no de las tablas:

Exoticca      → lanzó "Jordania" · opera Francia/España · reporta net revenue
Evantic Fund I → distribuye a Mazinger · 1.42x DPI · invirtió en Inspirit
NeuralPath AI  → founded_by Marc Puig + Elena Valls · pilot Siemens Energy

∞ Qué lo hace agnóstico

Cartera VC→Organization · Deal · Fund · Person

Estudio jurídico→Organization · Deal(caso) · Person(abogado) · Invoice

Mismo código, schemas opuestos → grafo CRM coherente. Sirve para Mazinger y cualquier otra empresa.

🧩 Con qué lo construimos: por qué Cognee

Evaluamos tres opciones. Cognee es la única que hace ingesta agnóstica + descubrimiento, sobre nuestro Neo4j.

	Cognee ✅	Graphiti	Omnigraph
Qué es	Motor que construye el grafo	Memoria temporal	Motor de base (reemplaza Neo4j)
Cualquier DB sin código a medida	✅	⚠️	❌ schema a mano
Descubre entidades/relaciones del texto	✅	⚠️ solo relaciones	❌
Corre sobre nuestro Neo4j	✅	✅	❌ motor propio
Cifras determinísticas (sin IA)	✅	❌ LLM por registro	✅
Madurez / open-source	✅ Apache-2.0	✅	❌ muy nuevo

Por qué Cognee — qué nos permite

Es el único que combina las tres cosas que necesitábamos: ingiere cualquier base sin mapeo a medida, descubre lo que vive en los documentos, y corre sobre nuestro Neo4j. Encima le sumamos nuestra capa propia (plegado, coherencia EDC, cross-source) por sus hooks — sin forkear.

Graphiti no descubre tipos de entidad nuevos y obliga IA en cada registro (malo para las cifras). Omnigraph es otra capa —un reemplazo de Neo4j— con el schema escrito a mano: no es agnóstico, y es muy nuevo.

€ ¿Cuánto cuesta?

El motor es gratis. El costo es la IA — y se concentra en los documentos, no en la base.

Paso	¿Usa IA?	Costo
Ingesta de la base (migrate)	No · determinístico	~$0
Mapeo del schema	Sí · 1 sola vez (no por fila)	centavos
Plegado	No · determinístico	~$0
Descubrimiento en docs (cognify)	Sí · por documento	el grueso
Coherencia (EDC) + cross-source	Sí · capeado	centavos

La base puede ser enorme y costar casi nada — su ingesta es determinística. Lo que escala el costo es la cantidad de documentos.

licencia (open-source Apache-2.0)

¢–$0.5

por documento (estimado)

$1–$10

cartera + cientos de docs · 1 vez

¢/día

mantenimiento (solo lo nuevo)

Palancas de ahorro ya aplicadas: mapeo schema-only (cero filas al LLM) · docs incrementales (hash → no reprocesar) · caps en EDC/cross-source · modelo barato (Haiku + text-embedding-3-small).
Estimación, no medición exacta: en el PoC no instrumentamos el costo en dólares. Se puede correr un batch midiendo tokens para una cifra dura.

⚖ Ventajas y desventajas

Balance honesto: por qué nos sirve y qué hay que tener en cuenta.

Ventajas

Agnóstico de verdad — cualquier base, sin código a medida por cliente.
Descubre lo que no está en las tablas — competidores, founders, rondas, desde los documentos.
Cifras exactas — los números salen de la base, nunca los inventa la IA.
Corre sobre nuestro Neo4j — no nos ata a una base propietaria.
Open-source (Apache-2.0) — sin licencia; extensible por hooks, sin forkear.
Barato — el costo se concentra en docs; la base es casi gratis.

Desventajas

Casi todo pasa por una sola cosa: la calidad de la IA.

Calidad ~80%, no 100% → la desventaja que importa. Necesita revisión humana (HITL) en el alta. Es el trabajo #1.
Depende del dominio → un schema raro o un doc mal redactado baja la precisión del mapeo/extracción.
No-determinismo → la IA puede variar entre corridas; hay que versionar y auditar cada build.
Trazabilidad → cuesta justificar línea por línea por qué linkeó X con Y; se suma provenance.
Madurez pre-1.0 → parcheamos 2 bugs; riesgo de breaking changes (pinear versión).
Privacidad → los docs se mandan a la API del LLM (sensible con data confidencial).

En una línea: la desventaja que importa es la calidad — la IA acierta ~80%, así que necesita revisión humana (HITL) en el alta. El resto (madurez pre-1.0, no-determinismo, privacidad) es manejable y conocido; OCR y multi-tenant los resolvemos nosotros. Ninguna es bloqueante.

Knowledge Graph schema-agnóstico · Mazinger OS · PoC validado sobre datos reales.
Documentación técnica en docs/kg/schema-agnostico-cognee/

De cualquier base de datosa un grafo que piensa