Enterprise-Wide Data Processing & Digital Evidence Consolidation

(Categoría: E-Discovery & Digital Evidence)


Contexto del Proyecto

La organización necesitaba unificar y preparar evidencia digital dispersa en:

  • PST/EML.
  • OneDrive / SharePoint.
  • Archivos cloud (Box, ATS, Internxt).
  • Chats.
  • Audios.

Los datos presentaban duplicación extrema, inconsistencias de formato y falta de estructura para investigación, revisión legal y análisis basado en IA.

Objetivo del Proyecto

Consolidar, estandarizar y preparar más de 560 GB de evidencia en datasets ligeros, completamente textuales, normalizados y aptos tanto para revisión legal (Logikcull/Oxygen) como para análisis avanzado con Anthropic Claude Sonnet 4.5.

Esto incluía:

  • Estructurar correos, adjuntos y metadatos.
  • Generar transcripciones estandarizadas.
  • Deduplicar y normalizar repositorios cloud.
  • Preparar outputs en formato AI-ready.

Alcance y Solución Implementada

Procesamiento y Normalización de Evidencia

  • Extracción completa de PST/EML, repositorios cloud y chats.
  • Conversión a formatos textuales estandarizados.
  • Preparación de datasets compatibles con Claude Sonnet 4.5.
  • Generación de versiones transcriptas y taggeadas de 807 audios.

AI Enablement – Pipeline Pitágoras (AWS Bedrock)

Desarrollo de:

  • Ingestión automatizada.
  • Conversión estandarizada.
  • Datasets vector-ready.
  • Flujo seguro de análisis semántico.
  • Clasificación + búsqueda avanzada + correlación metadatos-evidencia.

Estrategia de Deduplicación y Reducción de Volumen

  • Adjuntos reducidos de 95,000 → 30,804 archivos únicos.
  • Archivos cloud reducidos de 113,632 → 66,299.
  • Mantención del valor probatorio con SHA-256 y trazabilidad.

Optimización de Costos de E-Discovery (Logikcull)

A pesar de procesar 560 GB de datos, la carga final se mantuvo por debajo de 10 GB gracias a la conversión textual y estructura relacional.

Esto generó ahorros directos bajo un modelo basado en mantener la data por debajo de 10 GB.

Resultados e Impacto

  • Normalización completa de:
    • 126,046 correos.
    • 95,000 adjuntos (→ 30,804 únicos).
    • 113,632 archivos cloud (→ 66,299 únicos).
    • 3,882 audios + 807 transcripciones.
  • Dataset 100% compatible con IA (Claude Sonnet 4.5 / Pitágoras).
  • Repositorio auditable y estructurado para búsquedas complejas.
  • Tiempos de respuesta acelerados a solicitudes legales y operativas.
  • Menor carga en Logikcull → optimización de costos.

Tecnologías Utilizadas

Plataformas / Productos

  • Logikcull.
  • Oxygen Forensic/eDiscovery.
  • SharePoint / OneDrive.
  • Box.
  • Internxt Drive.
  • AWS Wickr.
  • Whisper AI (transcripciones).
  • Anthropic Claude Sonnet 4.5 (Pitágoras).

Tecnologías / Procesos

  • Python (procesos masivos de extracción, deduplicación, hashing).
  • SHA-256 para integridad y trazabilidad.
  • Indexación y estructura relacional de metadatos.
  • Pipelines de conversión a texto estructurado.
  • Infraestructura temporal de 2 TB para procesamiento seguro.

Lecciones Aprendidas

  • La reducción de volumen requiere estrategia, no compresión.
  • Las estructuras estandarizadas aceleran radicalmente solicitudes legales.
  • La expansión temporal de datos es clave para la integridad a largo plazo.
  • Las plataformas seguras pueden ser cuellos de botella si no se gestionan bien.
  • La deduplicación precisa evita pérdida de evidencia.
  • Los flujos de solicitud-respuesta deben estar claramente definidos.

Principales Logros

  • E-discovery completo con costo reducido al mínimo (<10 GB).
  • Reducción exponencial de duplicados.
  • Normalización integral de correos, adjuntos y cloud.
  • Preparación de datasets para IA a gran escala.
  • Respuestas legales rápidas y consistentes.
  • Trazabilidad completa y auditabilidad.
  • Colaboración fluida entre legal, técnico y operaciones.