Formats

Formats compatibles entreprise

Safe-Doc est conçu pour les documents sensibles utilisés au quotidien : contrats, rapports, dossiers juridiques, documents RH et financiers. L'objectif n'est pas "d'analyser des fichiers" - c'est de sécuriser l'usage de l'IA sur ces documents.

Ce que vos équipes utilisent vraiment

PDF et Word couvrent la majorité des échanges sensibles en entreprise. Safe-Doc pseudonymise ou anonymise, réduit le contexte à risque et produit une version prête pour une analyse IA sécurisée (mono-document ou Data Room).

PDF (texte natif) Support complet

Cas typiques

  • Contrats et annexes
  • Rapports, audits, notes
  • Dossiers juridiques
  • Documents financiers

Ce que Safe-Doc fait pour l'IA

  • Anonymisation ou pseudonymisation des informations sensibles
  • Suppression des métadonnées (auteur, outils, timestamps)
  • Réduction de précision contextuelle (dates, montants, lieux)
  • Suppression des couches invisibles
  • Reconstruction propre du document
  • Rapport d'audit (selon le niveau)

Mode Advanced

  • Neutralisation de style (anti-empreinte)
  • Généralisation et réduction contextuelle renforcées
  • Reconstruction avancée (structure nettoyée)

Note : Les PDF scannés nécessitent une extraction de texte (OCR).

DOCX (Microsoft Word) Support complet

Cas typiques

  • Contrats et clauses
  • Notes internes
  • RH (procédures, dossiers)
  • Juridique (mémos, synthèses)

Ce que Safe-Doc fait pour l'IA

  • Anonymisation ou pseudonymisation des informations sensibles
  • Suppression des propriétés auteur
  • Suppression des commentaires
  • Suppression des historiques de révision
  • Nettoyage des métadonnées internes

Mode Advanced

  • Neutralisation de style
  • Reconstruction d'un document propre
  • Nettoyage structurel approfondi

Limitation : Les formats .doc anciens ne sont pas supportés à ce stade.

OCR (option)

Pour les PDF scannés (texte dans l'image) :

  • Extraction du texte
  • Puis pseudonymisation ou anonymisation / réduction contextuelle
  • Même sortie "prête pour analyse IA sécurisée"

Limitation : La qualité dépend du scan original.

55+ types d'entités détectées - couverture multinationale

Safe-Doc détecte et peut pseudonymiser ou anonymiser plus de 55 catégories d'informations sensibles - un niveau de couverture rarement affiché publiquement par les solutions du marché.

Identités

PERSONNE, ORGANISATION, PSEUDO

Contact & lieu

EMAIL, TELEPHONE, ADRESSE, LIEU, REGION, CODE_POSTAL, COORDONNEES_GPS

Financier

MONTANT, IBAN, RIB, BIC, BANK_ACCOUNT, CARTE_BANCAIRE, CARTE_BANCAIRE_FRAGMENT, CVV, DATE_EXPIRATION_CARTE

France

SIRET, SIREN, TVA, RNA, NUMERO_SECU

EU / International

PASSEPORT, REISEPASS, PERMIS_CONDUIRE, DRIVER_LICENSE, PATENTE, PLAQUE_IMMAT, CARTE_ID, PERSONALAUSWEIS, DNI, NIE, CODICE_FISCALE, SSN, NI_NUMBER, EIN, STEUER_ID, STEUERNUMMER, CIF_NIF, PARTITA_IVA, SEGURIDAD_SOCIAL

Numérique

URL, IP, ADRESSE_MAC, API_KEY, PASSWORD

Divers

REFERENCE_UNIQUE, DATE, DIVERS

Pays couverts : France, Allemagne, Espagne, Italie, Royaume-Uni, États-Unis. Liste indicative - le périmètre effectif dépend du document et du niveau N1–N2 (N3 en roadmap).

Roadmap entreprise

Objectif : couvrir les formats "vrais" des organisations, sans compromettre la sécurité documentaire.

XLSX (Excel)

Utile pour :

  • Exports financiers
  • Données RH
  • Tableaux de due diligence

Pourquoi en roadmap ? Les structures (formules, liens, macros) demandent un traitement dédié pour rester robuste et maîtrisé.

PPTX (PowerPoint)

Utile pour :

  • Decks comité
  • Presentations internes
  • Notes et commentaires
CSV / Exports data

Utile pour :

  • Exports outillés
  • Colonnes sensibles et identifiants
  • Généralisation des données structurées
Traitement batch (ZIP)

Utile pour :

  • Lots de documents
  • Rapports consolidés

Limitations actuelles

  • Les fichiers protégés par mot de passe doivent être déverrouillés avant upload.
  • Les scripts embarqués sont supprimés.
  • Le texte contenu uniquement dans des images nécessite OCR.
  • Safe-Doc ne garantit pas l'anonymat absolu ; il réduit fortement le risque d'exposition et de ré-identification par pseudonymisation et dé-identification.