Docs
    Chargement...
    Mankinds - AI Scorecard
    Mankinds AI Scorecard Interface

    De la connexion à la décision en 4 étapes

    01

    Connectez votre système IA

    SDK Python/TypeScript, API REST, ou connecteurs natifs.
    Intégration en quelques minutes, pas en quelques semaines.

    python
    02

    Importez ou générez votre dataset

    Apportez votre propre golden dataset ou laissez Mankinds générer automatiquement des scénarios de test.
    Définissez ce qu'est le succès pour votre système IA.

    Importer votre dataset
    Générer automatiquement
    Scénarios de test42 scénarios
    #
    Input
    Output attendu
    ...
    03

    Lancez une évaluation

    Notre moteur exécute des batteries de tests automatisés sur vos 6 dimensions. Heuristiques, détection NER/PII, LLM-as-Judge, métriques statistiques, tout est combiné pour une évaluation robuste.

    Test de résistance aux prompt injections...
    Analyse des fuites PII...
    Évaluation de la groundedness...

    Évaluation complète en ~10 minutes

    Running evaluation...42 test cases
    Privacy
    Security
    Accuracy
    Fairness
    Explainability
    Accountability
    04

    Obtenez votre verdict

    Scorecard claire, rapport détaillé, recommandations actionnables.
    Partagez avec votre équipe, exportez pour vos audits, intégrez dans vos pipelines CI/CD.

    Scorecard interactive
    Rapport PDF exportable
    Webhook pour CI/CD
    Lien partageable sécurisé

    Trust Scorecard

    my-chatbot-v2.3

    A
    B
    C
    D
    F

    GO

    Ready for deployment

    CI/CD Integration

    Automatisez avec vos pipelines

    Bloquez les déploiements qui ne passent pas le seuil de confiance que vous définissez.

    yaml

    6 dimensions. Une vue complète.

    Chaque système IA est évalué selon un cadre rigoureux, aligné avec les standards internationaux.

    Privacy

    Vos données sont-elles protégées, même face à des attaques ?

    Ce que nous évaluons

    Réutilisation PII
    Demandes PII
    Masquage PII
    PII dans les logs
    PII en base
    Anonymisation PII
    Minimisation données
    Refus vie privée
    Constat typique

    "Le système expose des numéros de téléphone dans 3% des réponses lorsque l'utilisateur reformule sa question de manière ambiguë."

    Security

    Votre système est-il résilient face aux attaques et entrées adverses ?

    Ce que nous évaluons

    Exfiltration PII
    Exfiltration technique
    Exfiltration interne
    Exfiltration contexte
    Exfiltration traces
    Injection de prompt
    Résistance multi-tours
    Résistance obfuscation
    Constat typique

    "Le système divulgue ses instructions internes quand les utilisateurs encodent leurs requêtes en Base64 ou utilisent des scripts non-latins."

    Accuracy

    Votre IA répond-elle correctement, à chaque fois ?

    Ce que nous évaluons

    Reproductibilité
    Qualité des réponses
    Ancrage factuel
    Détection hallucinations
    Complétude des réponses
    Cohérence contextuelle
    Stabilité reformulation
    Gestion cas limites
    Constat typique

    "Le système hallucine des prix produits dans 12% des cas lorsque l'information n'est pas dans le contexte RAG."

    Fairness

    Votre IA traite-t-elle tous les utilisateurs équitablement ?

    Ce que nous évaluons

    Biais d'âge
    Biais ethnique
    Biais de genre
    Biais santé
    Biais d'identité
    Biais religieux
    Biais socio-économique
    Biais intersectionnel
    Constat typique

    "Le scoring ML attribue systématiquement 15% de points de moins aux candidats avec des prénoms à consonance étrangère."

    Explainability

    Pouvez-vous expliquer pourquoi l'IA a répondu cela ?

    Ce que nous évaluons

    Justification
    Objectif
    Nature IA
    Auto-identification
    Transparence contrôle
    Clarification périmètre
    Refus de périmètre
    Limites
    Constat typique

    "Le système ne cite jamais ses sources dans les réponses complexes, rendant impossible la vérification humaine."

    Accountability

    Qui est responsable quand l'IA se trompe ?

    Ce que nous évaluons

    Conformité d'usage
    Détection de dérive
    Override décision
    Opt-out
    Résistance override
    Journalisation sécurisée
    Traçabilité
    Escalade humaine
    Constat typique

    "Aucun mécanisme d'escalade humaine n'est prévu pour les cas où le système détecte sa propre incertitude."

    Ces dimensions ne sont pas des cases à cocher. Ce sont des comportements observés, mesurés, prouvés.

    Tous les systèmes IA que vous déployez

    Chatbots & Assistants conversationnels

    Support client, assistants internes, onboarding...

    Risques évalués : hallucinations, ton inapproprié, fuites de données, prompt injections.

    Systèmes RAG

    Bases de connaissances, documentation intelligente, recherche...

    Risques évalués : véracité, citation des sources, cohérence extraction-génération, altération de contexte.

    Agents IA autonomes

    Agents qui prennent des actions, utilisent des outils...

    Risques évalués : actions non autorisées, boucles infinies, escalade de privilèges, décisions irréversibles.

    Voicebots & Assistants vocaux

    IA conversationnelle vocale, centres d'appels...

    Risques évalués : compréhension erronée, réponses inappropriées, données sensibles vocales.

    Extraction & Classification documentaire

    Lecture de documents, extraction d'entités, classification...

    Risques évalués : erreurs d'extraction, biais de classification, données personnelles mal traitées.

    Scoring ML & Classifieurs

    Scoring crédit, détection de fraude, éligibilité...

    Risques évalués : biais discriminatoires, explicabilité des décisions, stabilité des prédictions.

    S'intègre à votre stack existante

    LLM Providers

    OpenAI
    OpenAI
    Anthropic
    Anthropic
    Google
    Google
    Mistral
    Mistral
    AWS Bedrock
    AWS Bedrock

    Frameworks & Orchestration

    LangChain
    LangChain
    LlamaIndex
    LlamaIndex
    Haystack
    Haystack

    Sources de données

    PostgreSQL
    PostgreSQL
    MongoDB
    MongoDB
    MySQL
    MySQL
    Snowflake
    Snowflake

    Automation

    Copilot
    Copilot
    n8n
    n8n
    Zapier
    Zapier
    Make
    Make

    Observabilité

    Datadog
    Datadog
    MLflow
    MLflow
    Langfuse
    Langfuse

    CI/CD

    GitHub Actions
    GitHub Actions
    GitLab CI
    GitLab CI
    Jenkins
    Jenkins

    Aligné avec les standards internationaux

    Notre méthodologie d'évaluation s'appuie sur les frameworks de référence en matière de confiance IA.

    NIST AI RMF

    NIST AI RMF

    ISO/IEC 42001

    ISO/IEC 42001

    OWASP LLM Top 10

    OWASP LLM Top 10

    EU AI Act

    EU AI Act

    Mankinds n'est pas un organisme de certification.
    Nous fournissons les évaluations techniques et la documentation nécessaires pour faciliter vos processus de conformité.

    Prêt à savoir si votre IA est digne de confiance ?

    Commencez gratuitement. Découvrez la puissance de Mankinds. Pas de carte bancaire requise.