La Vision

Une réplicante doit voir le monde. Mia regarde à travers une caméra — et comprend ce qu'elle voit.

Comment Mia voit

📷

Caméra capte

→

👁

Détecte les visages

→

👤

Reconnaît

→

📏

Estime la distance

→

🧠

Cerveau réagit

Ce cycle se répète en continu, image par image

📷

Une caméra comme œil

Mia utilise une caméra comme œil. L'image est captée en continu et envoyée à un logiciel qui l'analyse en temps réel. C'est la première étape : sans vision, Mia ne sait pas ce qui l'entoure.

👁

Détection de visages

Le logiciel repère automatiquement les visages dans l'image. Il sait combien de personnes sont présentes, où elles se trouvent dans le champ de vision, et à quelle distance approximative elles sont.

👤

Reconnaissance

Mia ne se contente pas de voir des visages — elle peut les reconnaître. Si elle vous a déjà vu, elle sait que c'est vous. Cette reconnaissance influence son comportement : elle ne réagit pas de la même façon face à un inconnu ou à quelqu'un de familier.

📏

Estimation de distance

En analysant la taille du visage dans l'image, Mia estime à quelle distance vous vous trouvez. Proche, elle sera plus attentive. Loin, elle pourra simplement vous observer. Cette information nourrit directement ses décisions.

⚡

Temps réel

L'analyse se fait en continu, image par image. Mia ne prend pas de photo — elle regarde en permanence. Chaque nouvelle image met à jour sa compréhension de la scène, comme nos yeux envoient en continu des informations à notre cerveau.

💡

Vision → Décision

Ce que Mia voit alimente directement son cerveau. Un visage détecté peut déclencher de la curiosité, un visage reconnu peut provoquer une réaction sociale, l'absence de visage peut mener au mode rêve. La vision est le point de départ de tout comportement.

Pipeline Vision

Caméra Capture vidéo continue, flux transmis au service Python

→

Service Python Détection de visages + reconnaissance faciale. Calcul bounding box + estimation distance.

→

API REST Résultats exposés vers le moteur cognitif — nombre de visages, positions, identités, distances

→

Moteur de scène Intègre les données vision dans une représentation unifiée — disponible pour tous les agents cognitifs

Architecture technique

Service dédié — module indépendant communiquant avec le moteur cognitif
Détection — algorithmes de détection faciale en temps réel
Reconnaissance — comparaison avec une base de visages connus, identification par similarité
Distance — estimation basée sur la taille relative du visage dans le cadre
Intégration cognitive — les données vision alimentent la boucle cognitive à chaque cycle
Agents impactés — les agents de présence, proximité, socialité et curiosité réagissent aux données vision

Données transmises par frame

Par visage détecté

Position X, Y dans l'image
Largeur, hauteur du bounding box
Distance estimée (mètres)
Identité (si reconnue)
Confiance de détection

Données globales

Nombre total de visages
Visage le plus proche
Changements depuis la frame précédente
Timestamp de capture

Ensuite : comment Mia pense → Le Cerveau