1) FICHE TECHNIQUE — WALKMAN WEARABLE « XEROX » (hardware)

Vue fonctionnelle rapide

Appareil portable porté autour de la nuque (branches horizontales), inspiré par les lunettes « Meta » : audio stéréo, micro discret courbé vers la nuque, communication avec un bracelet de commande par signaux en fréquence (Hz) + commande vocale (wake word + ASR). Option d’affichage d’image “projectée” : pico-projecteur proche-œil / waveguide AR ou micro-fan holographique pour image dans l’espace (tradeoffs ci-dessous).

Bloc-diagramme fonctionnel (textuel)

  • Transducteurs audio (haut-parleurs intra/near-ear)

  • Array microphones MEMS (2 → 4) avec beamforming & écholocation ultrasonique optionnelle

  • SoC audio + MCU + NPU (pour wake-word et traitement on-device)

  • Radio : Bluetooth LE Audio (LC3), BLE GATT, Wi-Fi 4/5 (option), UWB (option pour localisation)

  • Module de projection (option) : pico DLP/laser MEMS OR waveguide combiner

  • Power: batterie Li-ion, gestion PMIC, USB-C PD charging + wireless charging option

  • Capteurs : IMU 9-axes, capteurs de proximité, capteur IR/optique pour détection de port (on-head)

  • Interface: bouton(s) physiques, capteur tactile capacitif sur branches, microphone pour ASR

  • Logging & stockage local (4–32 GB eMMC) + microSD optionnelle

  • Sécurité : enclave TPM / secure element (pour clés d’identification, chiffrement)

Spécifications mécaniques / ergonomie

  • Matériaux : cadre en alliage léger (Al-Mg) ou PA12 renforcé + revêtement TPU/micro-texturé pour confort.

  • Dimensions : branche centrale / arc: longueur 120–140 mm (ajustable), épaisseur max 8–12 mm.

  • Poids cible : 40–65 g (par côté), total 80–130 g.

  • Forme micro : micro courbé vers la nuque, profil ≤ 6 mm de diamètre de transducteur externe, insert flexible pour confort.

  • IP rating : IP54 (poussière/éclaboussures) minimum.

  • Température de fonctionnement : -10 → +45 °C.

Audio & micro

  • Haut-parleurs : drivers dynamiques 10–14 mm ou armature équilibrée (BA) selon qualité désirée.

  • Impédance : 16–32 Ω, sensibilité 100–110 dB SPL/V.

  • Codec Bluetooth : LC3 (LE Audio) recommandé pour faible latence et qualité.

  • Microphones : MEMS omnidirectionnels / cardioïdes, SNR ≥ 65 dB, bruit équivalent ≤ 28 dBA.

  • Array : 2–4 mics pour beamforming, annulation d’écho (AEC) et réduction de bruit (NC/ANC sur demande).

  • ADC : 24-bit, sampling rate configurable 16/24/48 kHz; si tu utilises ultrasonic ctrl (≥ 20 kHz), sampling ≥ 48 kHz.

Commandes fréquentielles (en Hz) — architecture & proposition d’implémentation

Objectif : permettre au bracelet d’émettre/encoder des commandes via signaux « fréquentiels » (Hz) lisibles par le walkman.

Options possibles (ordre recommandé) :

  1. BLE GATT (recommandé) — robustesse, sécurité, faible latence.

    • Le bracelet envoie commandes (caractères/IDs) via notifications GATT (UUID dédié).

    • Avantage : fiabilité, chiffrement AES-CCM natif, pas d’ambiguïté fréquentielle.

  2. Ultrasonic near-field chirp (19.0–21.5 kHz) — rétro-compatibilité sans usage radio.

    • Bracelet génère chirps ultrasonores encodés FSK/PSK (ex : 50 ms chirps, 4 fréquences porteurs).

    • Walkman capture via microphones (sampling ≥ 48 kHz) ; démodulation DSP (FFT + corrélation).

    • Avantages : pas d’infrastructure RF, proximité requise.

    • Limites : robustesse altérée dans environnements bruyants, sensibilité aux matériaux, potentiellement audible pour certaines oreilles.

  3. RF narrowband (sub-GHz ou 2.4 GHz) avec FSK simple — utile pour longue portée / faible latence.

    • Ex : 433 MHz or proprietary 2.4 GHz with short packets. Requiert régulation.

Paramètres techniques ultrasonic (exemple implémentable)

  • Fréquences porteuses : 19.5 kHz, 20.0 kHz, 20.5 kHz, 21.0 kHz.

  • Modulation : FSK (2 bits par symbole), symbole 25–50 ms -> débit utile ~40–80 bps (suffisant pour commandes).

  • Détection : fenêtre FFT 1024 à 48 kHz (~21 ms) + corrélation, SNR detection threshold configurable.

  • Sécurité : challenge/response + nonce via BLE handshake pour éviter spoofing ultrasonic.

Recommandation : utiliser BLE comme canal principal et ultrasonic comme canal d’appoint / pairing rapide / feedback haptique.

Projection / affichage d’image dans l’espace (options techniques)

  1. Near-eye waveguide AR (combiner transparent) — pro : immersion, lisibilité, sûr ; con : complexité optique, coût élevé.

    • Technologie : waveguide + micro-projecteur MEMS/LCoS + coupler diffractif.

    • Champ de vue : 20–40° diagonal réaliste; résolution dépend du pico-engine.

  2. Pico-projecteur DLP/laser (projection volumétrique sur surface ou micro-film) — pro : image visible sans porter écran ; con : nécessite surface/particules (fumée) pour “flottante”.

    • Sécurité laser classe 1 (obligatoire).

    • Utilisation pratique : projection sur petit film translucide ou sur main.

  3. Volumetric / Laser-plasma (non recommandé pour produit grand public) — pro : image réellement dans l’air ; con : sécurité, réglementation, puissance élevée — à éviter pour consumer.

Choix pratique pour XEROX : waveguide near-eye pour AR + option pico-projecteur pour “projection sur surface proche” (ex : main, pare-brise). Fournir réglage de luminosité et safety interlocks.

Calculateur / SoC / NPU / mémoire

  • SoC audio + application : Dual-core ARM Cortex-A35 / Cortex-M33 combo OR SoC audio spécialisé (ex : Qualcomm QCC5xx family)

  • NPU (option pour on-device face/voice ML) : 1–4 TOPS pour inférence temps réel (wakeword + small ASR + face embedding).

  • RAM : 256–1024 MB (pour fonctions basiques); 1–4 GB si rendu avatar local.

  • Stockage : 4–32 GB flash pour logs, modèles ML, OTA.

  • Connexions : USB-C (power + serial), SWD/JTAG pour dev.

Batterie / autonomie

  • Batterie : Li-ion/Li-Po 600–1200 mAh (selon contrainte), typique 1000 mAh.

  • Estimations autonomie :

    • Audio continu (moyen volume) : 8–14 h.

    • Mode standby & wakeword : plusieurs jours (standby profond).

    • Pro-AR + projection : 2–4 h (projecteur consomme).

  • Charging : USB-C PD 5V/2A (10W) ; charge complète 60–120 min. Wireless Qi optionnel.

Connectivité & compatibilité

  • Bluetooth LE Audio (LC3), Classic A2DP backward compatible.

  • BLE GATT pour commandes & pairing.

  • Wi-Fi 802.11n/ax option pour cloud processing (ASR/face).

  • API mobile via WebSocket / HTTPS / WebRTC pour streaming audio/vidéo.

BOM indicative (coûts unitaires estimés à prévoir)

  • SoC audio/MCU : 6–25 €

  • MEMS mics (x3) : 0.5–3 € chacun

  • Drivers audio (x2) : 1–6 € chacun

  • Battery 1000 mAh : 3–8 €

  • PMIC, charging, connector : 3–6 €

  • PCB, antennes, capteurs : 4–10 €

  • Enclosure, silicone inserts : 2–10 €

  • Pico projector module (optionnel) : 30–120 €

  • Fabrication (assemblage, test) : variable

Tests & validation recommandés

  • Tests acoustiques (SPL, THD, SNR) en chambre anéchoïque.

  • Robustesse beamforming et AEC dans bruit ambiant (cafés, rue).

  • Détection ultrasonic vs bruit environnemental.

  • Certification radio (CE / FCC), sécurité laser (si projeteur), RoHS, REACH.

  • Tests d’usure mécanique, flex fatigue des branches.

2) FICHE TECHNIQUE — XEROX SOCIAL (plateforme + pipeline d’incrustation visage → avatar)

Objectif

Plateforme réseau social centrée sur avatars personnalisés : l’utilisateur peut incruster son visage (photo / scan) sur un avatar 3D animé (expressions, voix), partager, streamer, ou utiliser en AR/VR. Respect strict de la vie privée et protection anti-usurpation.

Fonctionnalités principales

  • Inscription / Auth (OAuth2, 2FA).

  • Upload / capture visage (photo, vidéo ou scan via smartphone).

  • Pipeline de traitement visage → avatar (face detection → embedding → mapping sur rig d’avatar).

  • Édition et personnalisation (textures, coiffure, morphs).

  • Options de rendu: 2D image, 3D GLTF/GLB, streaming WebRTC en temps réel.

  • Partage social : timelines, DM, groupes, live.

  • Contrôles de confidentialité : consentement, suppression des données, export des embeddings.

  • Watermarking / provenance (taguer avatars générés pour éviter deepfakes non-consensuels).

Architecture technique (haut niveau)

  • Frontend : Web (React/Next), mobile (iOS/Android native), client WebGL/Unity pour rendu temps réel.

  • API Gateway + Auth service (OAuth2 / JWT).

  • Media ingestion service (upload + preproc).

  • Face Processing microservice(s) :

    • Face detection (fast)

    • Landmark + alignment

    • Embedding (vector store)

    • Face reenactment / texture transfer (neural renderer)

    • Blendshape extraction → retarget to avatar rig

  • Rendering service : server side rendering (SSR) pour miniatures + real-time for streaming (WebRTC SFU)

  • Storage : object store (S3), DB meta (Postgres), vector DB pour embeddings (Pinecone/FAISS/Weaviate)

  • CDN pour assets & avatars.

  • Moderation service (automated + human) : content policy checks, face consent verification.

  • Logging & monitoring : Prometheus/Grafana, Sentry.

Pipeline ML détaillé (suggestion d’implémentation)

  1. Capture : image ou video short.

  2. Preprocessing : resize, color normalization.

  3. Detection : RetinaFace / BlazeFace pour box.

  4. Landmark & alignment : 68/106 landmarks (for retarget).

  5. Embedding : ArcFace / FaceNet variant (128/512 dims) → stocker hash + vector (encrypted).

  6. Texture mapping : UV unwrap de la photo → neural texture synthesis (GAN or diffusion inpainting + style transfer).

  7. Animation/Retarget : First-Order Motion Model / Face2Mesh / DensePose for drive de blendshapes -> map sur rig.

  8. Rendering : PBR materials + physically plausible lighting. Export GLB/GLTF.

On-device vs cloud

  • Wake-word & lightweight landmark detection possible on-device (privacy).

  • Full high-quality reenactment / texture transfer recommandé dans le cloud (GPU / NPU), mais proposer option privacy-first : traitement local sur appareil (modèles quantifiés) si l’utilisateur le désire.

Sécurité, confidentialité & conformité (essentiel)

  • Consentement explicite : chaque avatar créé à partir d’un visage requiert case à cocher + horodatage.

  • Droit à l’effacement : interface pour supprimer images/bruts/embeddings + suppression des backups sous délai contractuel (ex : 30 jours).

  • Stockage sécurisé : chiffrement au repos (AES-256) + en transit (TLS 1.3).

  • Embeddings : stocker hashed & saltés ; permettre révocation.

  • Anti-usurpation : liveness detection (blink, head movement), challenge/response pour vérifier personne réelle.

  • Watermarking / provenance : ajouter watermark invisible (robust fingerprinting) aux avatars créés pour prouver origine et empêcher réutilisation non consensuelle.

  • Modération & protection : détection automatique d’avatars d’enfants, impersonation d’une célébrité, usage non autorisé. Processus de recours avec équipe humaine.

  • Conformité : RGPD (EU), CCPA (US) — fourniture d’export des données personnelles.

API / Endpoints clés (exemples)

  • POST /v1/users — création utilisateur (OAuth)

  • POST /v1/media/upload — upload image/vid

  • POST /v1/face/process — lance pipeline (returns job id)

  • GET /v1/face/status/{job} — status

  • GET /v1/avatar/{id} — récupérer avatar (GLB/JSON)

  • POST /v1/avatar/share — publie sur timeline / privacy flags

  • POST /v1/auth/consent — acceptation usage visage

Modèles ML recommandés / stacks techniques

  • Détection rapide : BlazeFace / RetinaFace (PyTorch / ONNX).

  • Embedding : ArcFace (insights 512-dim).

  • Reenactment : First-Order Motion Model (FOMM) pour animation; Neural Talking Head (custom) pour haute fidélité.

  • Texture / synthesis : GANs (StyleGAN2/3) ou diffusion-guided for realistic textures.

  • Quantification & on-device : TFLite / ONNX-runtime + quantization int8.

  • Runtime : GPU (NVIDIA T4 / A10) pour batch processing ; optional pods with NVIDIA RTX for real-time.

Contraintes d’éthique & limitations techniques

  • Pas de reconnaissance faciale pour identification sans consentement explicite. Eviter features qui identifient quelqu’un en public sans consentement.

  • Reconnaissance vocale vs commande : stocker/streamer ASR bruts uniquement si l’utilisateur accepte. Favoriser wake-word et commandes locales.

  • Deepfake risk : fournir outils de détection et limitation de diffusion non-consensuelle.

Scalabilité & coûts (indication)

  • Coût infra initial (MVP small scale) : 5–20 k€/mois (storage, modest GPU for re-render jobs).

  • Pour 100k utilisateurs actifs → prévoir scaling : S3, multiple GPU nodes, vector DB scalable, CDN.

  • CDN & streaming (WebRTC SFU) pour live : Jitsi/Janus/Mediasoup ou commercial SFU (Agora/Twilio).

UX / Flow recommandé pour incrustation visage

  1. L’utilisateur capture selfie vidéo 5–10 s (head rotations, expressions).

  2. Liveness check + consent screen.

  3. Upload & choix de style avatar (cartoony / réaliste).

  4. Prévisualisation 3D interactive (pose, expressions).

  5. Export / share / permission settings.

Mesures anti-abus & bonnes pratiques techniques

  • Obliger 2FA pour comptes avec avatars basés sur visage.

  • Limitations d’export public pour avatars « réalistes » (option privée par défaut).

  • Filigrane numérique & métadonnées signées (JWT) pour chaque avatar exporté.

  • Logs d’audit pour actions sensibles (suppression, partage de visage).

  • Option “confidential local” — l’utilisateur peut choisir que tout le traitement se fasse localement (modèle quantifié) : plus lent mais privé.

Exemple d’un cas d’usage complet (flux)

  1. User met le walkman XEROX ; bracelet envoie pairing via BLE (secure pairing).

  2. User dicte « projette photo » (wake-word local), ASR local comprend la commande → demande permission si cloud req.

  3. Bracelet envoie un chirp ultrasonic (19.8 kHz) pour activer projection ; walkman reconnait et active pico-projector (ou waveguide) pour afficher mini-avatar devant l’utilisateur.

  4. L’utilisateur capture un selfie via smartphone app → pipeline cloud génère avatar → rendu en GLB → envoi sur le compte XEROX Social.

  5. Partage effectué selon paramètres de confidentialité.

Annexes rapides (recommandations / checklist pour prototype)

  • Prototype oral → utiliser SoC audio (ex : nRF53 series / Qualcomm audio SoCs) + module pico DLP devkit.

  • Pour ultrasonic prototypage : microcontroller + transducer capable >22 kHz, mics sampling 48 kHz.

  • Implémenter chiffrement & secure boot dès le premier firmware.

  • Prévoir OTA & rolling updates.

Download

Download
01.zip 87 MB

Install instructions

MVH MVT simulateur

Leave a comment

Log in with itch.io to leave a comment.