Referindu-ne la realizarea ghidului virtual al muzeului am realizat că nu este o sarcină ușoară!
📍Cât de mult putem deduce despre aspectul unei persoane din felul în care vorbește? În acest proiect, studiem sarcina de a reconstrui o imagine facială a unei persoane dintr-o scurtă înregistrare audio a acelei persoane care vorbește. Proiectăm și antrenăm o rețea neuronală profundă pentru a îndeplini această sarcină folosind milioane de videoclipuri naturale cu oameni care vorbesc de pe Internet/Youtube.
În timpul antrenamentului, modelul nostru învață corelații audiovizuale, voce-față, care îi permit să producă imagini care surprind diverse atribute fizice ale vorbitorilor, cum ar fi vârsta, sexul și etnia. Acest lucru se face într-o manieră auto-supravegheată, utilizând co-apariția naturală a fețelor și a vorbirii în videoclipurile de pe Internet, fără a fi nevoie să modeleze atributele în mod explicit. Reconstrucțiile noastre, obținute direct din audio, dezvăluie corelațiile dintre fețe și voci. Evaluăm și cuantificăm numeric cum – și în ce mod – reconstrucțiile noastre folosind Speech2Face din audio seamănă cu imaginile cu adevăratele fețe ale modelelor.
📍Deși aceasta este o investigație, considerăm că este important să explicăm care este setul de considerații etice din cauza potențialei sensibilități a informațiilor faciale.
📍După cum am menționat, metoda noastră nu poate recupera adevărata identitate a unei persoane din vocea sa (adică, o imagine exactă a feței sale). Acest lucru se datorează faptului că modelul nostru este antrenat să surprindă trăsături vizuale (legate de vârstă, sex etc.) care sunt comune multor indivizi și numai în cazurile în care există dovezi suficient de puternice pentru a conecta acele trăsături vizuale cu atributele vocale/vorbirii în date (vezi „corelații voce-față” mai jos). Ca atare, modelul va produce doar fețe cu aspect mediu, cu trăsături vizuale caracteristice care sunt corelate cu vorbirea de intrare. Nu va produce imagini cu anumite persoane.
📍Corelații voce-față și părtinire a setului de date. Modelul nostru este conceput pentru a dezvălui corelațiile statistice care există între trăsăturile faciale și vocile vorbitorilor în datele de antrenament. Datele de instruire pe care le folosim sunt o colecție de videoclipuri educaționale de pe YouTube și nu reprezintă în mod egal întreaga populație a lumii. Prin urmare, modelul – așa cum este cazul oricărui model de învățare automată este afectat de această distribuție neuniformă a datelor.
Mai precis, dacă un set de modele alese ar putea avea trăsături vocal-vizuale care sunt relativ neobișnuite în date, atunci calitatea reconstrucțiilor noastre pentru astfel de cazuri se poate degrada. De exemplu, dacă o anumită limbă nu apare în datele de antrenament, reconstrucțiile noastre nu vor surprinde bine atributele faciale care pot fi corelate cu acel limbaj.
📍De remarcat este faptul că că unele dintre trăsăturile fețelor noastre pot să nu fie conectate fizic cu vorbirea, de exemplu culoarea sau stilul părului. Cu toate acestea, dacă mulți vorbitori din setul de antrenament care vorbesc într-un mod similar (de exemplu, în aceeași limbă) împărtășesc și unele trăsături vizuale comune (de exemplu, o culoare sau stil comun de păr), atunci acele trăsături vizuale pot apărea în predicții.
Din motivele de mai sus, am constatat ca orice investigație suplimentară sau utilizare practică a acestei tehnologii să fie testată cu atenție pentru a ne asigura că datele de instruire sunt reprezentative pentru populația de utilizatori vizată. Dacă nu este cazul, ar trebui colectate pe scară largă date mai reprezentative.
📍În acțiunea noastră experimentală, menționăm categorii demografice deduse, cum ar fi „Alb” și „Asiatic”. Acestea sunt categorii definite și utilizate de un clasificator comercial de atribute ale feței (Face++) și au fost utilizate doar pentru evaluare în acest proiect. Modelul nostru nu este furnizat și nu folosește aceste informații în niciun moment.
Oricum am lua-o, este într-adevăr o provocare realizarea unui ghid virtual al unui muzeu, costumat in acord cu specificul Muzeului de Etnografie Brașov!👏
Echipa de implementare