Image recognition – o implementare accesibilă a Inteligenței Artificiale

24/06/202010 Minute

Deși în urmă cu numai câțiva ani, Inteligența Artificială părea un element SF cu care vom avea de a face într-un viitor îndepărtat, acest concept a devenit cu repeziciune parte din viață noastră de zi cu zi.  AI este probabil cel mai popular termen întâlnit în zona tehnologiei, deoarece oferă oamenilor diverse instrumente prin care aceștia pot rezolva sarcini repetitive, ce implică gestionarea unui volum mare de date sau sau a unor operațiuni complexe.

Una din cele mai accesibile și relevante implementări ale Inteligenței Artificale este computer vision. Această zonă a AI-ului este cea care permite instrumentelor dedicate scanării codurilor de bare să “vadă” și să identifice o succesiune de dungi, sau componenetei face ID a telefoanelor inteligente  să stabilească dacă în fața camerei se află posesorul telefonului sau nu. Pe scurt, așa cum o parte a creierului uman procesează informația pe care o primesc ochii, atunci când un dispozitiv primește o informație vizuala, folosește componenta de “computer vision” pentru a înțelege ceea ce “vede”.

Computer vision are numeroase implementări, însă probabil cea mai interesantă și practică este image recognition (recunoașterea imaginii), care deja revoluționează tehnologia. Procesul face parte dintr-o procedură mai amplă, procesarea de imagini, și presupune selectarea și identificarea anumitor aspecte care apar într-o poza, cum ar fi culori, oameni, clădiri, logo-uri sau peisaje. Datorită versatilității acestei tehnologii, ea a devenit foarte populară în ultimul timp, iar companii din diverse industrii o folosesc pentru a își ușura activitatea.

Cum are loc recunoașterea imaginilor?

Înainte să înțelegem de ce recunoașterea imaginilor este atât de populară și cum poate ajuta diverse industrii, este important să înțelegem cum funcționează această tehnologie.

Similar oricărui proces de machine learning, prima etapă este reprezentată de colectarea de informații. Computerul va procesa imaginea ca pe o imagine de tip raster sau ca pe una vectorială, așadar va identifica în primul rând componentele care alcăturiesc particularități ale imaginii respective, apoi le va analiza. După analiză, datele vor fi organizate astfel încât informațiile relevante să rămână în sistem, iar cele irelevante să fie eliminate. Odată ce acest proces este finalizat, este construit un model de predicție, prin intermediul căruia utilizatorul poate beneficia de funcția de recunoaștere a imaginii. Toate acestea sunt posibile datorită Inteligenței Artificiale.

Este folosit un volum uriaș de date pentru a “învăța” un dispozitiv să identifice, în mod eficient și precis, ce anume înfățișează o anumită imagine. Unele baze de date conțin milioane de fotografii descrise folosind cuvinte cheie care indică peisaje, mâncare, animale sau elemente de tehnologie.  Aceste baze de date reprezintă punctul de plecare în procesul de machine learning. De exemplu, dispozitivul va putea să identifice o “pisică” într-o fotografie, deoarece știe cum arată o pisică, pentru că a analizat numeroase imagini care au fost etichetate folosind cuvântul “pisică”.

Există numeroase implementări pentru recunoașterea de imagini. Iată care sunt cele mai frecvent folosite:

Facial recognition – aceasta este probabil cea mai populară ramură a recunoașterii de imagini, deoarece este folosită de către producătorii de telefoane mobile ca funcție ce permite utilizatorului să își deblocheze telefonul. Cu ajutorul Inteligenței Artificiale, dispozitivul schițează anumite trăsături ale imaginii, apoi le compară cu datele pe care le are deja în sistem, pentru a identifica utilizatorul. Totuși, este posibil ca această procedura să nu fie mereu una corectă, deoarece niciun dispozitiv nu garantează acuratețe de 100%. Tehnologia evoluează însă, iar această problemă este posibil să dispară curând.

Recunoașterea obiectelor – această funcție poate fi o soluție pentru numeroase industrii, deoarece selectează și identifică unul sau mai multe obiecte dintr-o imagine sau un fișier video. Una din cele mai comune aplicări ale acestei funcții este căutarea după imagini, introdusă de motoarele de căutare precum Google.

Detectarea textului – este o funcție foarte intuitivă: sistemul identifică și extrage textul dintr-o imagine. Procedura este folosită de instrumentele de advertising digital, care se asigură astfel că imaginile folosite în campaniile de promovare nu folosesc anumite cuvinte. În cazul în care o fac, algoritmul va elimina reclama respectivă și nu o va mai afișa utilizatorilor.

Recunoașterea unor șabloane – se vor recunoaște anumite tipare sau modele dintr-o anumită imagine. Acestea pot fi expresii faciale, culori sau text, iar funcția este de obicei folosită de către programele de editare foto.

Analiza iamginii – analizarea unor fotografii cu ajutorul Inteligenței Artificiale a devenit o practică populară în domeniile pentru care este util un rezumat al imaginilor, cum ar fi Social Media. Toate obiectele, culorile sau formele vor fi analizate, astfel încât utilizatorii să știe exact ce anume conține o fotografie.

Care sunt cele mai bune implementări ale funcției de image recognition în business?

Există numeroare metode, tehnologii și instrumente de procesare a imaginii cu ajutorul AI. Totuși, o clasificare simplă poate fi făcută în funcție de metoda folosită, așadar există două moduri principale de recunoaștere a imaginilor: analog și digital. Prima presupune procesarea unor imagini fizice, precum fotografii printate, pe când a doua folosește materiale digitale și algoritmi informatici.

Fie că este vorba despre procesarea unor fotografii printate sau a unor fișiere digitale, funcția de recunoaștere a imaginii poate fi integrată cu success în numeroase aplicații software care servesc companiilor din diverse domenii de business. Aceste soluții ajută la automatizarea unor procese și la obținerea de informații exacte cu privire la produse, competitori, campanii de promovare și altele. Iată câteva din cele mai populare tipuri de afaceri care beneficiază de image recognition:

Retail și distribuție

Magazinele și lanțurile de distribuție sunt probabil cele care pot profita cel mai mult datorită tehnologiei de recunoaștere a imaginii. De la aplicații de tip “visual shopper”, care ajută clienții să găsească mai ușor în magazine produsele pe care își doresc să le cumpere, până la aplicații de comparare a prețurilor, instrumente de citire a etichetelor sau calatoage digitale – toate acestea ajută la îmbunătățirea experienței clienților, și astfel și la o creștere a vânzărilor. Angajații companiilor din retail și distribuție pot și ei folosi aplicații pentru recunoașterea imaginilor, pentru a ține mai ușor evidența produselor și stocurilor, a măsura KPI sau a automatiza anumite sarcini repetitive.

Creatorii de conținut visual

În general, drepturile de autor sunt foarte importante pentru cei care creează materiale de orice fel. De aceea, pentru agențiile sau creatorii de conținut vizual (fotografi, graphic designeri etc) instrumentele de recunoaștere a imaginii sunt extrem de utile. Identificând șabloane, tendințe sau culori, un sistem poate fi util în a decide dacă munca unui individ a fost folosită de altcineva, fară a acorda credit autorului.

Platforme de social media

Social media a devenit o parte importantă a vieții noastre, însă majoritatea oamenilor nu cunosc algoritmul de funcționare a acestor platforme dedicate. Una din cele mai relevante componente ale acestor platforme este reprezentată de recunoașterea de imagini. Probabil cea mai cunoscută implementare este cea de recunoaștere facială introdusă de facebok, cu ajutorul căreia platforma sugerează ce utilizatori sunt prezenți într-o fotografie, odată ce aceasta este uploadata, ajutând astfel la etichetarea persoanelor. Sistemul poate identifica expresii ale feței, obiecte, mâncare sau peisaje, pentru a traduce conținutul pentru utilizatorii nevăzători, sau pentru a identifica și elimina conținutul nepotrivit.

Acestea sunt doar câteva exemple ce ilustrează diversitatea aplicărilor Inteligenței Artificiale, machine learning sau computer vision, și felul în care acestea pot ajuta companiile care folosesc volume mari de informații vizuale. Zona de computer vision s-a dezvoltat foarte mult în ultimii ani, datorită deep-learning, bazelor de date și instrumentelor de programare din ce în ce mai performante. Totuși, capabilitățile tehnologiei de recunoaștere a imaginii se mai pot extinde, dat fiind că aceasta nu și-a atins înca potențialul maxim.