Object Detection and Augmentation

నేను Chrome లో చాలా Shape Detection API తో ఎంతో ఆడుతూ Shape Detection API మరియు నేను కలిగి ఉన్న సంభావ్యతను నిజంగా ఇష్టపడతాను, ఉదాహరణకు చాలా సులభమైన QRCode detector నేను చాలా కాలం క్రితం ఒక JS new BarcodeDetector() , అది అందుబాటులో ఉంటే new BarcodeDetector() API ని ఉపయోగిస్తుంది.

Face Detection , Barcode Detection మరియు Text Detection : Face Detection ఆకృతి గుర్తింపు API యొక్క ఇతర సామర్థ్యాలను ఉపయోగించి ఇక్కడ నిర్మించిన ఇతర డెమో యొక్క Text Detection .

వారాంతంలో నేను Jeeliz లో డెక్కన్ అయినప్పుడు నేను గొలిపే ఆశ్చర్యపోయాను మరియు నేను వారి టూల్కిట్ పనితీరును చాలా ఆకట్టుకున్నాను - నేను Pixel3 XL ను ఉపయోగించాను, కాని ముఖాలను గుర్తించడం FaceDetector API తో సాధ్యమయ్యేదానికంటే గణనీయమైనదిగా అనిపించింది.

Checkout some of their demos .

ఇది నాకు చాలా ఆలోచిస్తూ వచ్చింది. ఆబ్జెక్ట్ డిటెక్షన్ (ఇది వంటివి) కోసం ఈ టూల్కిట్ వెబ్లో ప్రత్యేకంగా కెమెరా యాక్సెస్, WebGL మరియు WASM లలో విస్తృతంగా అందుబాటులో ఉన్న API లను ఉపయోగిస్తుంది, ఇది Chrome యొక్క ఆకారం డిటెక్షన్ API (Chrome లో మాత్రమే ఉంది మరియు Chrome లో ఉన్న అన్ని ప్లాట్ఫారమ్ల్లో స్థిరంగా లేదు ) అన్ని వేదికలపై స్థిరమైన అనుభవంతో గొప్ప అనుభవాలను సులభంగా నిర్మించడానికి మరియు బిలియన్ల మంది వినియోగదారులను చేరుకోవడానికి ఉపయోగించవచ్చు.

అది ఆసక్తికరంగా (మరియు నిజంగా ఈ పోస్ట్లో చూపించాలని కోరుకున్నాను) మరియు అక్కడ ఇప్పుడు వేదికకు వస్తున్న మిడిల్వేర్ గ్రంధాలయాలు అవసరం కావడంతో, వినియోగదారులు సరదాగా స్నాప్చాట్-ఎస్క్ ఫేస్ ఫిల్టర్ అనువర్తనాలను నిర్మించగలరు. వినియోగదారుల పరికరం నుండి భారీ మొత్తంలో డేటాను పెంచుతుంది (ఎందుకంటే వ్యవస్థకు అంతర్లీన యాక్సెస్ ఉండదు).

ఆహ్లాదకరమైన ప్రదర్శనలు వెలుపల, వాడుకదారుల కోసం త్వరగా మరియు సులభంగా అత్యంత అధునాతన వినియోగ సందర్భాలను పరిష్కరించడం సాధ్యపడుతుంది:

వినియోగదారుని నుండి కెమెరా లేదా ఫోటో నుండి నేరుగా టెక్స్ట్ ఎంపిక * కెమెరా నుండి భాషల యొక్క ప్రత్యక్ష అనువాదం * ఇన్లైన్ QRCode గుర్తింపును కాబట్టి ప్రజలు WeChat అన్ని సమయం తెరిచి లేదు :) * చిత్రం నుంచి సేకరించిన ఆటో URL వెబ్సైట్ URL లు లేదా చిరునామా * క్రెడిట్ కార్డ్ గుర్తింపును మరియు సంఖ్య వెలికితీత (వినియోగదారులు వేగంగా మీ సైట్ వరకు సైన్ అప్ పొందండి) * మీ స్టోర్ వెబ్ అనువర్తనం లో విజువల్ ఉత్పత్తి శోధన. మీ దుకాణాల వెబ్ అనువర్తనంలో మరిన్ని ఉత్పత్తి వివరాలు కోసం బార్కోడ్ శోధన. ప్రజల ముఖాలకు ప్రొఫైల్ ఫోటోల త్వరిత పంట. * చిత్రంలో కనిపించే టెక్స్టును యూజర్ వినడానికి అనుమతించే సాధారణ A11Y లక్షణాలు.

నేను ఈ ఉపయోగం కేసుల గురించి ఆలోచిస్తూ 5 నిమిషాలు గడిపాను - నాకు చాలా ఎక్కువ తెలుసు - కానీ నాకు సైట్లు లేదా వెబ్ అనువర్తనాలు చాలా కెమెరాని ఉపయోగించలేదని నాకు తెలీదు, దానికి బదులుగా సైట్లు చాలా అడిగేవి వినియోగదారులు ఒక అనువర్తనాన్ని డౌన్లోడ్ చేసుకోవటానికి మరియు మనం ఏమైనా చేయాలని నేను అనుకోను.

** మా జట్టులో థామస్ స్టినేర్ మా టీమ్ చాట్ లో పేర్కొన్నది నేను ప్రస్తుత ShapeDetection API ShapeDetection కాదు అనిపిస్తుంది. నేను ఈ API ప్రతి సంబంధిత వ్యవస్థల యొక్క స్థానిక షిప్పింగ్ అమలుకు మాకు ప్రాప్తిని ఇచ్చే వాస్తవాన్ని నేను ప్రేమిస్తున్నాను, అయితే The Lumpy Web లో నేను వ్రాసిన The Lumpy Web , వెబ్ డెవలపర్లు ప్లాట్ఫారమ్లో స్థిరత్వం The Lumpy Web మరియు ఆకృతి డిటెక్షన్ API తో సమస్యల సంఖ్యను కలిగి ఉన్నాయి ఇలా సంగ్రహించబడింది:

  1. API మాత్రమే Chrome లో ఉంది
  2. Chrome లో API ప్రతి ప్లాట్ఫారమ్లోనూ భిన్నంగా ఉంటుంది, ఎందుకంటే వాటి అంతర్లీన అమలులు భిన్నంగా ఉంటాయి. Android నోరు మరియు కళ్ళు వంటి మైలురాళ్లకు మాత్రమే పాయింట్లు కలిగివుంటాయి, ఇక్కడ మకాయస్ ఉన్నది. Android లో TextDetector కనుగొనబడిన టెక్స్ట్ను తిరిగి ఇస్తుంది, ఇక్కడ MacOS లో ఇది 'టెక్స్ట్ ప్రెజెన్స్' ఇండికేటర్ను అందిస్తుంది … ఇది Surma కనిపించే అన్ని దోషాలను పేర్కొనడం లేదు.

పంపిణీ కోసం ఒక ప్లాట్ఫారమ్గా వెబ్ అనేది ఇలాంటి అనుభవాలకు చాలా అర్ధమే, నేను దీనిని చేయకూడదని అనుకుంటున్నాను, కానీ పైన చెప్పిన రెండు సమూహాల సమస్యలు ప్రతి అంశాన్ని అమలు చేయడానికి దీర్ఘకాలిక అవసరాన్ని ప్రశ్నించడానికి నన్ను దారితీస్తుంది. వెబ్ ప్లాట్ఫారమ్ స్థానికంగా, మేము WebGL, WASM మరియు భవిష్యత్తులో వెబ్ GPU వంటి వేదిక యొక్క లక్షణాలను ఉపయోగించి రవాణా చేయబడిన ప్యాకేజీలో మంచి పరిష్కారాలను అమలు చేసేటప్పుడు.

ఏమైనప్పటికి, మేము వెబ్లో దీన్ని చెయ్యగలగాలని నేను ఇష్టపడుతున్నాను మరియు నేను సైట్లు వాటితో నౌకను చూస్తాను.

Paul Kinlan

Trying to make the web and developers better.

RSS Github Medium