filmov
tv
A.I. RICONOSCE OGGETTI da immagini, video e in tempo reale [Python OpenCV e Yolo]
Показать описание
YOLO è uno degli algoritmi di riconoscimento di oggetti più veloci tra quelli esistenti. Sebbene non sia più l'algoritmo di rilevamento degli oggetti più accurato, è un'ottima scelta quando è necessario il rilevamento in tempo reale, senza perdita di troppa precisione. è una rete neurale completamente convoluzionale e il suo output finale viene generato applicando un kernel 1 x 1 su una mappa delle caratteristiche. In YOLO v3, il rilevamento viene eseguito applicando kernel di rilevamento 1 x 1 su mappe caratteristiche di tre dimensioni diverse in tre punti diversi della rete.
La forma del kernel di rilevamento è 1 x 1 x (B x (5 + C)), dove B è il numero di riquadri di delimitazione che una cella nella mappa delle caratteristiche può prevedere, "5" indica i 4 attributi del riquadro di delimitazione e un valore di sicurezza dell'oggetto, e C è il numero di classi. In YOLO v3, addestrato su COCO, B = 3 e C = 80, quindi la dimensione del kernel è 1 x 1 x 255.
L'immagine che forniamo in input la ipotizziamo di dimensione (416,416), YOLO v3 effettua poi una previsione su tre scale, che sono date ridimensionando le dimensioni dell'immagine in ingresso rispettivamente di 32, 16 e 8.
Il primo rilevamento viene effettuato a partire dall'82 ° strato. Per i primi 81 livelli, l'immagine viene sotto campionata dalla rete, in modo tale che l'81 ° livello abbia un passo di 32. Se abbiamo un'immagine di 416 x 416, la mappa delle caratteristiche risultante sarebbe di dimensioni 13 x 13. Viene quindi creato un rilevamento tramite il kernel 1 x 1, dandoci una mappa delle caratteristiche di rilevamento di 13 x 13 x 255. Successivamente la mappa delle caratteristiche, dal livello 79, viene sottoposta ad alcuni livelli convoluzionali prima di essere campionata per due volte fino a dimensioni di 26 x 26.
Questa mappa delle caratteristiche viene quindi concatenata in profondità con la mappa delle caratteristiche dal livello 61 e le mappe di funzionalità combinate vengono nuovamente sottoposte ad alcuni livelli 1 x 1 convoluzionali per fondere le caratteristiche del livello precedente (61). Dunque, il secondo rilevamento viene effettuato dal 94 ° strato, producendo una mappa delle caratteristiche di rilevamento di 26 x 26 x 255.
Infine viene ripetuto un procedimento simile, in cui la mappa delle caratteristiche dal livello 91 è soggetta a pochi livelli convoluzionali prima di essere concatenata in profondità con una mappa delle caratteristiche dal livello 36. Come in precedenza, alcuni livelli 1 x 1 convoluzionali vengono fusi per unire le informazioni provenienti dal precedente strato (36). Questo terzo processo termina al 106 ° strato, producendo una mappa caratteristica dalle dimensioni 52 x 52 x 255.
Iscriviti QUI al canale!
La nostra lista amazon dei prodotti migliori!
AMAZON: PC - FILAMENTO 3D - ARDUINO - RASPBERRY PI
Vuoi farci un Regalo o inviarci un prodotto? Vi ringrazieremo in un video dedicato! :D
LINK GITHUB:
YOLOv3 WEIGHTS:
se il video non ti è stato chiaro contattaci sulla nostra pagina facebook:
per rimanere aggiornato seguici su instagram!
#Python #riconoscimentoOggetti #ObjectDetection #opencv
La forma del kernel di rilevamento è 1 x 1 x (B x (5 + C)), dove B è il numero di riquadri di delimitazione che una cella nella mappa delle caratteristiche può prevedere, "5" indica i 4 attributi del riquadro di delimitazione e un valore di sicurezza dell'oggetto, e C è il numero di classi. In YOLO v3, addestrato su COCO, B = 3 e C = 80, quindi la dimensione del kernel è 1 x 1 x 255.
L'immagine che forniamo in input la ipotizziamo di dimensione (416,416), YOLO v3 effettua poi una previsione su tre scale, che sono date ridimensionando le dimensioni dell'immagine in ingresso rispettivamente di 32, 16 e 8.
Il primo rilevamento viene effettuato a partire dall'82 ° strato. Per i primi 81 livelli, l'immagine viene sotto campionata dalla rete, in modo tale che l'81 ° livello abbia un passo di 32. Se abbiamo un'immagine di 416 x 416, la mappa delle caratteristiche risultante sarebbe di dimensioni 13 x 13. Viene quindi creato un rilevamento tramite il kernel 1 x 1, dandoci una mappa delle caratteristiche di rilevamento di 13 x 13 x 255. Successivamente la mappa delle caratteristiche, dal livello 79, viene sottoposta ad alcuni livelli convoluzionali prima di essere campionata per due volte fino a dimensioni di 26 x 26.
Questa mappa delle caratteristiche viene quindi concatenata in profondità con la mappa delle caratteristiche dal livello 61 e le mappe di funzionalità combinate vengono nuovamente sottoposte ad alcuni livelli 1 x 1 convoluzionali per fondere le caratteristiche del livello precedente (61). Dunque, il secondo rilevamento viene effettuato dal 94 ° strato, producendo una mappa delle caratteristiche di rilevamento di 26 x 26 x 255.
Infine viene ripetuto un procedimento simile, in cui la mappa delle caratteristiche dal livello 91 è soggetta a pochi livelli convoluzionali prima di essere concatenata in profondità con una mappa delle caratteristiche dal livello 36. Come in precedenza, alcuni livelli 1 x 1 convoluzionali vengono fusi per unire le informazioni provenienti dal precedente strato (36). Questo terzo processo termina al 106 ° strato, producendo una mappa caratteristica dalle dimensioni 52 x 52 x 255.
Iscriviti QUI al canale!
La nostra lista amazon dei prodotti migliori!
AMAZON: PC - FILAMENTO 3D - ARDUINO - RASPBERRY PI
Vuoi farci un Regalo o inviarci un prodotto? Vi ringrazieremo in un video dedicato! :D
LINK GITHUB:
YOLOv3 WEIGHTS:
se il video non ti è stato chiaro contattaci sulla nostra pagina facebook:
per rimanere aggiornato seguici su instagram!
#Python #riconoscimentoOggetti #ObjectDetection #opencv
Комментарии