http://007sbw.cn 2025-09-11 17:09 來(lái)源:米爾電子
在科技飛速發(fā)展的當(dāng)下,人工智能與邊緣計(jì)算的融合正以前所未有的速度重塑著我們的生活。RK3576芯片擁有4核Cortex-A72以及4核Cortex-A53提供基礎(chǔ)算力,6TOPS算力NPU來(lái)模型推導(dǎo)運(yùn)算。使用YOLOv8模型時(shí)也是手到擒來(lái),接下來(lái)隨著步伐看看它表現(xiàn)如何。
圖:此次的板卡米爾RK3576核心板開(kāi)發(fā)板
YOLO(You Only Look Once)是當(dāng)前業(yè)界領(lǐng)先的實(shí)時(shí)目標(biāo)檢測(cè)算法系列,以其速度和精度的完美平衡而聞名。從它發(fā)布至今,經(jīng)歷了好幾個(gè)版本變革,下圖是它發(fā)展歷史。
圖1-1. YOLO版本發(fā)展史
YOLOv8在性能、易用性、架構(gòu)現(xiàn)代性和生態(tài)之間取得了最佳的平衡,它是目前最全面,最省心選擇。
同樣YOLOv8也有很多尾綴,用一個(gè)表簡(jiǎn)單列一下它們分別代表什么意思:
表1-1.按任務(wù)類型區(qū)分
后綴 |
全稱 |
任務(wù) |
輸出 |
典型應(yīng)用 |
-det |
Detection |
目標(biāo)檢測(cè) |
邊界框 (BBox)+類別和置信度 |
找出圖像中所有感興趣的物體并用框標(biāo)出。如:行人檢測(cè)、車輛檢測(cè)、安全帽檢測(cè)。 |
-seg |
Segmentation |
實(shí)例分割 |
邊界框+類別+像素級(jí)掩膜 (Mask) |
在目標(biāo)檢測(cè)的基礎(chǔ)上,進(jìn)一步勾勒出物體的精確輪廓。如:摳圖、自動(dòng)駕駛中識(shí)別道路和車輛形狀。 |
-pose |
Pose |
關(guān)鍵點(diǎn)檢測(cè) |
邊界框+人體關(guān)鍵點(diǎn)(17個(gè)點(diǎn)) |
檢測(cè)人體的關(guān)鍵骨骼點(diǎn)。如:動(dòng)作識(shí)別、健身姿態(tài)分析、人機(jī)交互。 |
-cls |
Classification |
圖像分類 |
整個(gè)圖像的類別標(biāo)簽 |
判斷一張圖片屬于哪個(gè)類別。如:貓狗分類、圖像質(zhì)量評(píng)估。 |
-obb |
Oriented Bounding Boxes |
旋轉(zhuǎn)目標(biāo)檢測(cè) |
旋轉(zhuǎn)邊界框(BBox+角度θ)+類別和置信度 |
檢測(cè)帶有角度的物體,其邊界框不是水平的。 |
表1-2.按模型尺寸分
前綴 |
含義 |
特點(diǎn) |
適用場(chǎng)景 |
n |
Nano |
極小的模型,速度最快,精度最低 |
移動(dòng)端、嵌入式設(shè)備(如 Jetson Nano)、CPU實(shí)時(shí)推理 |
s |
Small |
小模型,速度和精度平衡 |
最常用的起點(diǎn),適合大多數(shù)需要實(shí)時(shí)性的場(chǎng)景(如視頻流分析) |
m |
Medium |
中等模型,精度和速度的最佳權(quán)衡 |
對(duì)精度有較高要求,且仍有不錯(cuò)的速度 |
l |
Large |
大模型,精度高,速度較慢 |
服務(wù)器端應(yīng)用,其中精度比速度更重要 |
x |
X-Large |
超大模型,精度最高,速度最慢 |
學(xué)術(shù)研究、刷榜、對(duì)精度有極致要求的離線分析 |
基于MYD-LR3576來(lái)說(shuō),選擇s/n小模型相對(duì)合適,使用基礎(chǔ)功能和-seg,-obb,-pos來(lái)演示。
單獨(dú)測(cè)試視頻場(chǎng)景效果展示
1.YOLOv8s.int 目標(biāo)檢測(cè)模型
2.YOLOv8s-seg.int 實(shí)例分割模型
3.YOLOv8s-pose.int 人體姿態(tài)估計(jì)模型
4.YOLOv8s-obb.float 旋轉(zhuǎn)目標(biāo)檢測(cè)模型
上面已經(jīng)看到了單獨(dú)解析視頻時(shí),每一種模型效果,接下來(lái)演示MYD-LR3576通過(guò)4路攝像頭同時(shí)推導(dǎo)效果。
實(shí)現(xiàn)方式如下:
MYD-LR3576擁有3路MIPI-CSI接口,通過(guò)3個(gè)MY-CAM004M分別接入3路MIPI-CSI,采用2+1+1方式搭載4路AHD高清攝像頭,攝像頭采集的畫(huà)面輸出為H.264編碼的RTSP碼流,1920*1080分辨率,30幀。經(jīng)過(guò)MYD-LR3576開(kāi)發(fā)板處理后,單路視頻輸出1920*1080,25fps,4路視頻加起來(lái)在60~70幀,cpu占用率接近100%,NPU綜合利用率在50~60%。
圖1-2. 實(shí)物接線概要圖
圖1-3. 攝像頭數(shù)據(jù)處理流程圖
AI推導(dǎo)一輪流程
這樣做后果是CPU利用率不高,視頻采集幀數(shù)低,最后顯示效果會(huì)卡頓。
米爾采用線程池方案,將上述過(guò)程通過(guò)線程處理,充分利用4個(gè)A72和4個(gè)A53資源,同時(shí)采用RGA來(lái)做圖片裁剪和放大。將CPU,GPU,NPU,VPU4個(gè)模塊協(xié)同工作,資源最大限度開(kāi)發(fā)使用。
RK3576 在 YOLOv8 模型表現(xiàn)上十分亮眼,它的應(yīng)用場(chǎng)景涉及到很多領(lǐng)域。例如智能安防,在公共場(chǎng)所,如機(jī)場(chǎng)、火車站、商場(chǎng)等,部署的安防監(jiān)控系統(tǒng),快速準(zhǔn)確地識(shí)別出人群中的異常行為,如打架斗毆、奔跑逃竄等,并及時(shí)發(fā)出警報(bào),同時(shí),通過(guò)人臉識(shí)別技術(shù),系統(tǒng)可以對(duì)進(jìn)入場(chǎng)所的人員進(jìn)行身份識(shí)別,與數(shù)據(jù)庫(kù)中的信息進(jìn)行比對(duì),實(shí)現(xiàn)對(duì)重點(diǎn)人員的監(jiān)控和追蹤。又或者搭載智能機(jī)器人賦予迅速反饋。
更多MYD-LR3576創(chuàng)新應(yīng)用,敬請(qǐng)期待。