http://007sbw.cn 2025-09-11 17:09 來源:米爾電子
在科技飛速發(fā)展的當(dāng)下,人工智能與邊緣計(jì)算的融合正以前所未有的速度重塑著我們的生活。RK3576芯片擁有4核Cortex-A72以及4核Cortex-A53提供基礎(chǔ)算力,6TOPS算力NPU來模型推導(dǎo)運(yùn)算。使用YOLOv8模型時也是手到擒來,接下來隨著步伐看看它表現(xiàn)如何。
圖:此次的板卡米爾RK3576核心板開發(fā)板
YOLO(You Only Look Once)是當(dāng)前業(yè)界領(lǐng)先的實(shí)時目標(biāo)檢測算法系列,以其速度和精度的完美平衡而聞名。從它發(fā)布至今,經(jīng)歷了好幾個版本變革,下圖是它發(fā)展歷史。
圖1-1. YOLO版本發(fā)展史
YOLOv8在性能、易用性、架構(gòu)現(xiàn)代性和生態(tài)之間取得了最佳的平衡,它是目前最全面,最省心選擇。
同樣YOLOv8也有很多尾綴,用一個表簡單列一下它們分別代表什么意思:
表1-1.按任務(wù)類型區(qū)分
后綴 |
全稱 |
任務(wù) |
輸出 |
典型應(yīng)用 |
-det |
Detection |
目標(biāo)檢測 |
邊界框 (BBox)+類別和置信度 |
找出圖像中所有感興趣的物體并用框標(biāo)出。如:行人檢測、車輛檢測、安全帽檢測。 |
-seg |
Segmentation |
實(shí)例分割 |
邊界框+類別+像素級掩膜 (Mask) |
在目標(biāo)檢測的基礎(chǔ)上,進(jìn)一步勾勒出物體的精確輪廓。如:摳圖、自動駕駛中識別道路和車輛形狀。 |
-pose |
Pose |
關(guān)鍵點(diǎn)檢測 |
邊界框+人體關(guān)鍵點(diǎn)(17個點(diǎn)) |
檢測人體的關(guān)鍵骨骼點(diǎn)。如:動作識別、健身姿態(tài)分析、人機(jī)交互。 |
-cls |
Classification |
圖像分類 |
整個圖像的類別標(biāo)簽 |
判斷一張圖片屬于哪個類別。如:貓狗分類、圖像質(zhì)量評估。 |
-obb |
Oriented Bounding Boxes |
旋轉(zhuǎn)目標(biāo)檢測 |
旋轉(zhuǎn)邊界框(BBox+角度θ)+類別和置信度 |
檢測帶有角度的物體,其邊界框不是水平的。 |
表1-2.按模型尺寸分
前綴 |
含義 |
特點(diǎn) |
適用場景 |
n |
Nano |
極小的模型,速度最快,精度最低 |
移動端、嵌入式設(shè)備(如 Jetson Nano)、CPU實(shí)時推理 |
s |
Small |
小模型,速度和精度平衡 |
最常用的起點(diǎn),適合大多數(shù)需要實(shí)時性的場景(如視頻流分析) |
m |
Medium |
中等模型,精度和速度的最佳權(quán)衡 |
對精度有較高要求,且仍有不錯的速度 |
l |
Large |
大模型,精度高,速度較慢 |
服務(wù)器端應(yīng)用,其中精度比速度更重要 |
x |
X-Large |
超大模型,精度最高,速度最慢 |
學(xué)術(shù)研究、刷榜、對精度有極致要求的離線分析 |
基于MYD-LR3576來說,選擇s/n小模型相對合適,使用基礎(chǔ)功能和-seg,-obb,-pos來演示。
單獨(dú)測試視頻場景效果展示
1.YOLOv8s.int 目標(biāo)檢測模型
2.YOLOv8s-seg.int 實(shí)例分割模型
3.YOLOv8s-pose.int 人體姿態(tài)估計(jì)模型
4.YOLOv8s-obb.float 旋轉(zhuǎn)目標(biāo)檢測模型
上面已經(jīng)看到了單獨(dú)解析視頻時,每一種模型效果,接下來演示MYD-LR3576通過4路攝像頭同時推導(dǎo)效果。
實(shí)現(xiàn)方式如下:
MYD-LR3576擁有3路MIPI-CSI接口,通過3個MY-CAM004M分別接入3路MIPI-CSI,采用2+1+1方式搭載4路AHD高清攝像頭,攝像頭采集的畫面輸出為H.264編碼的RTSP碼流,1920*1080分辨率,30幀。經(jīng)過MYD-LR3576開發(fā)板處理后,單路視頻輸出1920*1080,25fps,4路視頻加起來在60~70幀,cpu占用率接近100%,NPU綜合利用率在50~60%。
圖1-2. 實(shí)物接線概要圖
圖1-3. 攝像頭數(shù)據(jù)處理流程圖
AI推導(dǎo)一輪流程
這樣做后果是CPU利用率不高,視頻采集幀數(shù)低,最后顯示效果會卡頓。
米爾采用線程池方案,將上述過程通過線程處理,充分利用4個A72和4個A53資源,同時采用RGA來做圖片裁剪和放大。將CPU,GPU,NPU,VPU4個模塊協(xié)同工作,資源最大限度開發(fā)使用。
RK3576 在 YOLOv8 模型表現(xiàn)上十分亮眼,它的應(yīng)用場景涉及到很多領(lǐng)域。例如智能安防,在公共場所,如機(jī)場、火車站、商場等,部署的安防監(jiān)控系統(tǒng),快速準(zhǔn)確地識別出人群中的異常行為,如打架斗毆、奔跑逃竄等,并及時發(fā)出警報,同時,通過人臉識別技術(shù),系統(tǒng)可以對進(jìn)入場所的人員進(jìn)行身份識別,與數(shù)據(jù)庫中的信息進(jìn)行比對,實(shí)現(xiàn)對重點(diǎn)人員的監(jiān)控和追蹤。又或者搭載智能機(jī)器人賦予迅速反饋。
更多MYD-LR3576創(chuàng)新應(yīng)用,敬請期待。