OpenVINO?工具包公共模型概述
OpenVINO?工具包提供了一組公共模型,您可以將其用于學(xué)習和演示目的,或者用于開(kāi)發(fā)深度學(xué)習軟件。
本文引用地址:http://dyxdggzs.com/article/202106/426375.htm最新版本可在Github上的回購中找到。
您可以下載模型并使用OpenVINO?模型下載器和其他自動(dòng)化工具將它們轉換為推理引擎格式(*.xml+*.bin)。
分類(lèi)
分割
語(yǔ)義分割是目標檢測問(wèn)題的延伸。
語(yǔ)義分割模型不返回邊界框,而是返回輸入圖像的“繪制”版本,其中每個(gè)像素的“顏色”表示某個(gè)類(lèi)別。
這些網(wǎng)絡(luò )比各自的目標檢測網(wǎng)絡(luò )大得多,但它們提供了更好的(像素級)目標定位,并且它們可以檢測到形狀復雜的區域。
語(yǔ)義分割
實(shí)例分割
實(shí)例分割是目標檢測和語(yǔ)義分割問(wèn)題的延伸。與預測每個(gè)對象實(shí)例周?chē)倪吔缈虿煌?,?shí)例分割模型為所有實(shí)例輸出像素級掩碼。
3D語(yǔ)義分割
目標檢測
幾個(gè)檢測模型可以用來(lái)檢測一組最流行的對象——例如,人臉、人、車(chē)輛。大多數網(wǎng)絡(luò )都基于固態(tài)硬盤(pán),并提供合理的精度/性能權衡。
面部識別
人體姿態(tài)估計
人體姿態(tài)估計任務(wù)是為輸入圖像或視頻中的每個(gè)人預測一個(gè)姿態(tài):身體骨架,它由關(guān)鍵點(diǎn)和它們之間的聯(lián)系組成。關(guān)鍵點(diǎn)是身體關(guān)節,即耳朵、眼睛、鼻子、肩膀、膝蓋等。這種方法有兩大類(lèi):自上而下和自下而上。首先在給定的幀中檢測人,裁剪或重新縮放檢測,然后為每個(gè)檢測運行姿態(tài)估計網(wǎng)絡(luò )。這些方法非常準確。第二個(gè)查找給定幀中的所有關(guān)鍵點(diǎn),然后按個(gè)人實(shí)例對它們進(jìn)行分組,這樣比以前更快,因為網(wǎng)絡(luò )只運行一次。
單目深度估計
單目深度估計的任務(wù)是基于單一輸入圖像預測深度(或逆深度)地圖。由于這個(gè)任務(wù)在一般情況下包含一些模糊性,所以得到的深度圖通常只定義一個(gè)未知的比例因子。
圖像修復
圖像修復的任務(wù)是估計合適的像素信息來(lái)填充圖像中的空洞。
風(fēng)格轉移
風(fēng)格轉移任務(wù)是將一個(gè)圖像的風(fēng)格轉移到另一個(gè)圖像。
動(dòng)作識別
動(dòng)作識別的任務(wù)是預測正在短視頻剪輯上執行的動(dòng)作(通過(guò)堆疊來(lái)自輸入視頻的采樣幀形成的張量)。
彩色化
彩色化任務(wù)是從灰度圖像中預測場(chǎng)景的顏色。
聲音分類(lèi)
聲音分類(lèi)的任務(wù)是預測音頻片段中有哪些聲音。
語(yǔ)音識別
語(yǔ)音識別的任務(wù)是識別口語(yǔ)并將其翻譯成文本。
圖像翻譯
圖像翻譯的任務(wù)是基于樣本生成輸出。
位置識別
地點(diǎn)識別的任務(wù)是快速準確地識別給定查詢(xún)照片的位置。
使(模糊的圖像)變清晰
圖像去模糊的任務(wù)。
評論