<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 設計應用 > Arm Neoverse N2 平臺上利用 Arm Kleidi 技術(shù)實(shí)現自動(dòng)語(yǔ)音識別卓越性?xún)r(jià)比

Arm Neoverse N2 平臺上利用 Arm Kleidi 技術(shù)實(shí)現自動(dòng)語(yǔ)音識別卓越性?xún)r(jià)比

作者: 時(shí)間:2024-11-12 來(lái)源:Arm 收藏


本文引用地址:http://dyxdggzs.com/article/202411/464513.htm

作者:安謀科技 ( China) 高級軟件產(chǎn)品經(jīng)理 楊喜樂(lè );高級軟件工程師 Fred Jin

自動(dòng)語(yǔ)音識別 (Automatic Speech Recognition) 技術(shù)已經(jīng)深入到現代生活的方方面面,廣泛應用于從語(yǔ)音助手、轉錄服務(wù),到呼叫中心分析和語(yǔ)音轉文本翻譯等方面,為各行各業(yè)提供了創(chuàng )新解決方案,顯著(zhù)提升了用戶(hù)體驗。

隨著(zhù)機器學(xué)習 (ML) 和深度學(xué)習的最新進(jìn)展,自動(dòng)語(yǔ)音識別技術(shù)的精密性已經(jīng)達到一個(gè)新的高度?,F在,自動(dòng)語(yǔ)音識別軟件可以非常準確地理解各種口音、方言和說(shuō)話(huà)風(fēng)格。FunASR 是阿里巴巴達摩院開(kāi)發(fā)的一款先進(jìn)的開(kāi)源自動(dòng)語(yǔ)音識別工具包。它為開(kāi)發(fā)和部署自動(dòng)語(yǔ)音識別系統提供了一套全面的工具和模型。

FunASR 兼容 CPU 和 GPU 計算。雖然 GPU 為訓練深度學(xué)習模型提供了出色的性能,但 CPU 在邊緣側和數據中心服務(wù)器中更為普遍,并且更適合模型推理。因此,FunASR 可以在 CPU 上進(jìn)行高效的自動(dòng)語(yǔ)音識別推理,并能在 GPU 加速不可用的情況下(如成本限制、功耗限制或缺乏可用性等),依然能夠順利部署。

N2 是一款專(zhuān)為云和邊緣計算設計的高性能 CPU 處理器。它可以支持包括人工智能 (AI) 和 ML 在內的多種云工作負載,并增加了 SVE2、Bfloat16 (BF16) 數據格式和 MMLA 等 AI 功能。

SVE2 使開(kāi)發(fā)者能夠操作更大的數據向量,提升并行處理能力和執行效率,這對于 AI 模型訓練和推理階段涉及的大量數學(xué)計算尤為重要。

BF16 是一種較新的浮點(diǎn)格式,專(zhuān)為 AI 和 ML 應用而設計。它提供與 32 位浮點(diǎn)數相同的動(dòng)態(tài)范圍,但僅占用 16 位存儲空間,有效縮小了模型尺寸,并顯著(zhù)提升了計算效率。

MMLA 是 v8.6 中的一個(gè)架構特性。它為 GEMM 運算提供了顯著(zhù)加速。GEMM 是 ML 中的一種基本算法,對兩個(gè)輸入矩陣進(jìn)行復雜的乘法運算,得到一個(gè)輸出。

Arm 此前推出了 Arm Kleidi 技術(shù),這是一套專(zhuān)為開(kāi)發(fā)者設計的賦能技術(shù),旨在增強 Arm 、Arm Cortex 等 Arm 平臺上的 AI 性能。Kleidi 技術(shù)廣泛涉及從框架到高度優(yōu)化的算子庫,再到充滿(mǎn)活力的獨立軟件供應商 (ISV)  生態(tài)系統,全面覆蓋了 AI 開(kāi)發(fā)的關(guān)鍵環(huán)節。

在本文中,我們將分享在基于 N2 的阿里巴巴倚天 710 平臺上部署 FunASR 推理過(guò)程及基準測試方法。同時(shí),我們將通過(guò)啟用 Arm Kleidi 技術(shù)進(jìn)行對比分析,重點(diǎn)介紹與其他基于 CPU 和 GPU 的平臺相比,在倚天 710 CPU 上運行 FunASR 推理在性?xún)r(jià)比方面的主要優(yōu)勢。

基準測試設置

軟件版本:

Ubuntu 22.04(64 位)

PyTorch v2.3.0

pip install funasr==0.8.8

pip install modelscope==1.10.0

模型: speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch

請確保系統上安裝了 PyTorch 和相關(guān)的 python 庫 [1] ,如果在 Arm 平臺上運行,可使用 Arm 在 docker 倉庫中提供的 PyTorch docker 鏡像 [2] ,以便進(jìn)行快速評估。

1

對環(huán)境進(jìn)行初始化并導入所需的依賴(lài)項

export OMP_NUM_THREADS=16

export DNNL_VERBOSE=1

import torch

import torch.autograd.profiler as profiler

import os

import random

import numpy as np

from funasr.tasks.asr import ASRTaskParaformer as ASRTask

from funasr.export.models import get_model

from modelscope.hub.snapshot_download import snapshot_download


2

下載并配置模型

Paraformer 是阿里巴巴達摩院在 FunASR 開(kāi)源項目中開(kāi)發(fā)的一款高效自動(dòng)語(yǔ)音識別模型,旨在提高端到端語(yǔ)音識別系統的魯棒性和效率。該模型基于 Transformer 架構,并融入了多項創(chuàng )新,以提升其在語(yǔ)音識別中的性能。為了進(jìn)行基準測試,我們將使用魔搭社區中的 FunASR paraformer 模型 [3] 。

model_dir = snapshot_download('damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch', cache_dir='./',revision=None)

#set the radom seed 0

random.seed(0)

np.random.seed(0)

torch.random.manual_seed(0)

model, asr_train_args = ASRTask.build_model_from_file(

'damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/config.yaml','damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/model.pb' ,'damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/am.mvn' , 'cpu')

model = get_model(model, dict(feats_dim=560, onnx=False, model_name="model"))


3

使用性能分析器運行以獲取模型推理結果

推理運行十次迭代以獲得平均結果。

batch = 64

seq_len = 93

dim = 560

speech = torch.randn((batch, seq_len, dim))

speech_lengths = torch.tensor([seq_len for _ in range(batch)], dtype=torch.int32)

with torch.no_grad():

with profiler.profile(with_stack=True, profile_memory=False, record_shapes=True) as prof:

for _ in range(10):

model(speech, speech_lengths)

print(prof.key_averages(group_by_input_shape=True).table(sort_by='self_cpu_time_total', row_limit=200))


使用 BF16 Fast Math 內核加速推理

作為 Arm Kleidi 技術(shù)的一部分,Arm Compute Library (ACL)  通過(guò)利用 BF16 MMLA 指令,提供了優(yōu)化的 BF16 通用矩陣乘法 (GEMM) 內核。這些指令在 Neoverse N2 CPU 中得到支持,并且從 PyTorch 2.0 版本開(kāi)始便通過(guò) oneDNN 后端集成到了 PyTorch 中。ACL 中的 Fast Math GEMM 內核可以高度優(yōu)化 CPU 上的推理性能。

要啟用 Fast Math GEMM 內核,請在運行推理之前設置以下環(huán)境變量:

$ export DNNL_DEFAULT_FPMATH_MODE=BF16

我們發(fā)現,在基于 Neoverse N2 的倚天 710 平臺上啟用 BF16 Fast Math 內核后,與默認的 FP32 內核相比,性能提高了約 2.3 倍。

性能比較

我們還比較了 FunASR paraformer 模型在倚天 710 和阿里云其他同等級別云實(shí)例上的性能*。

Arm Neoverse N2(倚天 710):

ecs.c8y.4xlarge (16 vCPU + 32GB)

第 4 代英特爾至強“Sapphire Rapids”:

ecs.c8i.4xlarge (16 vCPU + 32GB)

第 4 代 AMD EPYC“Genoa”:

ecs.c8a.4xlarge (16 vCPU + 32GB)

*使用 armswdev/pytorch-arm-neoverse:r24.07-torch-2.3.0-onednn-acl docker 鏡像的倚天 710 [2] ,適用于英特爾 Sapphire-Rapids 和 AMD Genoa 的官方 PyTorch v2.3.0

我們發(fā)現,基于 Neoverse N2 的倚天 710,搭配 BF16 Fast Math 內核,使得 paraformer 自動(dòng)語(yǔ)音識別模型的推理性能較同等級別的 x86 云實(shí)例有高達 2.4 倍的優(yōu)勢。

在實(shí)際推理部署中,成本是 AI 部署的主要考慮因素之一,對技術(shù)的實(shí)現和采用有很大的影響。為全面了解 CPU 和 GPU 平臺上自動(dòng)語(yǔ)音識別推理部署的總體擁有成本 (TCO),我們將 NVIDIA A10 GPU 也納入對比分析中。得益于 Neoverse N2 出色的性能和能效,倚天 710 平臺相較于同等級別 x86 實(shí)例和 GPU 平臺,展現出更高的成本效益,這一點(diǎn)也體現在了阿里云倚天 710 實(shí)例更普惠的定價(jià)上。

從基準測試結果來(lái)看,倚天 710 在自動(dòng)語(yǔ)音識別推理部署的 TCO 方面具有顯著(zhù)優(yōu)勢,其性?xún)r(jià)比較同等級別 x86 和 GPU 平臺高出 3.5 倍。

結論

基于 Arm Neoverse N2 的阿里巴巴倚天 710 具有 BF16 MMLA 擴展等特定 ML 功能,為采用 Arm Kleidi 技術(shù)的 FunASR paraformer 模型提供了出色的推理性能。開(kāi)發(fā)者在倚天 710 上構建自動(dòng)語(yǔ)音識別應用可實(shí)現更高性?xún)r(jià)比。

參考鏈接:

[1] https://pytorch.org/get-started/locally/

[2] https://hub.docker.com/r/armswdev/pytorch-arm-neoverse

[3] https://modelscope.cn/models/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch



關(guān)鍵詞: Arm Neoverse

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>