昇腾FAQ-A24-CANN相关

想知道昇腾，不如先了解CANN，看它能否挑战CUDA。我们从昇腾全年工单中提炼了1000条FAQ，其中与CANN相关的就有271个；涵盖了CANN版本适配、AscendC算子开发、分布式训练、多机通信等常见场景。包括：如何确认Atlas设备适配的CANN版本；解决自定义算子空指针错误的方法；多卡训练中报错的排查步骤；HCCL集合通信库参数校验失败解决方案；多线程环境下ACL Lite API的使用

jieph01

2107人浏览 · 2025-07-15 09:43:45

线程发送的实际速率可能低于设定值或存在比例计算偏差。例如若实际输入为50fps而设置src和dst比率为60:30，则最终输出约为25fps。

解决办法：

（1）确保线程实际发送的帧率与m_stChnAttr.rc_attr.h264_cvbr.src_frame_rate一致。
（2）调整比例为1:1，通过设置相同的源和目标速率来控制输出帧率。例如：

m_stChnAttr.rc_attr.h264_cvbr.src_frame_rate = 30;
m_stChnAttr.rc_attr.h264_cvbr.dst_frame_rate = 30;

（3）必要时检查编码器的配置是否完整，包括丢帧策略、时间戳同步等。

FAQ(012)：使用ATC工具转换ONnx模型为OM文件后无法加载或推理失败？

原因分析：

可能是缺少必要的依赖包如Kernels软件包，或者版本不匹配。此外，也可能是代码中执行acl.mdl.load_from_file()时未正确初始化环境。

解决办法：

（1）检查是否安装了所有必需的组件和驱动程序：

sudo apt install kernels  # 或根据文档指引进行依赖项确认。

（2）确保CANN版本与ATC兼容。例如，若使用的是yolov5s_sar.om模型，则需要对应支持该OM文件的AscendCL接口。

FAQ(013)：如何在昇腾Atlas 300I AI加速卡上运行YOlo推理代码？

原因分析：

用户未正确使用ATc工具将ONNX格式转为OM，并且可能没有结合ACL库进行NPU加速处理。此外，OpenCV的dnn模块默认不支持CANN/NPU。

解决办法：

（1）通过atc转换模型：

atc --model yolov5.onnx --framework 3 --output yolov5.om --soc_version Ascend310P

（2）使用AscendCL的Python接口进行推理，避免直接调用OpenCV dnn模块。示例代码如下：

from acl import AclLiteResource, Acls

resource = AclLiteResource()
model_id = resource.load_model("yolov5.om")
input_dataset = acls.create_input_dataset([1])
output_dataset = acls.create_output_dataset(2)
acls.execute(model_id, input_dataset, output_dataset)  # 执行推理

FAQ(014)：如何解决ATC模型转换过程中耗时过长的问题？

原因分析：

昇腾AI服务器内存不足，导致atc工具运行缓慢。部分板载设备在处理复杂模型（如YOlov8n-seg）时可能出现此现象。

解决办法：

（1）尝试增加内存配置或使用更高性能的硬件进行转换。

# 如果当前环境不支持，则可将该命令移到其他昇腾AI服务器上执行：
atc --model yolov5s_sar.onnx --framework 3 --output yolov5s_sar.om

（2）如果仍然较慢，可以参考社区优化建议：https://www.hiascend.com/forum/thread-0265158242115164554-1-1.html

FAQ(015)：如何将OM模型的输入从图片格式转为二文件并进行推理？

原因分析：

用户在使用昇腾AI服务器时需对图像数据进行预处理，并将其保存成.bin，再通过AscendCL接口加载至NPU。

解决办法：

（1）在代码中找到执行模型前的输入赋值部分，在调用acl.mdl.execute()之前将图片转换为二进制文件：

# 示例伪码片段用于预处理和保存成bin格式
preprocessed_data = preprocess(image)
write_to_bin(preprocessed_data, "input.bin")

（2）确保模型的输入数据与atc工具配置一致。例如，如果输入是[1024x768]大小，则需将图片预处理为相同尺寸。
（3）参考文档：https://www.hiascend.com/forum/thread-0290166173168737115-1-1.html

FAQ(016)：如何使用Python加载OM模型进行推理？

原因分析：

用户尝试通过昇腾AI的AscendCL接口在 Python中操作，但可能缺少正确的环境配置或代码结构。

解决办法：

（1）确认NPU可用性，并设置ACL_RESOURCE_MANAGER_INIT()。

from acl import AclLiteResource, Acll

resource = AclLiteResource()
model_id = resource.load_model("actorom.om")

（2）加载模型后，执行推理前应检查返回值是否正常。例如：

ret = model.execute([input_data])
if ret != ACL_SUCCESS:
    print(f"Execute failed with error code {ret}")

FAQ(017)：如何提升昇腾Atlas 200 DK AI开发板的模型推理速度？

原因分析：

可能是由于模型未经过量化或剪枝优化，导致计算量过大。同时代码中可能没有采用批处理或多线程技术。

解决办法：

（1）对原始ONNX进行INT8量化和剪枝操作。

atc --input_format NHWC --output yolov5_quant.om ...

（2）在推理过程中启用异步执行：

aclrtMemcpy(aclmdlInput, inputSize, aclHostImage, ACL_HOST)
// 使用多线程并行处理输入和输出数据。

FAQ(018)：如何使用昇腾AI服务器的NPU进行模型推理？

原因分析：

用户可能未正确转换模型或缺少AscendCL代码支持，导致无法调用NPU。

解决办法：

（1）将ONNX格式转为OM文件，并确认soc版本匹配。

atc --model yolov5.onnx --framework 3 --output yolov5.om
--soc_version Ascend310P

（2）使用AscendCL提供的接口进行推理，例如：

aclmdlLoadFromFile(model_id, "yolov5.om");
aclrtMemcpy(...); // 输入数据从主机复制到设备。
...
aclError ret = acl.mdl.execute(model_id, input_dataset, output_dataset);
...

（3）参考文档：https://gitee.com/huanProject/samples/tree/master/inference/modelInference/sampleResnetRtsp/python

FAQ(019)：如何获取和验证CANN版本与昇腾硬件的兼容关系？

原因分析：

开发者在升级或重装系统时未确认当前NPU型号（如910proB）对应的官方推荐固件/驱动/CANN组合，导致推理训练出现异常。

解决办法：

登录华为昇腾社区版官网的产品信息页面或直接查看设备基本信息。
根据NPU型号（如910B）和系统架构（x86/aarch），在对应驱动下载页中查阅"适用CANN版本说明文档"，例如：
- NPU：Ascend310P3
- 驱动版本：24.1.rc2.b070
- 推荐CANN版本：8.0.RC3
安装时严格按照昇腾社区提供的安装指南操作。

FAQ(020)：如何解决atc模型转换后推理结果与ONNX不一致的问题？

原因分析：

ATC工具在将ONNX转OM过程中，存在FP32→FP16的自动精度调整逻辑。当原始网络计算路径敏感时（如Sigmoid函数），会导致输出差异。

解决办法：

使用--precision_mode_v2=origin参数保留原模型运算模式

atc --model=test.onnx \
    --framework=5 \
    --output=result \
    --soc_version=Ascend910B2 \
    --input_format=NCHW \
    --precision_mode_v2=origin

利用精度比对工具进行分析：

msit debug compare -gm test.onnx --om result.om
    -c /usr/local/Ascend/ascend-toolkit/latest
    -o output_dir

FAQ(021)：如何在Atlas500设备上扩展根目录存储空间？

原因分析：

默认系统镜像分配的根目录容量不足（2GB），导致无法安装依赖包和配置文件。

解决办法:

使用df -h命令查看当前磁盘使用情况
参照官方文档《Atlas 500卡扩容方法》
- 执行恢复出厂设置操作（需谨慎）
- 使用M.2接口硬盘进行系统烧写
- 在烧写过程中分配更大存储空间给根目录分区

FAQ(022)：如何解决atc转换模型时出现的警告信息？

原因分析：

ATC工具在编译ONNX为OM格式的过程中，可能因为算子优化策略与原网络设计存在差异而产生非致命性提示。

解决办法:

使用--precision_mode_v2=origin参数保留原始精度模式

atc --model=cv_model_... \
    --framework=5 \
    --output=model_name \
    --soc_version=Ascend310P3 \
    --input_shape="..." \
    --precision_mode_v2=origin

检查警告日志中涉及的算子类型（如Sigmoid、MatMul）是否与官方文档中的精度调整说明相符
使用AOE工具对模型进行性能分析和调优

FAQ(023)：如何解决ONNX转OM后推理结果完全错误的情况？

原因分析：

ONNX网络结构与昇腾NPU计算特性不匹配（如特殊算子组合）
模型量化参数设置不当
异构通信库版本过低

解决办法:

确认ONNX模型在CPU推理时结果正常

在ATC转换命令中添加以下调试信息：

export ASCEND_SLOG_PRINT_TO_STDOUT=1
export ASCEND_GLOBAL_LOG_LEVEL=0

使用精度比对工具上传原始和目标模型进行分析（参考文档《昇腾社区ONNX推理对比案例》）

FAQ(024)：如何解决CANN安装过程中出现的权限错误？

原因分析：

在Linux系统中执行昇腾驱动包（如Ascend-cann-kernels-*_run）时，未确认下载目录及其父级路径具有可写/可读权限。

解决办法:

确认安装脚本所在文件夹的访问控制

执行以下命令：

sudo chmod -R 755 /path/to/cann/installation/directory/

如仍报错，请查看日志路径/var/log/ascend_seclog/ascend_kernels_910b_install.log

FAQ(025)：如何提升特定算子（如Sigmoid）在昇腾平台上的计算精度？

原因分析：

开发者使用了不恰当的API实现，导致FP32→FP16转换时出现较大误差。

解决办法:

将torch_npu.npu_reciprocal()替换为更精确的Divs

# 错误用法示例（低精度）
torch_npu.npu_reciprocal(input_tensor)

# 推荐做法
torch.div(1.0, input_tensor)   # 使用标准除法运算替代倒数API

在训练脚本中添加环境变量：
```
export ASCEND_SLOG_PRINT_TO_STDOUT=1
```

FAQ(026)：如何获取适用于Atlas设备的CANN基础镜像？

原因分析:

开发者在构建AI推理应用时，需要预先配置好Python、PyTorch和昇腾驱动的基础环境。

解决办法：

访问华为官方Docker镜像仓库

https://www.hiascend.com/developer/ascendhub/detail/
    a5ab5d4f420f4ad197fe97c9ae82867

镜像包含以下关键组件：
- CANN版本：8.0.RC3
- PyTorch版本: torch-npu >= v2.1
- Python环境建议使用Python 3.8.x

FAQ(027)：如何解决AMCT量化工具缺少必要依赖包？

原因分析：

amct_onnx_op.tar.gz等关键资源未被正确解压或安装。

解决办法:

确认该文件位于标准路径：/usr/local/Ascend/toolkit/latest/amct/onnx

执行以下命令进行依赖检查和手动安装：

tar -zxvf amct_onnx_op.tar.gz
cd amct_onnx && ./install.sh --force

如果仍然缺失，请联系华为技术支持获取最新版本

FAQ(028)：如何在离线环境中安装CANN依赖？

原因分析：

部分开发者需要在无网络连接的服务器上部署昇腾AI开发环境。

解决办法:

在联网设备下载以下关键组件并上传至目标机器：
- CANN工具包（如Ascend-cann-toolkit_8.0.RC3_linux-aarch64.run）
- 算子依赖包（如bzip2-x.x.tar.gz）

使用如下命令进行离线安装：

./Ascend-cann-kernels-910p_x.x_run --offline=true \
    --install_path=/usr/local/Ascend/

FAQ(029)：如何处理ATC模型转换后的精度差异？

原因分析：

不同框架对算子实现方式存在细微差别，导致在NPU上运行时出现结果偏差。

解决办法:

使用--precision_mode_v2=origin保留原始计算模式

 atc --model=model.onnx \
     --framework=5 \
     --output=output_dir/ \
     ... \
     --precision_mode_v2=origin

如果仍然存在精度偏差，建议：
- 检查NPU硬件版本与CANN是否匹配
- 使用AOE工具对模型进行优化分析

FAQ(030)：如何解决ONNX转OM后检测结果完全错误的问题？

原因分析：

ONNX导出过程中存在算子组合方式不兼容NPU计算单元
模型前处理/后处理逻辑在ATC转换时未被正确保留

解决办法:

使用官方提供的YOLOX OBB模型作为参考基准

确认以下关键参数：

atc --model=yolox_s_code128.onnx \
    --framework=5 \
    --output=result_dir/ \
    ... \
    --precision_mode_v2=origin

使用精度比对工具进行分析（参考文档《昇腾社区ONNX推理对比案例》）

FAQ(031)：如何处理ATC工具提示"未找到对应版本的ONnx模型"？

原因分析：

使用atc --model=test.onnx时，系统检测到当前环境缺少支持该格式所需的依赖组件。

解决办法:

检查安装目录下的onnx库文件是否存在
```
 ls /usr/local/Ascend/toolkit/latest/onx/
```
如果缺失，请参考文档《昇腾社区ONNX推理对比案例》进行修复

FAQ(032)：如何解决NPU算子包安装失败的问题？

原因分析：

昇腾社区版与商用版本存在兼容性差异
安装顺序错误：应先安装CANN再部署算子工具链

解决办法:

确��确认当前昇腾设备型号（如310P）和对应推荐的CANN版本

使用如下命令进行分步安装：

 # 安装核心开发套件
 ./Ascend-cann-toolkit_8.0.RC3_linux-aarch64.run

 # 接着部署算子依赖包
 ./Ascend-cann-kernels-910b_8.0.RC3_run --install_path=/usr/local/Ascend/

查看日志文件ascend_kernels_..._install.log获取具体错误信息

FAQ(033)：如何解决ATC工具提示"未找到对应版本的onnx模型"？

原因分析：

使用atc --model=test.onnx时，系统检测到当前环境缺少支持该格式所需的依赖组件。

解决办法:

检查安装目录下的的onnx库文件是否存在
```
 ls /usr/local/Ascend/toolkit/latest/onx/
```
如果缺失，请参考文档《昇腾社区ONnx推理对比案例》进行修复

FAQ(034)：如何获取和使用dequant_swiglu_quant算子？

原因分析：

该融合算子在当前版本中存在计算逻辑限制，无法正确输出预期结果。

解决办法:

请确认使用的场景是否满足以下条件：
- 输入gate_up_result为int32类型
- filter_local和activation_scale参数格式符合要求
如果网络能跑通但效果不理想，请参考文档《昇腾社区PyTorch算子开发指南》进行自定义修改

FAQ(035)：在将PyTorch/YOLOv8模型转换为OM文件后进行推理时出现目标框不准确的问题。

aipp_mode: static
input_format : YUV420SP_U8

解决办法

(1) 配置文件中需根据模型需求调整矩阵参数（如使用自定义CSC矩阵时，需要提供正确的matrix_rXcY和偏移值）。
参考示例：

aipp_op {
    aipp_mode: static
    input_format : YUV420SP_U8
    matrix_r0c0 : 1.164385
    var_reci_chn_0 : 79/256^2=?
}

(2) 使用msit debug compare -gm model.onnx ... --advisor验证转换后的预处理逻辑是否生效
参考文档：https://www.hiascend.com/forum/thread-0219168838054191038-1-1.html

FAQ(040)：在使用ATC工具进行模型量化时，如何确认中间节点的计算精度是否符合预期？

原因分析

--input_shape, --output_type=FP32/INT8等参数仅控制输入输出类型，不影响内部算子自动融合规则。
例如执行命令：

atc --model=model.onnx \
    --insert_op_conf=aipp.cfg \
    --framework=5 \
    --soc_version="Ascend910ProB" \

解决办法

(1) 使用AOE工具对模型进行自动优化，查看融合规则是否包含dequant+conv2d等组合。
参考文档：https://www.hiascend.com/document/detail/zh/canncommercial/80RC3/apiref/ascendtbapi/ascendtb_01_0056.html
(2) 使用MSIT工具进行精度比对，分析每个算子的输出数据类型。

FAQ(041)：在使用ATIPP预处理配置文件时遇到`aclmdlGetIndexByName: cannot find tensor name[xxxx]`报错。

原因分析

模型为静态维度，但推理代码中错误地引用了动态输入相关的张量名（如ascend_mbatch_shape_data）。
例如执行命令：

atc --model=model.onnx \
    --input_shape="image:1,640,640" \

解决办法

(1) 检查模型是否为动态/静态，若已转成静态维度，请使用以下代码逻辑进行推理：

// 静态输入时无需获取ascend_mbatch_shape_data索引
aclmdlExecute(modelId_, inputDataset, outputDataset);

参考文档：https://www.hiascend.com/document/detail/zh/canncommercial/80RC3/developmentguide/appdevg/aclcppdevg/aclcppdevg_000156.html

FAQ(042)：在使用ATC工具进行模型转换时，如何确保输出OM文件与原ONNX模型计算结果误差较小？

原因分析

默认参数可能未完全保留原始精度（如某些算子被自动转为FP32）。
例如执行命令：

atc --model=model.on \
    --output=output.om \

解决办法

(1) 使用完整ATC指令时指定以下关键参数：--insert_op_conf=aipp.cfg
参考示例:

atc --input_shape="image:4,3,640,640" \
    --insert_op_conf=model_conver/config/aipp_yolo.cfg \

(2) 使用MSIT工具进行精度验证：

msit debug compare -gm model.onnx ... --advisor

FAQ(043)：在使用ATC将ONNX模型转换为OM文件时，发现输出节点与输入形状不一致。

原因分析

未正确设置--input_shape, --output_type=FP32/INT8等参数。
例如执行命令：

atc --model=model.onnx \
    --framework=5 \

解决办法

(1) 使用完整ATC指令时明确指定输入输出形状及类型：
参考示例:

atc --input_shape="images:4,3,640,640" \
   --output_type="FP32"

(2) 检查AIPP预处理配置文件中的src_image_size_w/h, crop_size等参数是否与输入图像匹配。
参考文档：https://www.hiascend.com/document/detail/zh/canncommercial/80RC3/apiref/ascendtbapi/ascendtb_01_0056.html

FAQ(044)：在Atlas 200I DK A2设备上部署的模型出现推理耗时异常（如B1芯片比普通310慢）。

原因分析

不同型号的昇腾NPU硬件对特定算子有性能差异。
例如aipp_op{...}中指定较多const节点可能影响某些场景下计算效率。

解决办法

(1) 检查模型是否为动态/静态，使用对应的推理流程：

atc --input_shape="image:4,3,640,640" \
    --insert_op_conf=aipp-bgr.cfg \  // 影响输入数据类型

(2) 使用msit debug compare -gm model.onnx ... --advisor进行精度验证
参考文档：https://www.hiascend.com/document/detail/zh/canncommercial/80RC3/apiref/ascendtbapi/ascendtb_01_0056.html

FAQ(045)：在使用ATC工具将ONNX模型转换为OM文件时，发现输出节点类型未按预期改变（如期望INT8但实际仍为FP32）。

原因分析

--output_type=FP32/INT8仅控制输入和输出数据类型的，并不会影响内部中间计算精度。
例如执行命令：

at --input_shape="image:1,640,640" \
   --insert_op_conf=aipp-bgr.cfg\  // 影响输入数据类型

解决办法

(1) 使用--output_type=FP32指定网络输出数据类型的，使用AOE工具对模型进行自动优化以提升性能。
参考文档：https://www.hiascend.com/document/detail/zh/canncommercial/80RC3/apiref/ascendtbapi/ascendtb_01_0056.html

FAQ(046)：在使用ATc命令进行模型转换时，出现以下警告信息：`execute model failed, errorCode is 500002`

原因分析

多次调用推理接口但未正确释放资源（如未执行aclmdlUnload）。
例如代码逻辑错误：

aclError ret = aclmdlExecute(modelId_, inputDataset_, outputDataset_);

重复调用但没有进行内存清理。

解决办法

(1) 在每次模型执行完成后添加以下接口以确保上下文正确释放：
参考示例:

// 每次推理后需手动清空输入/输出数据指针
aclError ret = aclmdlExecute(modelId_, inputDataset, outputDataset);
if (ret != ACL_ERROR_NONE) {
    // 添加日志记录和上下文清理逻辑
}

(2) 使用msit debug compare -gm model.onnx ... --advisor进行精度验证
参考文档：https://www.hiascend.com/document/detail/zh/canncommercial/80RC3/apiref/ascendtbapi/ascendtb_01_0056.html

FAQ(047)：使用ModelArts的Notebook进行Ascend C算子开发时报权限拒绝

原因分析：

未使用文档中指定用户（如HwHiAiUser）执行bash init_env.sh命令，导致对Ascend Toolkit目录访问失败。

解决办法：

确保运行环境与CANN安装时使用的账户一致。若需切换用户，请创建新用户的属组并加入对应权限
参考文档《华为云Ascend C算子开发环境搭建手册》中"ascendc_kernel_cmake does not exist…"的排查流程，确认当前登录用户名和组是否与/etc/ascend_install.info文件中的安装用户匹配

FAQ(048)：在Atlas 500/A200设备上运行推理程序报错"logDevId x create HDC failed, error: y"

原因分析：

未正确挂载NPU驱动相关路径（如hdc_ppc），导致容器内无法访问昇腾硬件接口。

解决办法：

检查Dockerfile中docker run命令是否包含以下必要参数：

--device /dev/davinci0:/dev/davinci0 \
-v /usr/local/Ascend/hdc_ppc:/usr/local/Ascend/hdc_ppc

确保容器内使用的NPU BlockNum与设备实际硬件配置匹配

FAQ(049)：使用PyInstaller打包后的OM模型加载返回值异常（非root用户）

原因分析：

打包过程未正确处理环境依赖，导致ACL库无法在非特权环境中访问昇腾运行时组件。

解决办法：

增加以下参数执行pyinstaller命令：

pyinstaller -y --paths /usr/local/Ascend/ascend-toolkit/latest/python/site-packages \
             test5.py

确保最终生成的可执行文件在运行时包含完整依赖链，可通过ldd <exe>验证关键so库（如libc_sec.so）是否可达

FAQ(050)：Atlas 200DK镜像打包后无法在Atlas500设备上正常识别NPU

原因分析：

不同硬件版本的固件兼容性问题，A200 DK A2与旧版310芯片存在驱动不匹配。

解决办法：

确保开发环境使用/usr/local/Ascend/driver/lib64目录下的最新NPU BlockNum适配包
检查目标设备的硬件型号，参考官方文档《Atlas 500小站Docker镜像制作》确认：
- A500与A200DK应使用不同版本（如Ascend910B4 vs Ascend310）
- 推荐在目的设备上执行cat /etc/ascend_install.info | grep npuBlockNum

FAQ(051)：Ubuntu 22.04系统安装CANN时出现"create HDC failed, error: 31"

原因分析：

未正确配置AscendCL运行环境变量或驱动初始化失败。

解决办法：

在程序入口处显式调用acl.init()后立即执行：

import acl.rt as rt
ret = rt.set_device(0)
if ret != 0:
    print("set device failed, error code:", ret)

确保Python虚拟环境包含完整的ACL库路径（如/usr/local/Ascend/driver/lib64）

FAQ(052)：昇腾设备安装CANN后无法通过yum升级系统

原因分析：

NPU驱动与部分基础软件包存在依赖冲突，导致标准工具链失效。

解决办法：

使用rpm命令覆盖原有Python组件（需保证版本兼容）:
```
rpm -Uvh python*.rpm --force
```
若仍存在问题，请检查/etc/yum.repos.d/huawei.repo文件中是否包含昇腾专用软件源

FAQ(053)：Atlas 500设备上使用FFmpeg推流时出现connection refused错误

原因分析：

未正确配置live555与NPU的协同工作环境，导致视频采集和推理输出通道中断。

解决办法：

在Docker容器启动命令中添加以下挂载：

-v /usr/local/Ascend/fusion:/usr/local/Ascend/fusion \
--device /dev/video0

参考官方样例代码（需登录账户查看）:
https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/80RC3alpha001/apiref/opdevgapi/atlasascendc_api_07_0523.html

FAQ(054)：使用su命令切换用户后无法调用AscendCL API

原因分析：

可视化界面"开始"选项卡的环境变量未同步root账户下的CANN配置。

解决办法：

手动将以下内容添加到新用户的~/.bashrc文件中：
```
source /usr/local/Ascend/setenv.sh
```
验证环境加载情况，执行命令应显示完整NPU信息:
```
aclrtGetDeviceInfo(0, ACL_DEVICE_INFO_NPUBLOCKNUM)
```

FAQ(055)：在AscendCL推理时调用acl_rt_set_device失败导致错误50703

原因分析

ACL初始化过程中，acl_init()成功但后续的设备设置接口如 acl.rt.set_device(self.device_id) 失败。日志显示 [ERROR] [event_sched][sched_fop_open 847] Invalid device. (devid=0), 表明在运行时尝试绑定到NPU设备失败。

解决办法

检查当前使用的CANN版本是否与昇腾硬件兼容，确保安装的驱动和推理引擎对应；

在Linux控制台中执行以下命令设置日志debug级别：

export ASCEND_GLOBAL_LOG_LEVEL=0
export ASCEND_SLOG_PRINT_TO_STDOUT=1

重新运行程序并检查dmesg输出是否包含更详细的错误信息，以进一步定位问题；
确保设备ID正确且未被其他进程占用。

FAQ(056)：AOE进行模型优化提示内存不足且性能无明显提升

原因分析

在ResNet50等模型上运行Ascend CANN中的自动算子生成工具（如AOE）时遇到了系统资源限制，具体表现为执行时间过长、报错信息显示“memory not enough”。

解决办法

确保使用的32GB以上内存的设备；
优化模型结构或减少输入数据规模以降低运行需求；
查阅CANN文档中关于AOE工具的具体硬件要求的部分，确保软硬件配置符合建议。

FAQ(057)：在单进程多卡部署时Hccl通信库提示资源申请失败

原因分析

当程序尝试使用HCCL接口进行跨NPU设备的并行计算时遇到 [ERROR][AllocSlaves] request number exceed max substream num, alloc failed，表明请求使用的子流数量超过限制。

解决办法

确保调用 HcclInitialize() 之前正确设置环境变量：
```
export HCCL_NUM_devices=4
```
检查代码中是否多次重复申请同一流资源；
如果使用Python训练服务器，确保已启用HCCL的多设备支持功能。

FAQ(058)：aclrt_malloc接口在NPU上分配内存失败

原因分析

当尝试通过ACL_MALLOC_HUGE_FIRST策略为910B4卡申请大块连续空间时遇到错误码207001，表明尽管总内存充足但无法成功完成请求。

解决办法

检查当前-smi命令输出的NPU资源占用情况；
确保没有其他进程正在运行并消耗了大量HBM（High Bandwidthith Memory）；
优化代码逻辑，减少每次申请内存大小或增加碎片化管理策略。

FAQ(059)：调用aclmdlLoadFromFile接口时提示模型加载失败

原因分析

尝试使用Model Load From File With Mem: [LOAD][DEFAULT][Init][Davinci Model] failed, ret:1343225857.错误码表明生成的模型与运行环境之间存在不兼容性。

解决办法

确认确保所使用的CANN版本一致；
检查模型文件是否完整且格式正确，避免损坏或不匹配当前平台特性。

FAQ(060)：如何测试视频编码和解码性能

原因分析

用户希望评估昇腾NPU在不同分辨率（1080p, 2k, 4k）下进行视频处理的延迟及帧率表现。

解决办法

使用Ascend CANN提供的Sample代码作为基础；

修改相关位置以添加时间戳记录，例如：

auto start = std::chrono::high_resolution_clock::now();
// 执行编码/解码操作...
auto end=std::chrono::high_resolution_clock::now();
double duration = std::chrono::duration_cast<std::chrono::microseconds>(end -start).count()/1e6;

参考性能标准文档（链接）；
- 配置多路视频输入，记录每帧处理时间。

FAQ(061)：如何正确设置L2 Cache策略

原因分析

当时文档中提到SetL2CacheHint()接口仅支持写操作场景下的禁用缓存以提高性能，建议也支持读取场景。某些场景仅需要从HBM读取内存使用一次，没必要经过L2 Cache，而且经过之后可能影响其他数据的L2 Cache命中率。

解决办法

在代码中加入以下逻辑控制读取路径上的缓存行为：
```
SetL2CacheHint(tensor, CacheMode::CACHE_mode_disable);
```
刷新文档描述，明确SetL2CacheHint()在读写两种情况下均可使用；

原因分析:

用户对商业用途许可和费用存在疑问。

解决办法: （1）商用版本需按华为企业业务最终用户许可协议（EULA）申请。（2）具体流程可参考昇腾社区的商用版下载页面。

FAQ(066)：如何在Altas DK 200I开发板部署多个模型任务

原因分析:

用户误以为需要特殊配置才能实现多模型推理。

解决办法: （1）直接导入两个OM模型，分别调用AscendCL接口进行独立推理。（2）参考文档《模型推理的各种情景》（CANN商用版8.0.0开发指南-昇腾社区提供链接）。

FAQ(067)：如何查询当前环境安装的CANN版本号

原因分析:

用户未掌握标准命令行检查方式。

解决办法: （1）普通用户执行`cd $HOME/Ascend/ascend-toolkit/latest && cat version.cfg`。（2）Root用户进入目录：`cd /usr/local/Ascend/ascend-toolkit/latest && cat version.cfg`。

FAQ(068)：动态batch的ONNX模型量化失败

原因分析:

用户使用了错误版本（固定batch而非动态）。

解决办法: （1）确保原始模型支持动态输入，避免在转换时强制指定具体数值。（2）检查AMCT工具中对dynamic shape的支持配置。

FAQ(069)：BGR图像经DVPP处理后编成H.264颜色异常（黑白化）

解决办法：

（1）在程序运行前设置环境变量以启用详细日志：

export ASCEND_SLOG_PRINT_TO_STDOUT=1
export ASCEND_GLOBAL_LOG_LEVEL=0

（2）检查代码中是否遗漏了HcclCommDestroy的调用，确保每个通信上下文使用后均被释放。

FAQ(073)： venc硬编码时报错ret_int=207008或507018

原因分析：

207008: Stream资源未正确回收，导致NPU队列阻塞。
507018: 输入参数格式错误（如分辨率、帧率等），硬编码API调用不规范。

解决办法：

（1）排查代码逻辑中是否在每次venc_create_channel后执行了对应的销毁操作：

acl.media.venc_destroy_channel(channelId);

（2）检查RTSP流地址有效性及网络稳定性，使用VLC验证可播放后再用于pyav解码。

FAQ(074)： 910PremiumA芯片模型转换时报错Soc version [xxx] is invalid

原因分析：

ATC工具未正确识别设备型号名称（如Ascend310B4需与实际硬件版本严格匹配），导致编译失败。

解决办法：

在执行ATC命令时，明确指定正确的SoC版本：

atc --soc_version=Ascend910PremiumA ...

FAQ(075)：加载模型时报错ret = 507018（与复数运算、矩阵分解相关）

原因分析：

Ascend310板卡未适配特定算子，如不支持svd等复杂数学操作。错误码表明输入参数或API调用方式不符合当前硬件能力限制。

解决办法：

避免在模型中使用非昇腾兼容的复数运算、矩阵分解（SVD）和求逆。
通过官方文档确认算子支持列表，参考链接：
https://www.hiascend.com/document/detail/zh/canncommercial/...

FAQ(076)：使用ATC工具转换ONNX模型时提示`Op Cast does not has any binary.`

原因分析：

未安装二进制算子包，导致TBE（Tensor Boost Engine）无法找到对应硬件优化的实现。错误日志包含InitializeAdapter adapter [tbe_op_adapter] failed! Ret ...等信息。

解决办法：

从昇腾社区下载并部署与设备型号匹配的二进制算子包，例如：
Ascend-cann-kernels-xxx_x.xx_linux-aarch64.run
确保安装后环境变量已生效（通过source /usr/local/Ascend/set_env.sh）

FAQ(077)： AOE模型调优时报错，但ATC转换正常

原因分析：

可能存在旧版镜像残留或依赖库冲突。开发者尝试重新烧录系统后仍报错，表明环境配置不完整导致某些工具链组件失效。

解决办法：

（1）清理环境中所有非驱动相关的Ascend目录：

root用户执行: rm -rf /usr/local/Ascend/* （保留驱动）
普通用户删除: /home/{user}/Ascend
（2）重新下载并安装CANN Toolkit及Kernels包，使用命令行直接运行工具链组件，避免通过图形化界面操作。

FAQ(078)：在Atlas 300I Pro上运行模型时出现`error code is 107002`的报错

原因分析

当前进程可能已存在AscendCL初始化状态，重复调用aclInit或未正确设置设备上下文。
可能涉及多线程中context隔离配置错误。

解决办法：

确保每个进程中仅通过一次完整的acl.rt.set_device()和acl.mdl.load_from_file()流程加载模型

如需在服务启动时预载单个模型，可将以下逻辑封装到初始化函数中：

def load_model_once():
    ret = acl.rt.set_device(device_id)
    if ret == 0:
        model_id, _ret = acl.mdl.load_from_file(model_path) # device绑定后仅加载一次即可
        return model_id
    else:
        raise RuntimeError("Device context setup failed")

若需在容器中运行，检查torch_npu._C._npu_setDevice()调用前是否已正确释放占用的NPU端口（通过清理残留进程）

FAQ(079)：不同版本CANN转出的.om模型导致推理结果异常

原因分析

.om文件是特定硬件平台和软件栈编译产物，其兼容性依赖于以下两个维度匹配度：
- CANN版本与当前NPU驱动固件版本必须一致（如6.3.RC2 alpha001）
- ATC转换时指定的soc_version字段需完全对应实际硬件型号
解决办法：
使用ATC命令反向获取原始转模环境：
```
atc --mode=6 --om=[模型路径].om
```
根据输出结果匹配下载相同版本的昇腾社区版安装包

FAQ(080)：使用`npu-smi info -t usages`无法查看DVPP解码资源消耗情况

原因分析

工具未正确识别到视频处理单元(VDEC)的占用状态

解决办法：

确保已通过以下命令启动profiling：
```
npu-smi info -t usages --profiler_start
```
检查/var/log/npu/conf/slog/slog.conf配置文件中是否包含DVPP模块的采集开关：
```
DVPP_VDEC=1 # 0表示关闭，1表示启用视频解码占用统计
```

FAQ(081)：ATC工具报错Soc version [TsnsC] is invalid

原因分析

使用了错误商发分支的soc_version参数（如将小海思版本用于非对应硬件）

解决办法：

通过npu-smi info -t soc_version获取当前NPU芯片型号字段

在ATC命令中指定该soc_version：

atc --model=[模型路径] --framework=5
    --soc_version=$(npu-smi info | grep "Soc Version" | awk '{print $NF}') # 动态获取真实芯片版本号

确保使用与该商发分支配套的CANN软件包

FAQ(082)：如何在Flask服务中实现模型预加载（避免每次请求重复加载）

原因分析

模型卸载后未正确释放资源导致下一次set_device()失败

错误代码107002表示当前上下文丢失

解决办法：

class ModelService:
def __init__(self):
    self.model_id = None

@staticmethod
def _check_env():
    device_id, ret_code = acl.rt.get_device()
    if ret_code != 0 or not os.path.exists("/usr/local/Ascend/latest"):
        raise RuntimeError("NPU环境初始化失败")

def load_model(self):
    self._check_env() # 预检
    if self.model_id is None:
        ret = acl.rt.set_device(3)
        assert ret == 0, "Device context setup failed"

        model_path = "/path/to/model.om"
        self.model_id, _ret = acl.mdl.load_from_file(model_path) # 加载一次即可

FAQ(083)：使用ATC工具时无法获取到动态分辨率配置信息

原因分析

310P系列NPU硬件支持该特性但需通过特定参数激活

解决办法：

在ATC命令中添加以下三个关键参数组合实现输入输出形状范围自适应（以Atlas 5.2版本为例）：

atc --input_shape=[动态维度]
  --dynamic_dims="[[1,3],[480,640]]" # 输入分辨率范围配置示例

FAQ(084)：在Python中无法通过`time.time()`准确测量NPU计算耗时

原因分析

未考虑AscendCL的异步执行特性
- 类似CUDA事件计数器，需使用专用profiling接口
解决办法：

使用CANN提供的性能分析工具：

npu-smi info --start_profiler
[运行推理代码]
npu-smi info --stop_profiler && atlas-profiling analyze /var/log/npu/profdata/last.prof # 获取详细耗时报告

对比time.time()与profiling工具的测量结果差异

FAQ(085)：如何在多模型推理场景中正确管理AscendCL context

原因分析

多context模式下未通过model_id区分不同模型
- 错误依赖context切换导致上下文污染（如出现execute failed, errorCode is 500002）
解决办法：

每个线程使用独立的context并绑定到特定设备ID

def inference_thread(model_id):
    stream = acl.rt.create_stream()
    input_data = prepare_input(...) # 准备输入数据

    ret, output_tensor = acl.mdl.execute_with_stream(
        model_id=model_id,
        inputs=[input_data],
        streams=stream
    )
    if ret != 0:
        raise RuntimeError("Model execute failed")

不同模型通过其独立的model_id调用acl.mdl.execute()，无需切换context

FAQ(086)：在Flask服务中使用多线程推理时出现重复初始化错误

原因分析

未正确释放或复用AscendCL context资源

错误代码107002表示上下文丢失

解决办法：

class ThreadSafeModel:
def __init__(self):
    self.lock = threading.Lock()

def run_inference(self, model_id: int):
    with self.lock:
        device_id, _ret_code = acl.rt.get_device() # 获取当前绑定的设备ID

        if not os.path.exists(f"/usr/local/Ascend/{device_id}"):
            raise RuntimeError("NPU context is invalid")

        stream = acl.rt.create_stream()
        ret_val = acl.mdl.execute(model_id=model_id, inputs=prepared_data)

    return process_result(ret_val) # 不在锁内处理非关键路径

FAQ(087)：如何关闭CCE模块的日志输出

原因分析

未正确修改日志配置文件或重启相关服务导致设置无效

解决办法：

echo "DLOG_LEVEL=4" > /var/log/npu/conf/slog.conf # 设置为ERROR级别（0:DEBUG,1:INFO,2:WARNING,3:ERROR）
systemctl restart slogd.service

FAQ(088)： ATC转换的模型无法解析profiling数据

原因分析

未在代码中显式调用npu.close()关闭设备上下文

解决办法：

def profiling():
  [执行推理逻辑]

  try:
      import torch_npu # 确保已正确安装PyTorch NPU插件包
      npu.close()
  except Exception as e:
      print(f"Profiling data collection failed with {e}")

FAQ(089)：310P开发环境加载模型时出现`The context is empty`错误

原因分析

上次运行残留的进程占用NPU端口未释放

解决办法：

ps -ef | grep torch_npu # 查找相关进程ID
kill [PID] # 终止异常占用进程后重试加载模型

FAQ(090): 如何判断当前环境是否已初始化AscendCL

原因分析：

多模块调用时容易出现重复aclInit()导致错误

解决办法:

def is_ascend_initialized():
  try:
      acl.rt.get_device() # 尝试获取设备信息作为隐式判断依据
      return True
  except RuntimeError as e:
      if "context empty" in str(e):  # 根据错误类型识别未初始化状态
          return False

FAQ(091)：310P系列NPU是否支持动态分辨率设置

原因分析:

部分型号硬件对不同输入尺寸有特定限制

解决办法:

在ATC命令中添加以下参数组合（以最新8.2版本为例）：

atc --input_shape=[图像宽, 图像高] \
  --dynamic_input="[[1080,640],[752, 938]]" # 支持的分辨率范围配置示例

FAQ(092)：Flask服务中重复调用`acl.rt.set_device()`导致性能下降

原因分析:

模型卸载后未正确释放上下文资源

导致每次请求都需重新初始化设备

解决办法:

def load_model_once():
if not hasattr(load_model_once, 'model_id'): # 使用函数属性实现单例模式
    ret = acl.rt.set_device(3)
    assert ret(ret,"Failed to set device")

    model_path="/path/to/model.om"
    load_result,err_code=acl.mdl.load_from_file(model_path)

FAQ(093): CANN版本与驱动固件不匹配导致推理异常

原因分析:

驱动和软件栈存在重大接口变更（如从5.0升级到8.x）

解决办法:

npu-smi info | grep "Driver Version" # 获取当前NPU驱动版本号
# 下载匹配的CANN安装包：https://www.hiascend.com/zh/developer/download/community/result?module=cann&version=[获取到的驱动版本]

FAQ(094)：调用hi_mpi_sys_init接口失败并返回错误码-1610448875。

原因分析：

不同型号的Atlas产品不支持该接口。例如，Atlas 200/300/500推理系列产品和训练系列产品均无法使用此功能；310P系列可能需要检查设备索引号是否正确设置（如SetDevice(2)）。

解决办法：

确认您的产品型号：
- 推理类产品为Atlas 200/300/500，训练类产品为910/910B。
检查设备索引号是否正确（通过npu-smi info获取）并添加代码设置：
```
 SetDevice(2); // 示例中使用的NPU卡索引值为2
```
参考官方文档确认接口支持情况。

FAQ(095)：缺少CA证书导致在openEuler等系统上安装CANN时出现“Uncompressing ASCEND DRIVER RUN PACKAGE … Extraction failed”错误。

原因分析：

网络访问受限或依赖的压缩包损坏，无法正常解压驱动文件。

解决办法：

通过以下方式配置DNS加速外网访问：
```
 export ASCEND_SLOG_PRINT_TO_STDOUT=1
 export ASCEND_GLOBAL_LOG_LEVEL=0
```
（根据官方指南进行操作）。
确保安装包完整无损，重新下载并上传。

FAQ(096)：Ascend 310B4等设备不支持PyTorch框架的NPU适配。

原因分析：

部分昇腾硬件仅适用于特定AI框架（如MindSpore），而PyTorch-NPU需要在兼容的芯片上才能运行。

解决办法：

更换为支持该功能的设备型号。
参考官方文档选择合适版本进行安装与开发。

FAQ(097)：atc工具是否依赖昇腾卡及其输出模型格式限制.

原因分析：

atc是用于CANN平台下的开发态转换工具，在执行时不需硬件存在; 但生成的OM文件必须在相应的SOC版本上使用.

解决办法：

atc可在无NPU服务器上安装，只需设置好环境变量。

转换模型时指定正确的soc_version参数：

 --model-format=ONNX
 --output-type=om
 --input-model=model.onnx
 --target-soc-version=ascend310b4 # 示例中使用的SOC版本需与目标硬件一致.

FAQ(098)：如何区分Host端和Device侧的开发环境。

原因分析：

对于集成CPU+NPU的产品（如Ascend310B4），需要明确代码执行位置以正确配置接口。

解决办法：

Host侧指X86/ARM服务器或Windows PC，通过PCIe连接昇腾AI处理器。
Device侧是指安装了昇腾AI芯片的硬件设备。
使用aclrtGetRunMode()可查询当前运行模式，若返回值为1表示处于Device端。

FAQ(099)：没有实物NPU卡能否测试推理代码？

原因分析：

部分用户缺乏实际昇腾硬件资源。

解决办法：

使用华为云提供的ECS弹性云服务器进行功能验证。
参考链接：
https://www.huaweicloud.com/product/ecs.html

FAQ(100)：Atlas3010推理卡不支持PyTorch-NPU框架的使用。

原因分析：

某些型号NPU仅适用于特定AI框架（如MindSpore），而对其他平台适配有限。

解决办法：

将.pth模型转换为onnx格式后，再利用atc工具生成OM文件。
参考文档：
https://www.hiascend.com/document/detail/zh/canncommercial/700/modeldevpt/ptonlineinfer/PyTorch_Infer_000001.html

FAQ(101)：安装CANN时无法确定应下载哪个版本。

原因分析：

不同设备对应不同的固件和驱动组合，需精准匹配。

解决办法：

根据您的具体硬件型号（如Ascend310P、910B4）访问官网选择合适的包。
示例推荐：
https://www.hiascend.com/developer/download/community/result?module=cann

FAQ(102)：使用MindIE Benchmark或者脚本对MindIE Server发送请求时，部分请求出现超时且无返回的情况。

原因分析：

Atlas 300T Pro（型号910）未兼容Ubuntu 24.04操作系统，需更换为已支持的操作系统版本。

解决办法：

更换操作系统至 Ubuntu 20.04 或其他官方适配的版本；
确保内核版本与文档中列出的支持范围一致（如 Linux version 5.4.0-26-generic）。

FAQ(129)：使用ATC工具转换ONNX模型时出现错误 E40001

原因分析：

Python环境变量设置错误导致动态库加载失败，具体表现为 ld_library_path or ldconfig 配置不正确。

解决办法:

重新安装或配置正确的Python运行环境；
参考官方文档：ATC 安装指南。

FAQ(130)：如何确认昇腾NPU芯片的具体型号以选择正确的驱动版本

原因分析：

不同CANN包适配特定的硬件平台（如 910B vs. 910Pro），需准确识别设备类型。

解决办法:

使用命令 npu-smi info 查询当前服务器上的芯片型号；
根据查询结果选择对应的驱动版本。

FAQ(131)：运行HelloWorld样例时无预期输出

原因分析：

使用的昇腾硬件不支持该示例（如 Ascend910Prob 不在支持列表中）。

解决办法:

确认SOC_VERSION与文档中的适配型号一致；

使用以下命令设置编译参数：

cmake -B build \
  -DSOC_VERSION=${SOC_VERSION} \
  -DASCEND_CANN_PACKAGE_PATH=$_ASCEND_INSTALL_PATH

FAQ(132)：昇腾310P处理器中AIC存储单元数量与文档描述不一致

原因分析：

7个内存单位包括了核外GM（Global Memory）。

解决办法:

理解硬件架构说明，确保开发时考虑核内/外部存储差异；
参考昇腾选型部署资料中的详细配置。

FAQ(133)：LCCL与HCCL在多机通信中表现不同

原因分析：

lccl是低延迟版本的集合通讯库，不支持跨机器通信。

解决办法:

推荐使用 hccl 以确保兼容性；
对于tp_size=4、dp_size=2配置，请指定 hccl 启动。

FAQ(134)：昇腾ATC工具提示“Block info is illegal, magic is 0”

原因分析：

模型文件路径或格式错误，导致 ATC 编译失败。

解决办法:

确保使用正确的 ONNX 模型；
参照文档执行编译命令：atc --input_model=xxx.onnx

FAQ(135)：昇腾算子开发中某些API（如 GetArchVersion）无法运行

原因分析：

部分接口仅在特定型号上支持，910A/ProB 不兼容。

解决办法:

使用 Atlas A2 训练系列产品或 Atlas 800I 推理产品 进行测试；
确认所用API的文档中列出的支持型号范围。

原因分析

此错误通常由内部GE组件引发，可能是模型加载过程中发生了异常。

解决办法

（1）设置环境变量以启用详细的日志输出：

export ASCEND_SLOG_PRINT_TO_STDOUT=1

原因分析：

此类API通常设计为在设备上运行的算子调用函数。它们并不适用于纯软件层面的操作处理任务中。

解决办法：

不建议也不推荐开发者将这些接口用于Host侧代码编写。

FAQ(174)：在编译算子执行`./build.sh`过程中出现包含以下报错信息：

fatal error: register/tilingdata_base.h: No such file or directory
opbuild run failed!

原因分析:

使用了旧版本CANN，导致样例与当前安装的CANN不匹配。

解决办法：

确认您使用的算子编译环境是否为正确的用户权限（建议以root身份操作）。
重新设置并加载昇腾工具包中的set_env.sh脚本：
```
source XXXXXXXXXX/Ascend/ascend-toolkit/set_env.sh
```
根据当前算子描述文件，生成新的算子工程（如使用官方提供的模板）。
修改新生成的算子工程中的cmakepresents.json配置文件以匹配正确的CANN路径。
重新执行编译流程。

FAQ(175)：在调用`torch.npu.set_device()`时出现错误码 EZ9999，具体表现为：

RuntimeError: call aclnnDivs failed, detail:EZ9999

原因分析:

CANN组件安装不完整或版本与PyTorch-NPU存在依赖冲突。

解决办法：

CANN toolkit版本与kernels包的版本必须配套。确保正确完成CANN的安装，参考官方文档。

清理旧版内容：

root用户删除 /usr/local/Ascend 目录下的非驱动文件
普通用户清理 ~/Ascend 下的所有目录和文件夹

重新下载与当前昇腾硬件匹配的CANN包，推荐使用社区版本。
安装时注意选择正确的架构（如aarch64或x86_64）并执行：
```
./xxx.run --install
```

FAQ(176)：在尝试将ONNX模型转换为OM格式以部署到昇腾设备上，但发现ATB工具包中缺少对应Qwen2.5的代码。

原因分析:

当前使用的ATB版本尚未支持该特定大语言模型（LLM）。

解决办法：

使用昇腾提供的atc模型转换工具将ONNX文件转为OM格式，确保配置参数正确。
```
atc --framework=... --model=... --output=...
```
若需支持Qwen2.5等LLM模型，请参考官方文档中的自动迁移方法：
大语言模型部署指南

FAQ(177)：在Ubuntu 22.04容器中安装CANN时，遇到以下错误：

Command sha256sum not found, please install it first.

原因分析:

尽管sha256sum已安装但仍存在依赖冲突或环境变量未正确配置。

解决办法：

确认您是否在Docker容器内进行CANN的安装。
检查软件包与系统架构匹配性（如x86_64/aarch64）并重新下载正确的版本：
社区版CANN下载页面
修改安装文件为可执行状态：
```
chmod +x Ascend-cann-toolkit_xxx.run
```

执行完整安装命令（含同意协议）：

./Ascend-cann-toolkit_8.xxxx...run --install -y

FAQ(178)：在运行模型过程中出现以下错误信息：`RuntimeError: call aclnnDivs failed, detail:EZ9999`.

原因分析:

CANN版本从高版（如8.0.RC1）降级到低版（7.x），但未同步更换配套的kernels包，导致接口不兼容。

解决办法：

请下载与当前昇腾NPU芯片（310P等推理系列）匹配的完整kernels开发套件并安装。
```
下载链接：https://www.hiascend.com/developer/download/community/result?module=cann
```

FAQ(179)：在Atlas 200I DK A2上尝试编译算子时发现缺少`ascendc_kernel_cmake`目录。

原因分析:

CANN版本过旧，导致样例工程与当前工具链不兼容。

解决办法：

更新到最新的社区版CANN包。

下载地址：https://www.hiascend.com/developer/download/community/result?module=cann

同步获取匹配的算子样例代码，参考官方仓库（如ascend/samples/operator）。

FAQ(180)：在ModelArts Notebook实例中运行AOE调优命令时出现：

aoe: error while loading shared libraries: libopmaster_rt2.0.so: cannot open...

原因分析:

CANN安装路径下缺少或未正确加载所需的动态库文件。

解决办法：

检查libopmaster_rt2.0.so是否存在，命令如下：
```
find / -name libopmaster_rt2.0.so
```
确保已执行正确的环境变量配置脚本（如CANN安装路径下的set_env.sh）。
若权限不足，请以有权限的目录重新进行CANN包部署。

FAQ(181)：在Atlas设备上使用`atc --check`命令时遇到以下错误：

Unexpected archive size

原因分析:

下载或安装过程中文件损坏，导致完整性校验失败。

解决办法：

重新从官方渠道下载CANN包。
确保网络稳定且使用正确的架构版本（如aarch64）进行部署。
按照标准流程执行：
```
./Ascend-cann-toolkit_xxx.run --check
```

FAQ(182)：使用ATC工具转换ONNX模型为OM时遇到异常

原因分析：

未正确设置多输入或多输出参数，导致部分算子无法正常识别和处理。例如在D202504099102中用户忽略了两个不同形状的输入。

解决办法：

（1）确认模型所有输入/输出名称、数据类型及shape，并使用--input_shape="name:shapes"格式完整配置，如：

atc --model=yolo.onnx --framework=5 --output=model_out \
    --input_shape="image:batch,3,h,w;scale_factor:1,dim"

（2）若Netron无法打开OM文件，可能是模型存在动态结构或非标准算子组合。建议使用--log=debug参数重新运行ATC转换，并检查日志中的输入输出配置。

FAQ(183)：ACL_ERROR_RT_PARAM_INVALID = 107000错误码含义及处理

原因分析：

调用API时传入的参数不符合昇腾NPU硬件约束，如内存地址未对齐、非法指针访问或数据格式不匹配。典型场景包括使用acl.rt.malloc_host分配后未正确释放。

解决办法：

（1）启用详细日志：

export ASCEND_SLOG_PRINT_TO_STDOUT=1
export ASCEND_GLOBAL_LOG_LEVEL=0

将输出重定向到文件分析具体参数异常位置。
（2）检查内存操作逻辑，确保acl.rt.malloc_host()分配的host内存通过对应的acl.rt.free_host()释放。

FAQ(184)：如何采集MindIE推理过程中算子级执行时间与硬件信息

原因分析：

Python接口调用如acl.mdl.execute()仅返回整体耗时，无法获取单个算子级别的性能数据。

解决办法：

（1）使用profiling工具：

atlas_profiling -p <process_id>

采集后通过MindStudio Insight查看各算子执行时间、任务流归属及硬件调度情况。具体操作可参考昇腾官方文档Atlas Profiling用户指南。

FAQ(185)：使用Ascend C语言开发自定义算子时，Workspace分配失败

原因分析：

低阶API如operation->Setup()未正确计算workspace大小导致内存不足。例如某些场景直接硬编码数值引发错误。

解决办法：

（1）确保调用Setup(variantPack, workspaceSize, context)前，通过API动态获取所需workspace尺寸：

WorkspaceInfo workspace_info;
Status status = operation->GetWorkSpace(workspace_info);

（2）若使用固定值替代Setup可能导致结果错误或内存未初始化。建议始终遵循官方样例代码流程。

FAQ(186)：模型转换后推理程序卡住无输出

原因分析：

CANN版本与昇腾NPU固件/驱动不兼容，导致图执行引擎无法加载OM文件。

解决办法：

（1）检查设备驱动和CANN Toolkit的对应关系。例如CANN 8.0 Toolkit需匹配23.1版本以上固件：

# 安装兼容性列表中的特定版本工具链
Ascend-cann-toolkit_6.0.1_linux-aarch64.run

（2）在~/.bashrc中永久生效环境变量配置，避免因临时设置导致的上下文丢失。

FAQ(187)：NPU模式下运行算子报错507015

原因分析：

内存地址未32字节对齐或越界访问。例如在D202411195249中用户使用aclrtMemcpy()时可能触发非法地址。

解决办法：

（1）检查所有内存操作参数，确保源/目的指针满足32B对齐要求：

CHECK_ACL(aclrtMemcpy(dest, size_dest, src, size_src, ACL_MEMCPY_HOST_TO_DEVICE));

（2）通过printf调试关键变量值，并使用孪生调试工具验证地址有效性。

FAQ(188)：Dump算子结果时无法指定特定节点或数据不全

厰因分析：

未正确配置dump参数，导致部分场景下如流控、内存不足等情况下未能采集到完整数据。

解决办法：

（1）使用--input_shape="name:shapes"和--output_format=FP32明确输入输出格式。
（2）通过sessions->set_dump_layer("op_name")指定需要dump的算子，避免因默认配置导致的数据缺失。

FAQ(189)：模型运行结果与预期不符但无报错

原因分析：

低阶API开发中未正确初始化或释放资源。例如D20241356中的用户直接调用SetValue()和DCci()后数据未生效。

解决办法：

（1）确认所有内存操作链路完整，包括：

// 示例逻辑校验流程
acl.rt.malloc_host(src_ptr, size);
acl.rt.memcpy(dst_ptr, src_ptr);

（1）检查并确保输入输出形状定义正确无误；
（2）提供dump图以进一步诊断具体原因：

export DUMP_GRAPH_PATH=./ge_graph
export DUMP_GE_GRAPH=2
export DUMP_GRAPH_LEVEL=2

FAQ(199)：在运行ATC工具时出现`'cstdint' file not found`错误。

原因分析：

环境变量配置不完整或路径设置有误，导致编译器找不到必要的头文件。

解决办法：

（1）确保环境变量中包含正确的Ascend CANN开发目录；
（2）尝试添加以下命令以调整C++标准库搜索路径：

export CPLUS_INCLUDE_PATH=/usr/include/c++/12:/usr/include/c++/12/aarch64-openEuler-linux:$CPLUS_INCLUDE_PATH

FAQ(200)：在自定义算子中调用`NnopbaseRunWithWorkspace`函数时，无法打印调试信息。

原因分析：

未正确设置日志环境变量或代码中的printf语句没有被触发。

解决办法：

（1）执行以下命令启用详细日志记录：

export ASCEND_SLOG_PRINT_TO_STDOUT=1
export ASCEND_GLOBAL_LOG_LEVEL=0

FAQ(222)：在使用TransdataOperation进行格式转换时，`outTensorVariantPack`未按照预期工作。

原因分析：

从日志上看，用户传入的outTensor格式不正确。Setup过程使用的的是手动配置而非推导出的结果。

解决办法：

检查并确认在代码中是否将参数设置为正确的的数据类型和内存地址。
参照昇腾社区提供的文档进行排查，例如：
- 确保outTensor的格式与输入一致或符合目标设备需求；
- 通过手动配置方式确保其匹配推导出的结果。

FAQ(223)：在使用ATC工具转换ONc模型时遇到节点名未找到的问题，导致运行中断并抛异常错误码E10016。

原因分析：

指定的输出节点名称与实际onnxx文件中的结构不一致。此外，在多设备场景中可能因参数分隔符配置不当而引起问题识别失败。

解决办法：

核对模型文件以确认--out_nodess所列示之所有节点确实在原始ONNX文件内存在；
保证在输入时使用了正确的格式的分隔符，如;用于区分多个输出节点名。

FAQ(224)：当尝试通过ATC工具将五维动态onnx模型转为OM形式后，在910B设备上运行失败，并提示版本不一致或SOC配置错误。

原因分析：

310P和910B之间存在硬件差异，直接迁移其编译结果无法保证兼容性；
必须确保CANN版本一致性及指定--soc_version=Ascend910B参数调整以适配目标设备特性。

解决办法：

使用ATC工具时应：

保持310P与910B的系统架构一致，并将两者使用的的CANN版本更新至相同；
使用命令行中添加--soc_version=Ascend910B参数以确保目标设备识别到正确的配置。

FAQ(225)：在使用YUV420SP格式转换为RGB时，输出图像只显示上半部分数据且下半为空白区域。

原因分析：

输入/输出的尺寸设置有误或未正确初始化相关参数。例如，在调用vpc_convert_color函数时未能正确配置目标内存大小导致写入失败。

解决办法：

检查并确认在代码中是否将源和目的图像数据结构（如宽度、高度）设为一致；
确保所有相关参数都已初始化，包括但不限于输入输出尺寸等信息。必要时可打印出具体配置以进一步排查。

FAQ(226)：使用`DataCopy()`接口进行内存拷贝操作时报错，并提示程序无法运行或搬运量不符合要求（如32byte对齐）导致结果异常。

原因分析：

calCount * sizeof(T)未能达到最小单位16B的倍数；
未正确配置数据搬运参数，可能因缺少DataCopyPad()接口的支持而产生错误行为；

解决办法：

参考昇腾社区提供的文档：

使用支持非对齐搬运的数据的API（如DataCopyPad()）来替代原有操作；
检查并确保每次调用时都满足至少32B内存大小要求。

FAQ(227)：在使用Select算子进行条件选择运算时报错，输出结果不符合预期，并且似乎偏向于x2Local中的数据值。

原因分析：

SelectV2模式下配置或初始化方式不正确；
可能是输入的condition张量未达到文档所述之要求（如对齐长度）；

解决办法：

确保bool类型的条件向量已正确转换为支持的数据类型，例如使用.ReinterpretCast<uint8_t>();
检查并确保在实际操作中所使用的的模式与文档描述相匹配；
若仍存在问题，请打印上下文参数具体值以便进一步分析。

FAQ(228)：当尝试对某个Conv2D算子进行精度调整时，ATC工具报错某些节点无法转为FP32格式或不支持指定的精度模式。

原因分析：

某些算子可能本身就不支持在特定情况下改变其计算精度；
使用--precision_mode=force_fp32参数虽可强制转换部分模型，但对所有Conv2D节点都未必有效；

解决办法：

参照昇腾社区提供的ATC工具文档中关于如何指定算子为FP32格式的说明：
- 尝试使用更细粒度控制选项如--op_select_implmode=high_precision;
- 使用--optypelist_for_implmode="Conv2D"来限定特定节点；
如果仍然无法解决，请提交工单或联系华为技术支持以获取更多帮助。

FAQ(229)：在使用ATB的LinearParallelOperation时遇到执行失败并提示错误码507899的问题。

原因分析：

拷贝过程中可能存在缓存刷新未正确处理；
或者是由于内存分配大小与实际所需不匹配而引起；

解决办法：

使用DataCacheCleanAndInvalid()API来确保在拷贝之前清理了任何可能影响结果的缓存数据。
检查并确认输入输出张量的数据类型、形状及存储位置是否满足32B对齐要求。

FAQ(230)：使用ATB工具创建Operation对象时遇到错误，提示ABI版本不兼容或缺少必要的链接库支持（如libacl_dvpp_op.so）导致执行失败。

原因分析：

ABI版本配置不当；
缺乏对特定算子所需动态链接库的引用；

解决办法：

在编译命令中添加target_link_libraries()以包含所需的SO文件（如libacl_dvpp_op.so）。
对于ABI相关问题，请按照昇腾社区文档说明进行调整，例如：
- 添加特定abi选项；
- 确保所有依赖项均已正确链接。

FAQ(231)：使用ATC动态转换模型时如何添加AIPP使能文件？

原因分析：用户在进行ATC模型转换时需要启用硬件加速预处理功能，但未明确操作方法导致疑问。

解决办法:

（1）确认所开发的算子是否已注册到目标昇腾芯片中；
（2）重新编译部署并安装调用所需的资源库。

原因分析：

使用了WSL环境
安装的GCC/G++版本与CANN开发套件不兼容（多版本共存时更易触发）
系统缺少必要的编译依赖包

FAQ(243)：

ONNX模型转换为Graph时报错aclgrphParseONNX找不到

原因分析：

缺少动态库链接
使用的代码示例未包含正确版本说明（80RC3alpha001与实际环境不匹配）
示例工程缺少必要的依赖项配置

FAQ(244)：

ATC转换时自定义算子未能生效

原因分析：

ONNX模型中的Gather节点被自动替换为内置的GatherV2实现

解决办法：

修改原始onnx文件将目标节点重命名为唯一标识（如CustomGather）
在CANN版本80RC3alpha001中通过REGISTER_CUSTOM_OP注册自定义算子
使用ATC工具时指定该映射关系

FAQ(245)：

Logsumexp操作需要确认是否有内置实现及如何进行ST测试

原因分析：

用户未查阅官方提供的完整算子清单文档，导致无法快速定位已有实现。

解决办法：

访问昇腾社区的CANN80RC2版本API参考手册
使用https://www.hiascend.com/document/detail/zh/canncommercial/80RC3alpha001/apiref/operatorlist/...链接查询内置算子列表

FAQ(246)：

IBShare模式调用Matmul时遇到类型定义缺失

原因分析：

CANN开发套件的NNop库不支持非连续内存布局（负数stride）和共享存储场景。

解决办法：

修改CreateNegStrideAclTensor()函数中strides数组为正整数值
通过调整输入张量的数据排列方式实现相同功能

FAQ(247)：

ATC转换ckpt模型失败报E19005错误

原因分析：

社区版文档未覆盖PyTorch-lightning框架的特殊格式，直接使用默认导出路径导致兼容性问题。

解决办法：

先通过torchscript.save()将.ckpt转为.onnx文件再进行ATC转换

FAQ(248)：执行LSTM算子时出现报错507011，推理失败。

原因分析：

模型中包含的dynamic shape当时还不支持。在使用ATC工具转换ONNX或SavedModel为OM格式的过程中遇到Dynamic shape is not supported on this chip错误提示，表明输入尺寸设置存在问题导致无法正确解析算子。

解决办法：

确保模型的输入shape是固定的而非动态。

使用以下命令行参数来指定固定输入维度：

atc --input_shape="data:batch_size,height,width,channels"

如果仍然遇到问题，请提交工单或联系华为技术支持以获取进一步协助。

FAQ(249)：如何获得自定义算子在Python下的运行方式？

原因分析：

用户可能对昇腾社区提供的AscendC语言不够熟悉，或者对于将已开发的自定义算子集成进PyTorch等AI框架中存在困惑。这通常涉及到使用特定API以及正确的构建流程。

解决办法：

参考文档《Ai框架算子适配》了解如何在Python环境中调用Ascend C实现的自定义算子。
通过代码示例学习，如acl.mdl.load_from_file()加载模型文件，并确保遵循官方指南中的步骤进行操作。

FAQ(250)：使用ATc工具转换ONNX或SavedModel到OM时遇到错误E19010: No parser is registered for Op [xxx,optype xxx].

原因分析：

该报错表示atc无法识别并处理某些特定的操作符类型，可能是由于模型中包含了当前CANN版本不支持的算子。此外也有可能是ATc工具本身与所使用的框架之间存在兼容性问题。

解决办法：

检查是否已经安装了最新版的昇腾内核包。
将atc日志设置为详细模式，通过环境变量ASCEND_GLOBAL_LOG_LEVEL=3; ASCEND_SLOG_PRINT_to_stdout=true获取更多信息用于排查。
如果发现模型包含不支持的操作符，请向CANN团队提交适配请求或尝试用已知兼容的算子替换。

FAQ(251)：使用ATc工具转换ONNX模型到om时遇到错误，且无返回值。

原因分析：

此现象表明在实际执行arct转换任务时出现了了严重异常。常见原因为可用内存不足导致主进程被操作系统终止；或者提供的模型文件/参数有误使得atcr无法解析处理模型内容

解决办法：

增加系统分配的swap分区大小以缓解物理机上的内存压力。
核实提供给arct工具的所有输入参数是否正确无误，尤其是--input_shape, --framework等关键选项。
确认使用的是最新版本的atc工具，并且模型文件完整性良好。

FAQ(252)：在host侧获取输入tensor shape信息时出现错误。

原因分析：

用户试图直接访问从StorageShape *转换来的对象，而没有正确地将其转化为一个可查询维度信息的对象。例如context->GetInputShape(0)返回的是存储形状指针而非可以直接调用的shape方法。

解决办法：

参考文档《Ai框架算子适配》中关于获取输入张量的尺寸信息的方法。
通过API将StorageShape *转化为为可以查询维度的对象，再从中提取所需的信息。例如使用GetDim(0)之前必须确保对象已被正确地转换。

FAQ(253)：在Ascend C中创建支持任意shape输入的算子，并希望知道如何从输入张量获取其形状信息。

原因分析：

用户可能不熟悉昇腾社区提供的的相关接口，比如GetDim()函数对于tiling传参。此外，在device侧（即NPU设备）上也可能没有直接暴露相关API来访问存储时的shape信息。

解决办法：

在Host侧进行Tilingng时可通过如下代码获取输入张量尺寸：

// 示例代码参考自Ascend C算子开发文档中的AddCustom样例。
Shape input_shape = *input_tensor->GetShape();
int dim0 = input_shape.GetDim(0);

对于Device侧，需通过Tilingng过程传递参数。请查阅相关开发指南以了解如何正确地从Host向Device传参。

FAQ(254)：使用MindIE Benchmark或脚本对服务器发送请求时出现超时且无返回情况。

原因分析：

当并发数过高，超过昇腾芯片处理能力导致请求积压；或者脚本中未设置足够长的等待时间限制。这些都会引起服务端无法及时响应客户端请求从而造成超时现象。

解决办法：

降低MindIE Benchmark输入参数--Concurrency值至理论计算得出的最大并发数。
在调用相关API时增加适当的超时容忍度，例如设置合理的等待时间限制。具体可参照昇腾官方文档中有关配置uringing timeout的相关说明。

FAQ(255)：使用AOE模型优化工具对ONNX或OM格式的模型进行性能调优时遇到命令参数不支持的问题。

原因分析：

用户在200i A2设备上试图使用--tuningng这样的非标准支持的功能，导致了错误提示。此情况通常是因为用户未查阅最新版本文档或者误用了过期/无效的选项。

解决办法：

通过运行命令aoe -h查看当前可用的所有参数列表。
遵循昇腾社区提供的AOE调优工具指南，确保使用的是正确的且支持的操作方式。

  extern "C" __global__ __aicore__ void kernel_rmsnorm_operator(GM_ADDR inputGm, GM_ADDR outputGm, GM_addr gammag, gm_addr tmp, Gm_addr tiling);

核函数执行时将tmp设为nullptr，避免因参数数量不足导致的编译器自动填充逻辑错误。

FAQ(266)：ATC转换模型提示输出size为0（如使用msit benchmark进行推理时报错）。

原因分析：

动态shape场景下，若未指定正确的输入/输出节点或参数配置不完整，则可能导致atc生成的om中存在无效尺寸。

解决办法：

检查模型结构完整性。
- 确保onnx模型的输出节点为静态维度（非-1）；
- 若需动态shape，可尝试在代码中手动指定最后一步输出节点为固定形状；
使用atc命令行参数--input_shape="..."显式设置输入尺寸。

FAQ(267)：使用ATB单算子API复用已创建的op时提示段错误（segment fault）。

原因分析：

AscendC中，若未正确释放或重新初始化化atb::CreateOperationationationion生成的对象，则可能导致内存访问越界。

解决办法：

单算子复用需确保上下文一致。
- 若参数完全相同可尝试单次创建op后多次调用；否则每次使用前应再次执行atb::CreateOperation(...)以获取新实例指针。
遇段错误时，建议检查代码中是否在非预期位置释放了相关资源（如内存、上下文）。

FAQ(268)：ATC转换模型提示某些算子不支持（例如Einsum算子）。

原因分析：

昇腾AI平台对部分复杂结构的算子自定义程度较低，需开发者自行实现并注册到框架中。

解决办法：

核心流程包括三步。
- 实现AscendC核函数（如rmsnorm_custom(...)）；
- 注册至ATc工具链（通过添加op描述文件至指定路径）；
- 在模型转换时，att会优先使用注册的算子。
参考文档：链接

FAQ(269)：atc转换模型提示`get_op_mode is dynamic`警告。

原因分析：

昇腾AI平台对动态shape支持有限，若输入_shape参数配置不当或模型结构中存在未明确的动态节点，则可能触发此类告警。

解决办法：

检查模型输出是否存在-1（表示动态维度），可尝试调整转换命令中的input_shape参数；
- 若警告不影向推理结果，可忽略该提示。
参考日志中显示的shape信息以确认具体哪个算子存在dynamic问题。

FAQ(270)：atc将模型转为om失败（如yolovs结构复杂场景）。

原因分析：

昇腾AI平台对输入格式有严格要求，若未正确配置--input_shape="..."或soc_version与硬件不匹配，则可能导致转换失败。

解决办法：

确认模型输出节点为静态shape。
- 若原模型存在动态结构，请调整网络设计；使用命令行参数显式指定输入/输出尺寸（如：--input_shape="image:1,3,288,288"）；
检查soc_version与开发板芯片版本是否一致。

FAQ(271)：TransDataTo5HD函数中参数计算错误导致结果异常。

原因分析：

昇腾AI平台对二维数组转置操作（如行/列调整）有特定的内存布局要求，若未正确设置srcHighHalf, repStrides等参数，则可能导致数据读取失败。

解决办法：

按示例代码规范使用TransDataTo5HD。

若输入形状为[64,128]或行列能被16整除，可尝试以下设置：

    transdata_params.srcHighHalf = true;
    transdata_params.repeatTimes = (rows / 16); // 行数需是16的倍数
    transdata_params.dstRepStride = cols % 256 ? ((cols + 3) & (~3)) : cols;

若参数设置后仍报错，建议到AscendC论坛提交代码以获取更针对性的帮助。

昇腾社区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

昇腾AI自学Day2-- 深度学习基础工具与数学

昇腾社区

昇腾AI自学Day1-- 深度学习基础工具与数学

昇腾社区

2024-2025华为ICT大赛中国区实践赛昇腾AI赛道(高教组)全国总决赛理论部分真题+解析

本文为2024-2025华为ICT大赛中国区全国总决赛实践赛昇腾AI赛道高教组理论部分考试真题以及对应详细解析，涵盖昇腾AI全栈系统模块6题、模型训练与调优模块8题、模型推理与应用模块6题。

昇腾社区

所有评论(0)

查看更多评论

jieph01

@jieph01

已为社区贡献4条内容

昇腾FAQ-A24-CANN相关

jieph01

昇腾高频问答FAQ-A24-CANN相关-2507

FAQ(001)：如何确认Atlas 300I Duo卡对应的CANN版本？

原因分析：

解决办法：

FAQ(002)：自定义AscendC算子在Atlas 300I DK A1开发者套件上运行时出现空指针错误

原因分析：

解决办法：

FAQ(003)：在图模式下调用all_reduce时报错：myTrain(rank, group) 报错或异常退出

原因分析：

解决办法：

FAQ(004)：在Atlas服务器上执行多机通信时遇到报错：param check count error

原因分析：

解决办法：

FAQ(005)：使用HCCL集合通信库进行多机训练时出现错误：EI0006: Getting socket times out

原因分析：

解决办法：

FAQ(006)：在多线程环境下调用ACL Lite API acl.rt.get_context() 报错107002

原因分析：

解决办法：

FAQ(007)：使用MindIE Server进行推理时出现错误：Subprocess [task_distribute] raise error

原因分析：

解决办法：

FAQ(008)：在Atlas服务器上执行集合通信测试时报错：hccl_test 集合通信测试报错

原因分析：

解决办法：

FAQ(009)：在使用ATB Broadcast算子时，如何正确传递或创建通信域（comm）？

原因分析：

解决办法：

FAQ(010)：使用ContextBuilder手动构造TilingFunction时遇到找不到头文件或未定义引用问题

原因分析：

解决办法：

FAQ(011)：DVPP编码输出帧率与配置不符，如何调整？

原因分析：

解决办法：

FAQ(012)：使用ATC工具转换ONnx模型为OM文件后无法加载或推理失败？

原因分析：

解决办法：

FAQ(013)：如何在昇腾Atlas 300I AI加速卡上运行YOlo推理代码？

原因分析：

解决办法：

FAQ(014)：如何解决ATC模型转换过程中耗时过长的问题？

原因分析：

解决办法：

FAQ(015)：如何将OM模型的输入从图片格式转为二文件并进行推理？

原因分析：

解决办法：

FAQ(016)：如何使用Python加载OM模型进行推理？

原因分析：

解决办法：

FAQ(017)：如何提升昇腾Atlas 200 DK AI开发板的模型推理速度？

原因分析：

解决办法：

FAQ(018)：如何使用昇腾AI服务器的NPU进行模型推理？

原因分析：

解决办法：

FAQ(019)：如何获取和验证CANN版本与昇腾硬件的兼容关系？

原因分析：

解决办法：

FAQ(020)：如何解决atc模型转换后推理结果与ONNX不一致的问题？

原因分析：

解决办法：

FAQ(021)：如何在Atlas500设备上扩展根目录存储空间？

原因分析：

解决办法:

FAQ(022)：如何解决atc转换模型时出现的警告信息？

原因分析：

解决办法:

FAQ(023)：如何解决ONNX转OM后推理结果完全错误的情况？

原因分析：

解决办法:

FAQ(024)：如何解决CANN安装过程中出现的权限错误？

原因分析：

解决办法:

FAQ(025)：如何提升特定算子（如Sigmoid）在昇腾平台上的计算精度？

原因分析：

解决办法:

FAQ(026)：如何获取适用于Atlas设备的CANN基础镜像？

原因分析:

FAQ(003)：在图模式下调用all_reduce时报错：`myTrain(rank, group)` 报错或异常退出

FAQ(004)：在Atlas服务器上执行多机通信时遇到报错：`param check count error`

FAQ(005)：使用HCCL集合通信库进行多机训练时出现错误：`EI0006: Getting socket times out`

FAQ(006)：在多线程环境下调用ACL Lite API `acl.rt.get_context()` 报错107002

FAQ(007)：使用MindIE Server进行推理时出现错误：`Subprocess [task_distribute] raise error`

FAQ(008)：在Atlas服务器上执行集合通信测试时报错：`hccl_test 集合通信测试报错`

FAQ(039)：在使用ATC工具转换模型时，如何正确配置`--insert_op_conf=aipp.cfg`参数以保证预处理一致性？

FAQ(041)：在使用ATIPP预处理配置文件时遇到`aclmdlGetIndexByName: cannot find tensor name[xxxx]`报错。

FAQ(046)：在使用ATc命令进行模型转换时，出现以下警告信息：`execute model failed, errorCode is 500002`