TensorRT量化加速yolov8目标检测
对于3060这种桌面级的GPU来说,像yolov8s动不动就数十、上百帧的模型还是太小了,瓶颈很容易卡在模型以外的其他地方,本文为了更加明确地反映不同的操作对于推理速度的影响,将使用最大的yolov8x模型。
加速推理有两种途径,一种是降低推理过程中模型的精度,用精度换速度,另一种是通过CUDA并行加速一些预处理、后处理操作,至于替换激活函数这种更加狠的活本文暂且不涉及。
更新知识地图,拓展认知边界
对于3060这种桌面级的GPU来说,像yolov8s动不动就数十、上百帧的模型还是太小了,瓶颈很容易卡在模型以外的其他地方,本文为了更加明确地反映不同的操作对于推理速度的影响,将使用最大的yolov8x模型。
加速推理有两种途径,一种是降低推理过程中模型的精度,用精度换速度,另一种是通过CUDA并行加速一些预处理、后处理操作,至于替换激活函数这种更加狠的活本文暂且不涉及。
本文将会通过TensorRT C++来部署一个基于yolov8算法的目标检测任务,内容包含:yolov8预处理后处理、使用parser导入ONNX模型、通过enqueueV3执行推理的方式及其代码实现。
本文将会通过TensorRT C++ API来完成一个MNIST手写数字识别模型的转换、推理过程,并给出相应代码,在runtime阶段将会使用最新的enqueueV3方法。