常见嵌入式芯片介绍

对比汇总

芯片名称	内核架构	运行模式 (裸机 vs 系统)	典型功耗范围	应用场景
51 / STC8	8051 (8位)	几乎全为裸机	1mW - 50mW	简单 IO 开关、低端小家电
CC2640	Cortex-M3	TI-RTOS 或裸机	1μW - 30mW	蓝牙手环、智能标签
Arduino (Uno)	AVR (8位)	裸机为主	100mW - 250mW	电子 DIY、传感器原型
STM32	Cortex-M 系列	裸机 / RTOS	0.5mW - 400mW	工业控制、平衡车、无人机
TivaC	Cortex-M4F	裸机 / TI-RTOS	50mW - 500mW	电机驱动、工业自动化
树莓派 Pico	Cortex-M0+	裸机 / Python / RTOS	5mW - 100mW	高速 IO 仿真、创客项目
ESP32	Xtensa/RISC-V	裸机 / RTOS	100mW - 800mW	智能插座、语音控制、IoT 网关
RK3566	Cortex-A55	Full Linux / Android	1W - 4W	智能音箱、电子书、中控屏
海思 Hi系列	Cortex-A 系列	Linux 或 LiteOS	1W - 4W	安防摄像头、智能猫眼
树莓派 5	Cortex-A76	Full Linux	3W - 12W	边缘服务器、掌上电脑
RK3588	Cortex A76 + A55	Full Linux / Android	4W - 15W	8K 视频、云终端、国产替代
Jetson Orin	Cortex-A + GPU	Full Linux	5W - 60W	自动驾驶、工业 AI 视觉

核心差异

1. 软件架构：裸机 vs RTOS vs Linux

裸机 (Bare-metal): 代码掌握每一个时钟周期。优点是实时性极高、占用资源极小；缺点是任务多了以后，复杂的逻辑跳转（中断）会像毛线球一样难以维护。
适用： 51, Arduino, STM32 简单控制。
RTOS (实时操作系统): 引入任务优先级和多线程。优点是多任务管理方便，能让多项工作（如传感器采集+屏幕刷新）看起来“同时”进行。
适用： STM32, ESP32, TivaC, CC2640。
Full Linux: 需要芯片具备MMU (内存管理单元)，拥有虚拟内存、文件系统。优点是开发门槛低，可以使用 Python、Go、C++ 等高级语言和库；缺点是非实时，系统启动慢。
适用： 树莓派 5, Jetson, 海思, RK3588。

2. 硬件层级：MCU vs MPU

MCU (微控制器): 51、STM32、TivaC、Pico、ESP32、CC2640。
特点： Flash 和 RAM 通常集成在芯片内部，断电程序不丢失，上电即运行。
功耗： 通常以毫瓦 (mW) 计。
MPU (微处理器): 海思 Hi、树莓派 5、Jetson、RK3588。
特点： 需要外接 DDR 内存和 eMMC/SD 卡。架构复杂，通常需要多级电源管理。
功耗： 通常以瓦 (W) 计。

神经网络推理

针对后几种芯片，它们代表了当前嵌入式领域的四个极端方向：极致能耗比（ESP32-P4）、极致通用性（树莓派5）、极致算力（Jetson）以及极致行业垂直（海思）。

以下是针对 AI 推理与工程开发的深度总结对比：

ESP32-P4、树莓派 5、Jetson、海思 AI 综合对比表

特性维度	ESP32-P4 (高性能MCU)	树莓派 5 (通用MPU)	海思 Hi3519/3516 (专用视觉SoC)	RK3588	Jetson Orin Nano
定位	极致性价比/低功耗控制	极客开发/教育/通用	监控/车载/视觉处理	工业大脑/国产化替代	深度学习/自动驾驶/机器人
AI 算力	≈ 0.3 - 0.7 TOPS	≈ 1.0 TOPS (纯CPU)	1.0 - 4.0 TOPS	6.0 TOPS (独立NPU)	20 - 40 TOPS
推理架构	RISC-V 向量扩展指令	ARM Neon 指令集加速	NNIE/IVE 专用硬核引擎	RKNN 三核心 NPU	CUDA Core + Tensor Core
操作系统	FreeRTOS / 裸机	完整版 Linux (Debian)	Linux / LiteOS	Linux / Android	Ubuntu (JetPack)
开发难度	中高 (需深度管理资源)	极低 (如同操作PC)	高 (SDK庞大且封闭)	中 (文档/社区逐渐完善)	低 (生态极其成熟)
工具链难度	较高 (ESP-DL/NN)	简单 (ONNX/TFLite)	难 (专用转换/算子限制)	中 (RKNN-Toolkit)	简单 (TensorRT 自动优化)
功耗水平	毫瓦(mW)级	5W - 15W	2W - 5W	5W - 12W	7W - 15W

1. ESP32-P4

AI 推理： 虽然没有独立 NPU，但 P4 的双核 RISC-V 引入了最新的向量扩展（Vector Extension），处理图像卷积比 S3 快数倍。它适合跑轻量级的人脸识别、语音关键词唤醒。
开发难度： 依然采用 ESP-IDF。优点是无需处理复杂的 Linux 驱动，秒级启动；缺点是 RAM 依然以 MB 为单位，模型量化必须做到位。
工具链： 使用 ESP-DL。你需要将训练好的模型转换为其特定的 C 格式。如果模型中包含不支持的算子，需要手动编写内核代码。

2. 树莓派 5

AI 推理： 树莓派 5 本身没有 NPU，AI 性能全靠那颗主频 2.4GHz 的 Cortex-A76 强拉。它虽然能跑 YOLOv8，但效率不高且发热剧烈。
开发难度： 毫无门槛。你会 Python 就能跑 AI。通过安装 pip install onnxruntime 即可开始推理。
工具链： 没有任何专有束缚，使用业界通用的工具链。它是最好的实验平台，但不是最好的端侧部署方案（除非加装 AI 模块）。

3. 海思 Hi 系列

AI 推理： 算力非常结实。海思的 NNIE（神经网络推理引擎）在处理视频流帧分析时效率极高，延迟极低。
开发难度： 工程门槛极高。海思的开发不仅是 AI 的事，你还得处理复杂的媒体处理平台（MPP），涉及 VI（输入）、VPSS（处理）、VENC（编码）等多个环环相扣的模块。
工具链： 必须使用海思提供的模型转换工具（如 RuyiStudio）。由于其硬件是固化指令，对算子的支持比较死板，如果你的算法模型太前卫，转换时会非常痛苦。

4. Rockchip RK3588

AI 推理： 拥有 6 TOPS 综合算力，采用三核心 NPU 架构（每个核心 2 TOPS）。它在处理多路实时视频分析（如 YOLOv5/v8）时表现极佳，是国产芯片中 AI 性能最均衡的代表。
开发难度： 中等且友好。瑞芯微的文档和社区非常活跃，提供了大量的 Python/C++ 示例。
工具链： 使用 RKNN-Toolkit。支持将 ONNX/TensorFlow/PyTorch 模型转换为 .rknn 格式。其三核心架构允许开发者灵活分配任务（例如三个核心分别跑三个不同的模型，或协同跑一个大模型）。

5. NVIDIA Jetson Orin Nano

AI 推理： 算力是上述选手的几十倍。它支持 FP16 和 INT8 推理，能同时运行多个视觉模型（如人脸识别+骨骼识别+背景分割）。
开发难度： 只要有深度学习背景就非常容易。NVIDIA 提供了 JetPack SDK，预装了 CUDA、cuDNN、TensorRT。
工具链： TensorRT 是核心。它可以一键优化你的模型，自动融合层、优化显存。它是目前世界上最易用、也是性能发挥最充分的嵌入式 AI 工具链。

运行Linux?

在嵌入式界，Linux 被分为两个“平行世界”：标准 Linux 和 no-MMU Linux (uClinux)。

1. 为什么通常认为 MMU 是必须的？

标准 Linux 核心功能高度依赖 MMU（内存管理单元） 提供的以下特性：

虚拟内存地址： 每个进程都认为自己拥有完整的内存空间（例如从 0x00000000 开始），互不干扰。
内存保护： 防止进程 A 意外修改进程 B 或内核的数据。如果发生越界，MMU 会触发异常，也就是我们常见的 Segmentation Fault（段错误）。
多任务处理： 支持 fork() 系统调用，这是 Linux 创建进程的核心机制。

2. 没有 MMU 也能跑：uClinux (Microcontroller Linux)

对于像 Cortex-M7 (STM32H7)、ESP32 或某些 RISC-V MCU 这样没有 MMU 的芯片，开发者可以使用 uClinux。
它的核心逻辑是：直接在物理内存上运行。

特性	标准 Linux (有 MMU)	uClinux (无 MMU)
内存映射	虚拟地址，进程间隔离	物理地址，所有进程共享同一块物理内存
进程创建	支持 `fork()`，父子进程空间独立	不支持 `fork()`，仅支持 `vfork()` (子进程会阻塞父进程)
稳定性	单个程序崩溃不影响系统	一个程序写错地址可能导致全系统崩溃
执行文件格式	ELF	通常使用 FLAT (更紧凑)
运行成本	需要大量 DDR 内存	可以在几 MB 的 SRAM 上运行

3. 为什么现在很少人在 MCU 上跑 uClinux 了？

虽然理论上可行，但现实中大家更倾向于在没有 MMU 的芯片上跑 RTOS（如 RT-Thread、FreeRTOS），原因如下：

开销过大： Linux 内核即便精简到极限，也需要几百 KB 甚至数 MB 的存储，而大多数 MCU 的片内 RAM 只有几百 KB。
效率低下： 没有 MMU 意味着无法实现“写时拷贝”（Copy-on-Write），这让多进程操作变得极其低效且危险。
RTOS 的崛起： 现代 RTOS（如 RT-Thread）已经集成了完善的网络协议栈、文件系统和 POSIX 接口，在 MCU 上能实现 Linux 80% 的功能，但占用资源仅为 Linux 的十分之一。

4. 总结：芯片如何选？

如果你必须用 Linux，请根据是否有 MMU 来选芯片：

需要标准体验（跑 Python, Docker, Ubuntu）：
必须选带 MMU 的芯片。架构必须是 ARM Cortex-A 系列（如树莓派、海思）或 支持 S-Mode 的 RISC-V（如全志 D1）。
极端低成本/高性能 MCU 想尝鲜 Linux：
可以选择带外部高性能内存的 STM32H7 或 Cortex-M4/M7 系列跑 uClinux，但要做好处理“系统频繁崩溃”和“难以调试”的准备。

详细介绍

1. 极致能效与专用无线层 (Ultra Low Power)

这一层级的芯片主要为了“省电”而生，架构精简，通常用于电池供电的微型设备。

CC2640 (TI):
- 内核： ARM Cortex-M3 (主处理器) + Cortex-M0 (专属射频内核)。
- 功耗： 极低。待机电流微安级，适合纽扣电池供电。
- 系统： TI-RTOS。
- 场景： 蓝牙手环、智能传感器、资产追踪。
51 系列 (如 STC8/AT89):
- 内核： 8-bit CISC。
- 功耗： 毫瓦级，但性能/功耗比在现代视角下其实不高。
- 系统： 裸机（无系统）。
- 场景： 极低成本教学、简单的小家电控制。

2. 通用工业与精简控制层 (Standard MCU)

这一层级是嵌入式开发的中坚力量，强调外设丰富度（PWM, CAN, ADC）和实时性。

STM32 (ST):
- 内核： ARM Cortex-M0/M3/M4/M7。
- 功耗： 较低。支持多种休眠模式。
- 系统： FreeRTOS, RT-Thread, μC/OS。
- 场景： 工业控制、无人机飞控、平衡车。
TivaC (TI):
- 内核： ARM Cortex-M4F (带浮点运算单元)。
- 功耗： 中。相比 STM32，它更强调工业级稳定性和通信（自带以太网 MAC）。
- 系统： TI-RTOS, FreeRTOS。
- 场景： 电机驱动、工业网关。
Arduino (以 ATmega328P 为代表):
- 内核： AVR RISC。
- 功耗： 中。架构较老，但在创客圈生态无敌。
- 系统： 裸机。
- 场景： 快速原型、艺术装置。

3. 物联网与精简高性能层 (High-Perf MCU)

在保持单片机架构的同时，极大提升频率并集成无线功能。

ESP32 (乐鑫):
- 内核： 双核 Xtensa LX6/LX7 或 RISC-V。
- 功耗： 中。WiFi 开启时瞬间电流大。
- 系统： FreeRTOS (ESP-IDF)。
- 场景： 智能家居、WiFi 摄像头、语音助手原型。
树莓派 Pico (RP2040):
- 内核： 双核 ARM Cortex-M0+。
- 功耗： 极低。亮点是独特的 PIO（可编程 IO）架构。
- 系统： 裸机 / RTOS / MicroPython。
- 场景： 极客制作、高性能 IO 模拟。

4. 视频处理与多媒体层 (Application Processor - Multimedia)

这类芯片不再是单片机，具备 MMU，可以跑完整 Linux，且带有强大的硬件解码器。

RK3566 (Rockchip):
- 内核： 四核 ARM Cortex-A55。
- 功耗： 低（1W - 3.5W）。
- 特点： 性价比之王。内置 0.8 TOPS NPU，具备强大的 4K H.265 硬解码能力。
- 场景： 消费级平板、智能家居中控面板、入门级边缘计算网关。
海思 Hi 系列 (如 Hi3516/Hi3519):
- 内核： 多核 ARM Cortex-A7/A17/A53。
- 功耗： 中（1W - 5W）。
- 系统： Linux / LiteOS。
- 特点： 行业天花板级别的 ISP（图像信号处理）。
- 场景： 安防监控、行车记录仪、智能猫眼。

5. 高性能边缘计算层 (MPU / Edge AI)

这是嵌入式芯片的顶端，功耗最高，计算能力最强，支持复杂的图形和算法。

树莓派 5 (Broadcom BCM2712):
- 内核： 4核 ARM Cortex-A76。
- 功耗： 高（典型 5W - 12W）。
- 系统： Full Linux (Raspberry Pi OS)。
- 场景： 微型服务器、软路由、复杂的上位机界面。
NVIDIA Jetson (如 Orin/Xavier):
- 内核： ARM Cortex-A78AE + NVIDIA Ampere GPU。
- 功耗： 很高（15W - 50W）。
- 系统： Ubuntu (L4T)。
- 场景： 自动驾驶、工业质检机器人、端侧大模型部署。
RK3588 (Rockchip):
- 内核： 4×A76 + 4×A55 八核架构。
- 功耗： 中高（典型 5W - 12W）。
- 特点： 国产性能标杆。支持 8K@60fps 视频解码和 8K@30fps 编码，接口极其丰富（支持 3 屏异显、PCIe 3.0）。
- 场景： 智慧大屏、高端边缘计算盒、多路 AI 视频分析、国产 Arm 工作站。

常见嵌入式芯片介绍

https://cyberyang.com/logs/50.html

作者

Chen

发布时间

2025-12-25

许可协议

 CC BY 4.0