南

词

说

音

南音 · 叫字

以科技重塑千年雅乐，AI驱动的非物质文化遗产传承新范式

守护人类非物质文化遗产 · 国家级非遗项目

泉州师范学院 | 数学与计算机科学学院 X 南音学院

缘起：当千年古韵遇上时代回响

传承赤字：文化瑰宝的“发音鸿沟”

核心痛点：春晚热潮下的学习困境

南音，作为人类非物质文化遗产代表作，其传承正面临前所未有的挑战。它以独特的泉州腔为灵魂，但对于数以万计的非闽南语母语学习者而言，自学过程中缺乏实时、准确的发音反馈，极易形成难以纠正的错误发音习惯。传统的师徒口传心授模式，虽保证了传承质量，但优质师资的稀缺性，已无法满足因文化自信而激增的学习需求。

技术破局：我们的愿景与使命

解决方案：不止是工具，更是传承的阶梯

我们坚信，技术不应只是记录，更应是传承的催化剂。我们的愿景是：以AI之力，为每一位南音爱好者提供一位随身的、不知疲倦的、高度专业的发音教练。

核心破局点：不止于“听见”，更要实现“校准”。

发音量化：将玄妙的“腔调”拆解为可度量的音素指标。
实时反馈：在学习者形成错误记忆前，即时干预和纠正。
规模赋能：打破师资物理限制，实现标准化、个性化的教学普惠。

产品核心：AI驱动的精准指导

我们不仅在教，更在陪伴。从聆听、模仿到即时反馈，构建完整的学习闭环。

智能评测

学习内容

六角亭上六角石

标准读音

▶

lak

kak

tan

ʦĩũ

lak

kak

ʦioʔ

🎤 按住录音

▶ 播放录音

识别结果

准确率: 71.4%

正确: 7 错误: 2

标准:

lak

kak

tan

ʦĩũ

lak

kak

ʦioʔ

识别:

lak

kak

tan

ʦĩ

lak

ka

ʦioʔ

1

2

3

1

标准曲库 · 权威范本

内置由南音学院专业艺人录制的标准发音库，确保学习者接触到的是最纯正的泉州腔。支持单句、单字循环播放，为模仿和跟读提供了权威基准。

2

AI评测 · 音素级诊断

录音后，系统不仅是简单识别，而是将用户发音的音频流直接送入专为南音优化的AI评测引擎。引擎将音频特征与标准音素模型进行比对，实现对替换、遗漏、增添等错误的精准判断。

3

可视化报告 · 精准纠错

评测结果以直观的可视化报告呈现。正确的音节用绿色标记，错误的用红色高亮，并清晰展示“标准音”与“您的发音”之间的差异。这种“像素级”的反馈，让学习者一目了然，实现了从“感觉不对”到“知道哪里不对”的跨越。

为传承而生：现代化的高可用、可扩展架构

我们设计的不是一个单一应用，而是一个现代化的具备高弹性、高可用、高并发、可扩展的分布式评测服务系统。

流量卸载与异步解耦

通过OpenResty网关前置处理I/O密集型的音频上传，后端仅接收轻量级通知，极大提升了业务服务器的吞吐能力。RabbitMQ作为系统“缓冲带”，将评测任务异步化，实现了服务间的解耦与流量的削峰填谷。

弹性伸缩与高可用

AI评测服务采用无状态设计，通过Docker容器化部署。结合Nacos服务发现，可根据队列积压情况动态扩缩容评测节点，从容应对流量洪峰，保证了服务的高可用性。

状态分离与数据持久化

利用Redis缓存评测的中间状态与最终结果，为前端提供低延迟的轮询体验。评测完成事件触发PostgreSQL的数据持久化，将用户练习记录、评测报告等核心数据沉淀，为后续的数据分析和功能迭代打下坚实基础。

AI核心：我们如何做到精准？

顶尖的模型、高质量的数据、严谨的工程实践，三者共同构筑了我们的技术壁垒。

模型选型与微调策略

我们选用 OpenAI Whisper-large-v3 作为基座模型，它具备强大的多语言语音识别和噪声鲁棒性。在此基础上，我们利用与泉州师范学院南音学院合作建立的超过2000句、标注精准的泉州腔标准音频数据库进行监督式微调（Supervised Fine-Tuning）。训练目标并非转写为汉字，而是直接输出至国际音标（IPA），这使得模型能更专注于声学特征的学习，避免了多音字等歧义问题。

性能验证：数据不说谎

根据我们的模型评估报告，在包含多位发音人的独立测试集上，模型展现出卓越的性能。

4.62%

音节错误率 (SER)

95.38%

音节准确率 (SAR)

3.37%

音素错误率 (PER)

通用模型 SAR

65%

南音·叫字 SAR

95.38%

*通用模型指未经微调的Whisper-large-v3在同一测试集上的表现。

严谨的评测工程管线 (Pipeline)

一个优秀的AI应用，算法只占一部分，稳定可靠的工程化实践同样重要。我们的评测管线确保了每一次用户请求都能得到高质量的处理。

音频预处理

降噪/标准化

质量预检

VAD/音量检测

ASR推理

语音转音素

WER计算

动态规划比对

生成报告

可视化结果

技术基石：全栈的硬核实力

我们整合了业界前沿且成熟的技术栈，构建了一个从前端采集、后端处理、AI计算到基础运维的全链路技术体系，确保项目的稳定、高效与可扩展。

AI 模型与算法

核心模型： 基于OpenAI Whisper-large-v3，在我们自建的、超过1000句的南音泉州腔标准发音数据集上进行领域自适应微调（Fine-tuning）。

评测算法： 采用动态规划实现的音素级编辑距离（PER）算法，精准计算替换、删除、插入错误，提供详尽的诊断报告。

技术框架： PyTorch, Transformers, Librosa

后端服务与中间件

业务核心： Spring Boot 3，提供RESTful API，处理用户、歌曲、练习记录等核心业务逻辑，并通过JWT实现无状态认证。

服务治理： Nacos作为服务发现与配置中心，实现后端服务与AI服务的动态管理。

数据持久化： PostgreSQL负责结构化数据存储，Redis用于评测结果的快速轮询与缓存。

跨平台前端

框架： 采用Uni-app框架，基于Vue 3语法，实现“一次开发，多端部署”，覆盖iOS、Android及小程序，极大提升开发效率与用户触达范围。

设计： 遵循现代UI/UX设计原则，提供简洁、优雅且响应迅速的用户界面。

运维与部署

容器化： 所有服务（SpringBoot, Python, Nginx, Redis等）均通过Docker进行容器化封装，保证开发、测试、生产环境的一致性。

编排： 使用Docker Compose在单机上快速编排和部署整个应用集群，简化了部署流程并实现了服务的隔离。

核心评测管线深度解析

我们构建了从上传到反馈的全链路异步管线，确保从音频上传到结果反馈的每一步都流畅、稳健。

1. 网关层文件预处理与任务卸载

客户端音频文件直接上传至 OpenResty 网关。利用其高性能I/O与Lua脚本能力，实现对后端Java服务的文件上传任务卸载，将耗时的文件流操作前置。网关完成文件持久化后，仅将文件路径与元数据通过轻量级HTTP请求通知后端，极大降低了应用服务器的负载。

2. 异步任务分发与系统解耦

后端服务接收到通知后，并不立即执行评测。而是将包含任务ID、文件路径、标准音标等信息的完整任务体封装成消息，推送至 RabbitMQ 消息队列。此设计彻底解耦了业务应用与AI评测服务，实现了流量削峰填谷，即使在评测请求洪峰期，也能保证系统的稳定和响应速度。

3. AI服务异步消费与GPU加速评测

独立的Python评测服务集群作为消费者，从RabbitMQ中异步拉取任务。该服务利用 PyTorch 框架，在GPU环境下运行微调后的Whisper-large-v3模型进行高效识别。评测完成后，通过动态规划算法计算与标准音标的WER，生成音素级对比报告。

4. 多通道结果反馈与数据持久化

评测结果兵分两路：
- 热数据通道：简要结果（状态、准确率）被写入 Redis 并设置短期过期时间，供前端进行低延迟、无状态的轮询。
- 冷数据通道：完整的评测报告作为事件再次发布到RabbitMQ，由后端业务服务消费，并持久化到PostgreSQL数据库，用于用户学习记录追溯和数据分析。

技术栈矩阵 · 现代工程实践

我们选用业界主流、稳定且高效的技术栈，为系统的可靠性与可维护性提供坚实基础。

前端技术

组合式API，提升开发效率

Uni-app

一套代码，多端发布

SCSS

模块化、可编程的CSS

人工智能

PyTorch

领先的深度学习框架

Whisper-V3-Large

openAI开源,行业领先的ASR模型

Python 3

AI领域首选开发语言

后端技术

Spring Boot 3

企业级应用快速开发框架

Spring Security

基于JWT的无状态认证授权

JPA & Hibernate

高效、标准化的数据持久化

基础设施与中间件

PostgreSQL

功能强大的开源关系型数据库

RabbitMQ

成熟、可靠的消息中间件

Redis

高性能内存数据库，用于缓存

OpenResty

基于Nginx的高性能Web平台

Docker

容器化部署，实现环境一致性

核心优势 · 构建无法轻易逾越的壁垒

我们的优势并非单一技术的领先，而是数据、算法与生态三位一体构建的、深度融合的综合壁垒。

数据护城河

我们拥有业界唯一的、与南音学院合作共建的泉州腔标准音色-音素数据库。随着用户数据的不断积累和模型的持续迭代，这个数据壁垒将越来越高，形成强大的网络效应。

深度优化的AI模型

模型并非通用ASR，而是针对南音唱腔特点（如润腔、一字多音）进行微调。通过自定义的评估指标（WER/PER），训练出在南音音素识别上远超通用模型的专用AI引擎。

学术与生态背书

项目由泉州师范学院南音学院提供学术指导与数据支持，保证了内容的权威性。我们深度结合真实教学场景，未来规划与工乂谱等专业打谱软件生态联动，形成南音数字化学习的闭环。

终极价值：技术驱动的文化传承

我们深知，这个项目的终极价值，远不止于一个商业产品。它是技术与文化的一次深度拥抱。通过AI降低南音的学习门槛，我们正在为这项被列入人类非物质文化遗产代表作名录的千年艺术，开辟一条全新的、数字化的传承之路，让它的魅力能够跨越时空，触达更广阔的人群。

扩大传承群体

数字化保存

全球推广

技术为帆，文化为舟

我们不仅构建了一个系统，
更是在搭建一座连接过去与未来的数字桥梁。

我们的愿景

利用最前沿的人工智能技术，打破语言和地域的壁垒，让南音这一璀璨的文化瑰宝得以被更广泛地学习、更精准地传承、更长久地流传。我们相信，科技最好的归宿，就是服务于人类最珍贵的文化。

谢谢

南音 · 叫字

缘起：当千年古韵遇上时代回响

核心痛点：春晚热潮下的学习困境

解决方案：不止是工具，更是传承的阶梯

产品核心：AI驱动的精准指导

标准曲库 · 权威范本

AI评测 · 音素级诊断

可视化报告 · 精准纠错

为传承而生：现代化的高可用、可扩展架构

流量卸载与异步解耦

弹性伸缩与高可用

状态分离与数据持久化

AI核心：我们如何做到精准？

模型选型与微调策略

性能验证：数据不说谎

严谨的评测工程管线 (Pipeline)

技术基石：全栈的硬核实力

AI 模型与算法

后端服务与中间件

跨平台前端

运维与部署

核心评测管线深度解析

1. 网关层文件预处理与任务卸载

2. 异步任务分发与系统解耦

3. AI服务异步消费与GPU加速评测

4. 多通道结果反馈与数据持久化

技术栈矩阵 · 现代工程实践

前端技术

人工智能

后端技术

基础设施与中间件

核心优势 · 构建无法轻易逾越的壁垒

数据护城河

深度优化的AI模型

学术与生态背书

终极价值：技术驱动的文化传承

技术为帆，文化为舟

我们不仅构建了一个系统，更是在搭建一座连接过去与未来的数字桥梁。

我们的愿景

我们不仅构建了一个系统，
更是在搭建一座连接过去与未来的数字桥梁。