封面
缘起与痛点
核心功能
系统架构
AI核心
技术栈
评测管线
技术栈矩阵
项目优势
愿景

南音 · 叫字

以科技重塑千年雅乐,AI驱动的非物质文化遗产传承新范式

守护人类非物质文化遗产 · 国家级非遗项目

泉州师范学院 | 数学与计算机科学学院 X 南音学院

缘起:当千年古韵遇上时代回响

传承赤字:文化瑰宝的“发音鸿沟”

核心痛点:春晚热潮下的学习困境

南音,作为人类非物质文化遗产代表作,其传承正面临前所未有的挑战。它以独特的泉州腔为灵魂,但对于数以万计的非闽南语母语学习者而言,自学过程中缺乏实时、准确的发音反馈,极易形成难以纠正的错误发音习惯。传统的师徒口传心授模式,虽保证了传承质量,但优质师资的稀缺性,已无法满足因文化自信而激增的学习需求。

南音登上春晚
技术破局:我们的愿景与使命

解决方案:不止是工具,更是传承的阶梯

我们坚信,技术不应只是记录,更应是传承的催化剂。我们的愿景是:以AI之力,为每一位南音爱好者提供一位随身的、不知疲倦的、高度专业的发音教练。

核心破局点:不止于“听见”,更要实现“校准”。

  • 发音量化:将玄妙的“腔调”拆解为可度量的音素指标
  • 实时反馈:在学习者形成错误记忆前,即时干预和纠正。
  • 规模赋能:打破师资物理限制,实现标准化、个性化的教学普惠。
App核心功能截图

产品核心:AI驱动的精准指导

我们不仅在教,更在陪伴。从聆听、模仿到即时反馈,构建完整的学习闭环。

智能评测
六角亭上六角石
lak
kak
tan
ʦĩũ
lak
kak
ʦioʔ
🎤 按住录音
播放录音
准确率: 71.4%
正确: 7 错误: 2
标准:
lak
kak
tan
ʦĩũ
lak
kak
ʦioʔ
识别:
lak
kak
tan
ʦĩ
lak
ka
ʦioʔ
1
2
3
1

标准曲库 · 权威范本

内置由南音学院专业艺人录制的标准发音库,确保学习者接触到的是最纯正的泉州腔。支持单句、单字循环播放,为模仿和跟读提供了权威基准。

2

AI评测 · 音素级诊断

录音后,系统不仅是简单识别,而是将用户发音的音频流直接送入专为南音优化的AI评测引擎。引擎将音频特征与标准音素模型进行比对,实现对替换、遗漏、增添等错误的精准判断。

3

可视化报告 · 精准纠错

评测结果以直观的可视化报告呈现。正确的音节用绿色标记,错误的用红色高亮,并清晰展示“标准音”与“您的发音”之间的差异。这种“像素级”的反馈,让学习者一目了然,实现了从“感觉不对”到“知道哪里不对”的跨越。

为传承而生:现代化的高可用、可扩展架构

我们设计的不是一个单一应用,而是一个现代化的具备高弹性、高可用、高并发、可扩展的分布式评测服务系统。

系统架构图

流量卸载与异步解耦

通过OpenResty网关前置处理I/O密集型的音频上传,后端仅接收轻量级通知,极大提升了业务服务器的吞吐能力。RabbitMQ作为系统“缓冲带”,将评测任务异步化,实现了服务间的解耦与流量的削峰填谷。

弹性伸缩与高可用

AI评测服务采用无状态设计,通过Docker容器化部署。结合Nacos服务发现,可根据队列积压情况动态扩缩容评测节点,从容应对流量洪峰,保证了服务的高可用性

状态分离与数据持久化

利用Redis缓存评测的中间状态与最终结果,为前端提供低延迟的轮询体验。评测完成事件触发PostgreSQL的数据持久化,将用户练习记录、评测报告等核心数据沉淀,为后续的数据分析和功能迭代打下坚实基础。

AI核心:我们如何做到精准?

顶尖的模型、高质量的数据、严谨的工程实践,三者共同构筑了我们的技术壁垒。

模型选型与微调策略

我们选用 OpenAI Whisper-large-v3 作为基座模型,它具备强大的多语言语音识别和噪声鲁棒性。在此基础上,我们利用与泉州师范学院南音学院合作建立的超过2000句、标注精准的泉州腔标准音频数据库进行监督式微调(Supervised Fine-Tuning)。训练目标并非转写为汉字,而是直接输出至国际音标(IPA),这使得模型能更专注于声学特征的学习,避免了多音字等歧义问题。

性能验证:数据不说谎

根据我们的模型评估报告,在包含多位发音人的独立测试集上,模型展现出卓越的性能。

4.62%
音节错误率 (SER)
95.38%
音节准确率 (SAR)
3.37%
音素错误率 (PER)
通用模型 SAR
65%
南音·叫字 SAR
95.38%

*通用模型指未经微调的Whisper-large-v3在同一测试集上的表现。

严谨的评测工程管线 (Pipeline)

一个优秀的AI应用,算法只占一部分,稳定可靠的工程化实践同样重要。我们的评测管线确保了每一次用户请求都能得到高质量的处理。

音频预处理

降噪/标准化

质量预检

VAD/音量检测

ASR推理

语音转音素

WER计算

动态规划比对

生成报告

可视化结果

技术基石:全栈的硬核实力

我们整合了业界前沿且成熟的技术栈,构建了一个从前端采集、后端处理、AI计算到基础运维的全链路技术体系,确保项目的稳定、高效与可扩展。

AI 模型与算法

核心模型: 基于OpenAI Whisper-large-v3,在我们自建的、超过1000句的南音泉州腔标准发音数据集上进行领域自适应微调(Fine-tuning)

评测算法: 采用动态规划实现的音素级编辑距离(PER)算法,精准计算替换、删除、插入错误,提供详尽的诊断报告。

技术框架: PyTorch, Transformers, Librosa

后端服务与中间件

业务核心: Spring Boot 3,提供RESTful API,处理用户、歌曲、练习记录等核心业务逻辑,并通过JWT实现无状态认证。

服务治理: Nacos作为服务发现与配置中心,实现后端服务与AI服务的动态管理。

数据持久化: PostgreSQL负责结构化数据存储,Redis用于评测结果的快速轮询与缓存。

跨平台前端

框架: 采用Uni-app框架,基于Vue 3语法,实现“一次开发,多端部署”,覆盖iOS、Android及小程序,极大提升开发效率与用户触达范围。

设计: 遵循现代UI/UX设计原则,提供简洁、优雅且响应迅速的用户界面。

运维与部署

容器化: 所有服务(SpringBoot, Python, Nginx, Redis等)均通过Docker进行容器化封装,保证开发、测试、生产环境的一致性。

编排: 使用Docker Compose在单机上快速编排和部署整个应用集群,简化了部署流程并实现了服务的隔离。

核心评测管线深度解析

我们构建了从上传到反馈的全链路异步管线,确保从音频上传到结果反馈的每一步都流畅、稳健。

1. 网关层文件预处理与任务卸载

客户端音频文件直接上传至 OpenResty 网关。利用其高性能I/O与Lua脚本能力,实现对后端Java服务的文件上传任务卸载,将耗时的文件流操作前置。网关完成文件持久化后,仅将文件路径与元数据通过轻量级HTTP请求通知后端,极大降低了应用服务器的负载。

2. 异步任务分发与系统解耦

后端服务接收到通知后,并不立即执行评测。而是将包含任务ID、文件路径、标准音标等信息的完整任务体封装成消息,推送至 RabbitMQ 消息队列。此设计彻底解耦了业务应用与AI评测服务,实现了流量削峰填谷,即使在评测请求洪峰期,也能保证系统的稳定和响应速度。

3. AI服务异步消费与GPU加速评测

独立的Python评测服务集群作为消费者,从RabbitMQ中异步拉取任务。该服务利用 PyTorch 框架,在GPU环境下运行微调后的Whisper-large-v3模型进行高效识别。评测完成后,通过动态规划算法计算与标准音标的WER,生成音素级对比报告。

4. 多通道结果反馈与数据持久化

评测结果兵分两路:
- 热数据通道:简要结果(状态、准确率)被写入 Redis 并设置短期过期时间,供前端进行低延迟、无状态的轮询。
- 冷数据通道:完整的评测报告作为事件再次发布到RabbitMQ,由后端业务服务消费,并持久化到PostgreSQL数据库,用于用户学习记录追溯和数据分析。

技术栈矩阵 · 现代工程实践

我们选用业界主流、稳定且高效的技术栈,为系统的可靠性与可维护性提供坚实基础。

前端技术

Vue 3

组合式API,提升开发效率

Uni-app

一套代码,多端发布

SCSS

模块化、可编程的CSS

人工智能

PyTorch

领先的深度学习框架

Whisper-V3-Large

openAI开源,行业领先的ASR模型

Python 3

AI领域首选开发语言

后端技术

Spring Boot 3

企业级应用快速开发框架

Spring Security

基于JWT的无状态认证授权

JPA & Hibernate

高效、标准化的数据持久化

基础设施与中间件

PostgreSQL

功能强大的开源关系型数据库

RabbitMQ

成熟、可靠的消息中间件

Redis

高性能内存数据库,用于缓存

OpenResty

基于Nginx的高性能Web平台

Docker

容器化部署,实现环境一致性

核心优势 · 构建无法轻易逾越的壁垒

我们的优势并非单一技术的领先,而是数据、算法与生态三位一体构建的、深度融合的综合壁垒。

数据护城河

我们拥有业界唯一的、与南音学院合作共建的泉州腔标准音色-音素数据库。随着用户数据的不断积累和模型的持续迭代,这个数据壁垒将越来越高,形成强大的网络效应。

深度优化的AI模型

模型并非通用ASR,而是针对南音唱腔特点(如润腔、一字多音)进行微调。通过自定义的评估指标(WER/PER),训练出在南音音素识别上远超通用模型的专用AI引擎。

学术与生态背书

项目由泉州师范学院南音学院提供学术指导与数据支持,保证了内容的权威性。我们深度结合真实教学场景,未来规划与工乂谱等专业打谱软件生态联动,形成南音数字化学习的闭环。

终极价值:技术驱动的文化传承

我们深知,这个项目的终极价值,远不止于一个商业产品。它是技术与文化的一次深度拥抱。通过AI降低南音的学习门槛,我们正在为这项被列入人类非物质文化遗产代表作名录的千年艺术,开辟一条全新的、数字化的传承之路,让它的魅力能够跨越时空,触达更广阔的人群。

扩大传承群体
数字化保存
全球推广

技术为帆,文化为舟

我们不仅构建了一个系统,
更是在搭建一座连接过去与未来的数字桥梁。

我们的愿景

利用最前沿的人工智能技术,打破语言和地域的壁垒,让南音这一璀璨的文化瑰宝得以被更广泛地学习、更精准地传承、更长久地流传。我们相信,科技最好的归宿,就是服务于人类最珍贵的文化。

谢谢

小程序码

扫码立即体验

测试账号: test

测试密码: test