海南方言语音项目
2026/3/3大约 4 分钟
海南方言语音项目
现有资源盘点
《海南方言说要》
一本系统性的海南方言学术资料,核心价值在于:
- 完整 IPA 标注:声母、韵母、声调、字词发音全部标注国际音标
- 发音要领:对吸气音(
ɓ、ɗ)、喉壁音、入声韵母(-p、-t、-k)等海南方言特有音素有详细描述 - 以琼海话为基础,兼顾海口话、文昌话等分支对比
- 收录"常用单句举要"、"声韵配合总表"、"白读音/训读音对比"等结构化内容
- 整理发现:8 个声调(阴平 44、阳平 22、阴上 31 等),远多于普通话
琼崖方言小程序
微信小程序,提供:
- 海南方言词汇查询(文字 → 方言读音)
- 可能包含真人录音片段
- 使用群体为海南本地人,有一定真实发音数据基础
核心难点
| 问题 | 说明 |
|---|---|
| 无标准化 TTS 模型 | 主流 TTS(讯飞、Azure、Google)不支持海南方言 |
| 发音特征极为特殊 | 吸气音、大量入声韵母,非一般 IPA 映射能还原 |
| 数据稀缺 | 标注好的"文本-录音"对极少,难以直接训练 |
| 方言内部差异 | 琼海话 ≠ 海口话 ≠ 文昌话,需明确目标方言 |
可行路径(由易到难)
路径 A:人工标注 + 真人发音库
- 从书中提取"词语 → IPA 音标"对应关系
- 联系海南本地母语者按音标录音
- 用 Audacity 整理,构建小规模方言发音词典
- 结合 Forvo 求助社区补充稀缺词条
特点:无技术门槛,质量最可控,但费人力
路径 B:IPA 直接合成(中间方案)
- 工具:IPA Reader、Balabolka
- 用书中标注的音标直接驱动发音合成,绕过"文字→方言"难点
- 缺点:音色生硬,声调曲线不自然,入声收尾难处理
路径 C:训练轻量自定义 TTS 模型(推荐长期目标)
数据来源
- 书中提取"字词-音标-发音说明" triples → 结构化 CSV
- 琼崖方言小程序的录音片段(若可爬取)
- 海南电视台方言节目、琼海话广播音频
框架选型
- Coqui TTS:支持小语种/方言,社区活跃
- PaddleSpeech:百度开源,中文方言有预训练基础
- ESPnet:学术向,适合从音素级别定制
优化重点
- 吸气音(
ɓ、ɗ):需专门音素定义,不能用普通浊塞音替代 - 入声韵母:时长压缩 + 硬收尾,调整 duration model
- 声调曲线:8 调系统,需细化 pitch contour 的调值映射
项目设想
项目:海南方言学习助手
目标用户:想学海南方言的年轻人(在黔南生活的外地人、海南话正在消失的第二代移民后代)
核心功能
输入层
├── 用户输入汉字词语 / 句子
└── 或上传一段普通话文本
│
▼
[ 文字→音标转换 ] ← 书中词典 + 规则引擎
├── 查词典:已收录词直接返回音标
├── 未收录词:按书中声韵对应规律推断
└── 标注声调、特殊音素
│
▼
[ 发音合成层 ]
├── 有录音:直接播放真人发音片段
└── 无录音:TTS 合成(IPA 驱动或自定义模型)
│
▼
[ 学习交互层 ]
├── 逐字发音 + IPA 展示
├── 跟读评分(用 ASR 对比音素相似度)
├── 对比普通话:标注这个字"普通话读 X,海南话读 Y,因为规律 Z"
└── 例句练习:常用场景句(问路、问候、买菜)有意思的切入点
- "方言消失倒计时"叙事:首页展示海南方言使用人口趋势图,增加用户学习的使命感
- 家庭传承模式:生成"给爷爷/外婆的方言问候语"卡片,可分享到朋友圈,带动传播
- 方言 vs 普通话对照游戏:给出一个普通话词,猜海南方言的发音规律,答对有反馈
- AI 纠音:用户跟读后,ASR 解析发音,重点提示"你的吸气音不够,入声收尾太松"
