Oculus 口型同步指南
更新时间: 2023年9月14日
End-of-Life Notice for Oculus Spatializer Plugin
此文档将不再更新,并且可能会被删除。
Oculus 口型同步描述了一套插件和 API 接口,可用来将虚拟形象的唇部动作与声音和笑声同步。口型同步分析来自麦克风输入或音频文件的音频输入流,并预测一组名为
Viseme 的值,即与特定语音相对应的口型和面部表情。Viseme 可用于制作虚拟形象的嘴唇动画。借助口型同步,可以预计算 Viseme 来节省 CPU 或实时生成。
下方动画图像展示了如何使用口型同步说出“Welcome to the Oculus Lipsync demo”。

口型同步 1.30.0 及更高版本支持笑声检测功能,可帮助您为虚拟形象添加更多个性和情感。
下方动画展示笑声检测示例。
Viseme 描述的是与特定语音相对应的嘴唇和面部的视觉姿势或表情,与音素描述声音的方式相似。Viseme 这个术语在讨论读唇语时使用,是可理解性的基本视觉单位。在电脑动画中,为了让动画人物看起来像在说话,可能会为它们使用 Viseme。
口型同步使用 Viseme 集,根据特定音频输入流修改虚拟形象。每个 Viseme 都针对虚拟形象的一个特定几何形态目标,从而影响该目标在模型上的表达量。我们可以利用口型同步生成与所说或所听内容同步的逼真唇部动作。这可以改善向应用程序填充虚拟形象时所用的视觉提示,无论该形象是用户控制角色还是非玩家角色 (NPC)。
口型同步系统分别映射 15 个 Viseme 目标:sil、PP、FF、TH、DD、kk、CH、SS、nn、RR、aa、E、ih、oh 以及 ou。Viseme 描述说出相应语音时产生的面部表情。例如,Viseme
sil 对应沉默/无声的表情,
PP 对应 Popcorn(爆米花)的第一个音节,而
FF 对应 Fish(鱼)的第一个音节。各 Viseme 的示意图像,请参阅
Viseme 参考图像。
如前所述,口型同步为热门游戏引擎提供插件,为原生开发提供 API。下表列出了有关安装以及如何将口型同步用于 Unity、Unreal 或原生 C++ 开发的主题指南链接。