科学家在国际顶级期刊发表脑机接口新论文

2024-05-16 15:58:59.0     

文章的两位一作是年轻的中国科学家,本科均毕业于清华大学,在纽约大学攻读博士学位。他们的这篇工作利用基于深度学习和语音生成技术进行从脑电到语音解码,获得了国际领先的实验结果,相关成果获得了深度学习领域大牛 Yann Lecun 的关注和转发。

脑机接口(BCI)在科研和应用领域的进展在近期屡屡获得广泛的关注,大家通常都对脑机接口的应用前景有着广泛的畅享。比如,由于神经系统的缺陷造成的失语症不仅严重阻碍患者的日常生活,还可能限制他们的职业发展和社交活动。随着深度学习和脑机接口技术的迅猛发展,现代科学正向着通过神经语音假肢来辅助失语者重新获得交流能力的方向迈进。脑机接口在解码人的语音、动作等信号方面已经有了一系列激动人心的进展。特别值得一提的是,埃隆·马斯克(Elon Musk)的Neuralink公司在这一领域也取得了突破性进展。该公司成功地在一位试验对象的大脑中植入了电极,实现了通过简单的光标操作来进行打字、游戏等功能。这标志着我们在向更高复杂度的神经-语音/动作解码迈进的路上又进了一步。相比于其他脑机接口技术,神经-语音解码的复杂性更高,其研发工作主要依赖于特殊的数据源——皮层电图(ECoG)。

皮层电图在临床上主要是从进行癫痫治疗的患者那里收集的,因为这些患者通常会植入电极以监测大脑活动。研究人员利用这些电极,在发音时收集大脑皮层的数据。这些数据不仅具有高度的时空分辨率,而且已经在语音解码研究中取得了显著成果,极大地推动了脑机接口技术的发展。通过这些先进技术的帮助,未来我们有望看到更多患有神经障碍的人士重获交流的自由。

当前的神经信号到语音解码研究面临两大挑战。首先,数据量有限:每个病人的训练数据通常只有十分钟,这对深度学习模型来说是个难题。其次,语音的多样性增加了建模难度,即便同一人重复发音,语速和语调也可能不同。早期研究使用的模型不需要大量数据且易于理解,但准确率较低。近期,随着新技术的发展,研究者在提升语音合成质量上取得了进展。例如,一些方法解码大脑活动为口型运动,再转化为语音,但重建的声音往往不够自然。一些新方法能改善语音的自然度,但准确度仍需提高。最近有一项研究使用了一种新的特征结合预训练语音合成器,将这些特征转化为语音,这不仅提高了语音的自然度,也保持了高准确性。然而,这种方法生成的声音无法体现发音者的独特特征,还需要进一步改进。此外,当前大多数研究方法可能在实际应用中存在局限。

2024年4月8日,纽约大学VideoLab和Flinker Lab联合在《Nature Machine Intelligence》杂志上发表了一项突破性研究。这项名为“A neural speech decoding framework leveraging deep learning and speech synthesis”的研究,由两名中国博士生领导,介绍了一个创新的可微分语音合成器。该合成器结合了轻量级卷积神经网络,能够将语音编码为一系列可解释的语音参数,如音高、响度和共振峰频率等,并利用可微分的技术重新合成语音。

此研究通过将神经信号映射到这些具体的语音参数,成功构建了一个高度可解释并适用于小数据集的神经语音解码系统。这一系统不仅能重构出高保真且听起来自然的语音,而且为未来脑机接口应用的高准确性提供了实证基础。研究团队共收集了48位受试者的数据,并在这一基础上进行了语音解码的尝试,为高精度脑机接口技术的实际应用和发展打下了坚实的基础。

研究团队开发了一种新型的可微分语音合成器,这一合成器使用轻型卷积神经网络将语音编码为一系列可解释的参数,如音高、响度和共振峰频率等,并利用同一可微分合成器对语音进行重新合成。通过将神经信号映射到这些参数上,研究者们构建了一个高度可解释并适用于小数据集的神经语音解码系统,能够生成自然听感的语音。这一系统在48名参与者中表现出高度的可复现性,能够处理不同空间采样密度的数据,并能同时处理左、右脑半球的脑电信号,展示了其在语音解码方面的强大潜力。

未来,研究团队希望建立能够处理非网格数据的模型架构,并更有效地利用多病人、多模态的脑电数据。随着硬件技术的持续进步和深度学习技术的快速发展,脑机接口领域的研究仍处于早期阶段,但随着时间的推移,科幻电影中的脑机接口设想将逐步成为现实。

分享到: