据站长之家 9 月 12 日报道,美国 IT 巨头微软近日与 Project Gutenberg(古腾堡工程)合作,利用人工智能技术为该工程的电子书库制作了超过 5000 本高质量的有声书。这一项目中,研究人员结合了机器学习、自动文本选择和自然语音合成等多项 AI 技术,实现了电子书自动转化为语音的全流程。
项目团队首先开发出一种算法,可以自动分析电子书的结构,区分正文和非关键部分的页码、表格等,然后使用 WaveNet、Tacotron 和 FastSpeech 等前沿的文本转语音技术,生成类似真人的自然朗读语音。此外,该团队还使系统能够辨别书中叙述者、对话和不同角色,并相应调整语音,实现故事情节的语音表达。据悉,此次计划已收集整理了超过 35000 小时的有声书语音数据,涵盖了各类经典文学、戏剧、传记等作品,这些语音数据都将以开源方式免费提供。
巴比特注,古腾堡工程(Project Gutenberg)是免费数字图书馆计划,用户可以在其网站免费阅读和下载超过7万本电子书。古腾堡工程标志该工程肇始于1971年,是最早的数字图书馆。
原文链接