文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。多年来,微软亚洲研究院机器学习组和微软 Azure 语音团队持续关注语音合成领域的研究与相关产品的研发。为了合成既自然又高质量的人类语音,NaturalSpeech 研究项目(https://aka.ms/SpeechResearch)应运而生。 NaturalSpeech 的研究分为以下几个阶段: 1)第一阶段,在单个说话人上取得媲美人类的语音质量。为此,研究团队在2022年推出了 NaturalSpeech 1,在 LJSpeech 语音合成数据集上达到了人类录音水平的音质。 2)第二阶段,高效地实现多样化的语音合成,包含不同的说话人、韵律、风格等。为此,该联合研究团队在2023年推出了 NaturalSpeech 2,利用扩散模型(diffusion model)实现了 zero-shot 的语音合成,只需要几秒钟的示例语音(Speech prompt)模型就能合成任何说话人、韵律、风格的语音,实现了零样本语音合成的重要突破,为语音合成技术的未来发展带来了无限可能。 3)当前,研究团队正在开展第三阶段的研究,为达到高自然度(高质量且多样化)的语音合成这一目标,乘势而上,开创新局面。三大创新设计,让 NaturalSpeech 2脱颖而出于近期发布的新一代语音合成大模型 NaturalSpeech 2,经历了上万小时、多说话人的语音数据集训练,并采用了 zero-shot(预测时只提供几秒钟的目标示例语音)的方式合成新的说话人、韵律、风格的语音,以实现多样化的语音合成。 要想达到良好的 zero-shot 训练效果,面临极大挑战。先前的方法是将语音量化成离散 token,并用自回归语言模型进行建模(例如 AudioLM)。但这种方法存在很大的局限性:自回归模型面临严重的错误传播(error-propagation)问题,导致生成语音质量低下、鲁棒性差,韵律失调以及重复、漏词等问题。同时还容易陷入离散 token 量化和自回归建模的两难困境(如表1所示),即要么离散 token 难以以较高质量还原语音,要么自回归模型难以适应多样化的语音合成需求。 为了克服这些问题,我们采用了一种基于深度学习的自回归模型架构,该模型不仅具有自回归模型的优势,还能有效地解决错误传播问题。我们使用了一种基于注意力机制的自回归模型,并在此基础上进行了一系列优化,以实现更好的语音合成效果。我们还将自回归模型与神经网络架构相结合,通过多层神经网络对语音进行建模,进一步提高了语音合成
公司旗下具有GitHub、OUTLOOK、Microsoft Teams、Microsoft Office、微软Xbox、Edge浏览器、Windows、IE浏览器、SQL Server、微软拼音输入法、MicrosoftHoloLens、微软Lumia、OneDrive、Microsoft Dynamics 365、微软Surface、Bing必应、MicrosoftAzure、Microsoft Access、Microsoft微软、Bing Wallpaper等知名品牌,发布过微软翻译、Microsoft Excel、Microsoft Office、Microsoft PowerPoint、Microsoft Word、Outlook、OneNote、Teams、公司门户、To-Do、Authenticator、OneDrive、微软桌面、Microsoft Edge、Power BI、Power Apps、微软小英口语大师、Edge、连接至 Windows、To Do等应用,其最主要app微软翻译是一款微软翻译是一款免费的个人翻译应用,使用微软最新的人工智能技术,可将文本、语音、会话、照片和截屏翻译成60种语言,帮助你交流和学外语。您还可以免费下载离线语言包以便在旅行途中使用! • 将文本翻译成60余种语言,可在线或离线使用。 • 拍照翻译功能,可直接翻译相片和截屏内的文字。 • 语音翻译功能可实现单人使用,以及双人对话的分屏模式实时翻译。 • 多人多语言会话翻译——连接多个设备并跨越多个语种与最多100人进行面对面会话,每个人都可以选择自己的语言。 • 收录了多种出国旅游场景的常用语手册与发音指引,帮助您在旅途中学习外语。 • 查看单词的多种翻译与意思,为您找到用于表达自我的最佳翻译。 • 下载离线语言包,以便您在没有网络连接时使用。 • 听取译文的读音,帮助您学外语,旅游和海外购物。 • 与其他应用共享翻译结果。 • 标注并保存您最常用的译文以便以后使用。 • 通过上下文菜单翻译功能翻译其他应用中的文本。 • 对您的 Android Wear 智能手表说话,立刻获得翻译。 • 自动在您的手机与 Android Wear 智能手表之间同步译文。 微软翻译支持以下语言: 南非荷兰语、阿拉伯语、孟加拉语、波斯尼亚语(拉丁字母)、保加利亚语、广东话(繁体中文)、加泰罗尼亚语、中文(简体)、中文(繁体)、克罗地亚语,捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、斐济语、菲律宾语、芬兰语、法语、德语、希腊语、海地克里奥尔语、希伯来语、印地语、苗语、匈牙利语、印度尼西亚语、意大利语、日语、斯瓦西里语、韩语、拉脱维亚语、立陶宛语、马儿加什语、马来语、马耳他语、挪威语、波斯语、波兰语、葡萄牙语,欧托米语、罗马尼亚语 、俄语、塞尔维亚语(西里尔字母)、塞尔维亚语(拉丁字母)、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、塔希提语、泰语、土耳其语、乌克兰语、乌尔都语、越南语、威尔士语与尤卡坦玛雅语。 微软翻译使用最新的人工智能翻译技术,该技术还使用在众多微软产品中,如 Office、Bing、Skype、Internet Explorer。以及合作公司产品中, 如Twitter、Yelp、eBay、微信等。 位置许可:我们仅将使用您的位置为您显示会话发生的地点。我们将在您的会话历史记录中显示该地点信息。 *某些功能不支持所有语言。
招聘范围主要集中在苏州、上海、北京,主要招聘经验要求为5-10年,学历要求为本科的岗位。
公司参与中标27次,中标金额为4124.20(万元),最近项目为:泰康保险集团股份有限公司总部2025年微软技术支持和现场人天服务项目结果公告、天翼云2025年存量业务软件维保采购项目直接采购公示、2025年度微软产品版权服务(XJ-DYLY-2500012)单一来源公示。