💡互联网/数码/App/羊毛/相机/数字指南
📨商务联系:@appdo_bot (唯一,谨防诈骗)
📰独立网站:appdo.xyz 🧑🏻💻博客 song.al
📷浮生东京 @LifeJapan
Buy ads: https://telega.io/c/AppDoDo
📨商务联系:@appdo_bot (唯一,谨防诈骗)
📰独立网站:appdo.xyz 🧑🏻💻博客 song.al
📷浮生东京 @LifeJapan
Buy ads: https://telega.io/c/AppDoDo
▎小米开源 OmniVoice:一个模型覆盖 600+ 语言的语音克隆 TTS
小米 AI 实验室新一代 Kaldi 团队发布并开源了多语言语音克隆 TTS 模型 OmniVoice。这个模型主打“一个模型覆盖 600+ 语种”,目标是解决现有语音克隆模型多语言覆盖不足、低资源小语种难以合成的问题。官方称,OmniVoice 覆盖 646 种语言,在中英文合成、多语言语音克隆和低资源语种泛化上都达到了较强表现。
OmniVoice 完全基于开源数据训练。团队收集了 50 个开源语音数据集,经过降噪和质量筛选后,构建了覆盖 646 种语言、总时长 58 万小时的多语言训练数据集。为了照顾低资源语言,训练中还使用了动态上采样策略。官方测试显示,在 24 种语言测试中,OmniVoice 的语音相似度和可懂度超过多款商用系统;在 102 种语言测试中,其可懂度接近甚至优于真实语音。
OmniVoice 支持跨语言语音克隆,也就是只提供一种语言的参考音频,就可以生成另一种语言的同音色语音。它还支持文本描述生成音色,例如指定性别、年龄、音调、方言、口音,甚至耳语风格;能处理带噪参考音频,自动提取较清晰的音色特征;还支持笑声、叹气等语气符号,以及对中文多音字、英文专有名词等发音问题进行纠正。
这次开源内容包括训练代码、推理代码和模型权重。项目同时提供论文、GitHub 仓库、语音样本页面、Hugging Face Demo Space 和模型权重。对开发者来说,OmniVoice 的意义在于把多语言语音克隆的门槛进一步降低,尤其是过去很难覆盖的小语种,现在有机会通过一个统一模型获得可用的 TTS 能力。
频道 @AppDoDo 官推 APPDOTG
▎Claude母公司 与 SpaceX 达成算力合作
Anthropic 宣布已与 SpaceX 达成算力合作,将大幅增加 Claude 的可用计算资源。受此影响,Claude Code 和 Claude API 的使用限制从即日起上调,主要面向高频使用者和开发者。
根据 Anthropic 公告,Claude Code 的五小时速率限制将在 Pro、Max、Team 以及按席位计费的 Enterprise 计划中翻倍;同时,Pro 和 Max 账户在高峰时段的 Claude Code 限制下调机制也将取消。Claude Opus 系列模型的 API 速率限制也将提高。
算力方面,Anthropic 表示已签署协议,将使用 SpaceX Colossus 1 数据中心的全部计算容量。该合作将在一个月内为 Anthropic 带来超过 300 兆瓦的新容量,规模超过 22 万块 NVIDIA GPU,并将直接改善 Claude Pro 和 Claude Max 订阅用户的可用容量。
Anthropic 还提到,除 SpaceX 合作外,公司此前已公布与 Amazon、Google、Broadcom、Microsoft、NVIDIA 以及 Fluidstack 等机构的算力和基础设施合作。公司称,Claude 的训练和推理会同时使用 AWS Trainium、Google TPU 和 NVIDIA GPU 等多种 AI 硬件。
频道 @AppDoDo 官推 APPDOTG