欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://app.aibase.com/zh
1、可灵 AI上线主体库:模型拥有记忆能力 角色“永不变脸”
可灵 AI 发布「主体库」,为 O1 多模态视频模型添加长期记忆能力,实现角色一致性超过 96%,彻底告别 AI 变脸问题。用户可通过上传单张角色图生成 3D 视角补全、多光线变体,并支持跨场景一键调用。
【AiBase提要:】
✨ 主体库三步流程:上传、补全、调用,提升角色一致性
🎨 AI 智能描述功能,自动提取关键词并提升生成成功率
🚀 主体库与 O1 模型统一入口,实现文本-图像-视频无缝衔接
2、开口即角色!阿里 Qwen3-TTS 登场:49 种音色 + 10 语言 9 方言,WER 碾压主流商用模型
阿里巴巴推出Qwen3-TTS,具备零样本、多角色、跨语言特性,显著优于主流商用引擎,适用于教育、直播、客服等场景。
【AiBase提要:】
🎧 49种高品质音色,覆盖多种场景
🌐 支持10种语言和9种中国方言
📉 WER显著优于主流商用模型
详情链接:https://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo
3、406B参数空降!腾讯混元2.0开启内测,推理性能自称“国内第一梯队”
腾讯发布新一代自研大模型混元2.0,包含Think和Instruct两个版本,具备强大的推理能力和指令遵循能力。该模型在数学、科学和代码等复杂任务中表现优异,并已上线腾讯云API及部分应用。
【AiBase提要:】
🧠 混元2.0采用MoE架构,提升推理速度40%。
📊 Think版在IMO和哈佛-MIT竞赛中准确率分别达83.1%与81.7%。
💰 腾讯云API定价仅为GPT-4o的45%,支持企业私有化部署。
4、美团重磅开源 6B 参数图像生成模型 LongCat-Image,中文文字生成与图像编辑达SOTA水平
美团 LongCat 团队推出的 LongCat-Image 图像生成模型以 6B 参数规模实现了高性能与低门槛的结合,尤其在中文文字生成和图像编辑方面表现出色,达到了开源 SOTA 水平。该模型通过系统性训练策略和数据工程,确保了多样化的指令下仍能保持高效性能和准确性。此外,LongCat 团队希望通过开源构建一个透明、开放、协作的生态系统,鼓励开发者参与模型的使用与共建。
【AiBase提要:】
🧠 LongCat-Image 模型在图像编辑领域达到开源 SOTA 水平,展现了强大的指令遵循和视觉一致性能力。
🖋️ 模型针对中文文字生成进行了优化,能够支持复杂笔画结构汉字的渲染,满足多种场景需求。
🎨 LongCat 团队通过开源方式构建透明、开放的生态系统,鼓励开发者参与模型共建与使用。
详情链接:https://longcat.ai/
5、京东云JoyBuilder支持GR00T N1.5千卡训练,引领具身智能迈向规模化落地
京东云JoyBuilder平台通过全栈优化,成功支持GR00T N1.5千卡级训练,训练效率提升3.5倍,推动具身智能规模化发展。
【AiBase提要:】
🧠 京东云JoyBuilder平台完成关键升级,成功支撑GR00T N1.5千卡级训练。
🚀 平台在训练效率上实现3.5倍提升,显著加速具身智能规模化落地进程。
🌐 支持最新LeRobot训练数据协议,确立行业领先地位。
6、英伟达4B小模型逆袭!单任务成本竟是 GPT-5 Pro 的 1/36
英伟达的4B小模型 NVARC 在最新 ARC-AGI2 评测中以27.64% 的优异成绩击败 GPT-5Pro,展示了其强大的性能和成本优势。NVARC 通过创新的零预训练方法和合成数据生成策略,显著提升了模型的适应能力和效率。
【AiBase提要:】
🧠 NVARC 采用零预训练深度学习方法,避免了传统大规模数据集的领域偏见和数据依赖问题。
💡 NVARC 利用 GPT-OSS-120B 生成高质量合成谜题,降低实时计算资源需求。
🚀 NVARC 的 TTFT 技术使其能够快速适应新任务规则,提升模型效率。
7、微博 CEO 回应 AI 手机能自主发微博仍需确认
微博 CEO 王高飞回应了关于豆包 AI 手机能自主发微博的问题,指出虽然该功能已具备,但仍需用户确认。同时,豆包 AI 手机在主流应用中面临登录问题,引发了对 AI 操作能力的讨论。王高飞提到,部分游戏类应用能检测到 AI 控制,限制了 AI 助手的使用。
【AiBase提要:】
🤖 微博 CEO 王高飞表示,AI 手机能否自行发微博仍需确认,但已有相关能力。
📱 豆包 AI 手机在主流应用中遭遇登录限制,引发对其 AI 操作能力的讨论。
⚙️ 目前,AI 助手仍需手动操作某些应用,显示出技术发展的瓶颈和未来的挑战。
8、微软推出 VibeVoice-Realtime:实时文本转语音新模型,助力互动式应用
微软最新推出的 VibeVoice-Realtime-0.5B 模型是一款轻量级的实时文本转语音(TTS)系统,支持流式输入和长篇语音输出。该模型能够在300毫秒内开始生成语音,适合用于代理式应用和实时数据讲述。其采用交错窗口设计,优化了延迟并提升了语音合成质量,在 LibriSpeech 测试中取得了2.00%的字错误率,表现优越。
【AiBase提要:】
🌟 支持流式文本输入,可在300毫秒内开始输出语音,适合实时交互应用。
🛠️ 使用低延迟的声学标记器,以7.5赫兹的速度生成声学特征,优化长篇语音合成。
📈 在 LibriSpeech 测试中,VibeVoice-Realtime 的字错误率为2.00%,表现优越,适合多种应用场景。
详情链接:https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B
(举报)
伊甸园真容现世新疆于阗
在线免费阅读/精美PDF版免费下载

微信扫一扫打赏
支付宝扫一扫打赏

