欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://app.aibase.com/zh
1、Gemini 3 Flash登场:免费、极速、智力反超Pro,谷歌AI全面进入“零延迟”时代
谷歌发布新一代轻量级模型Gemini3Flash,其响应速度达到前代三倍、近乎‘零延迟’,并在多项高难度基准测试中反超同代旗舰Gemini3Pro,成为史上首个在同期对比中‘小弟干翻大哥’的Flash模型。
【AiBase提要:】
🧪 在代码修复权威榜单SWE-bench上,Gemini3Flash以78%得分小幅领先Gemini3Pro(76.2%)
🧠 在博士级推理测试GPQA Diamond中拿下90.4%高分
⚡ 在极难综合评估Humanity’s Last Exam中取得33.7%成绩,显著优于前代旗舰Gemini2.5Pro
2、火山引擎FORCE大会亮剑:豆包大模型1.8+Seedance 1.5 Pro发布,日均50万亿Tokens登顶中国第一
火山引擎FORCE大会发布了豆包大模型1.8和视频生成模型Seedance 1.5 Pro,并推出“AI节省计划”,旨在降低企业使用大模型的成本门槛。豆包大模型1.8在多个关键维度有显著提升,而Seedance 1.5 Pro则提升了视频生成质量与一致性。此外,豆包大模型日均Tokens使用量已突破50万亿,稳居中国第一、全球第三,标志着其从技术产品走向大规模产业应用。
【AiBase提要:】
🧠 豆包大模型1.8在推理、多语言、代码生成与工具调用等关键维度实现显著提升。
🎥 Seedance 1.5 Pro支持更长时长、更高帧率的可控视频内容创作,为短视频、广告、游戏等领域提供工业化级视觉生成能力。
💰 “AI节省计划”通过模型压缩、推理优化、资源调度等技术手段,降低企业使用大模型的成本门槛。
3、苹果开源 SHARP 模型:告别漫长等待,1秒让平面照片跃升3D 空间
苹果公司近日开源了名为 SHARP 的新型 AI 模型,该模型能够将一张普通的2D照片转化为具有真实物理比例的3D场景,仅需不到一秒钟。SHARP的核心技术是“3D高斯泼溅”技术,它通过深度训练掌握了通用的空间几何规律,只需一次快速扫描就能预测出数百万个带有光影信息的“高斯球”位置。SHARP的成像质量领先于业内最强模型,支持真实的相机移动模拟。目前,苹果已将SHARP的完整代码及资源发布在GitHub平台供全球开发者下载。
【AiBase提要:】
⚡ 速度实现量级突破 : SHARP 模型将2D 转3D 的处理速度提升了三个数量级,实现了不到一秒的近乎实时转换体验。
🌐 领先的3D 生成技术 :基于3D 高斯泼溅技术,模型通过单次神经网络前馈即可预测数百万个3D 点位,精准还原真实物理比例。
🔓 全面开源生态 :苹果已在 GitHub 开源 SHARP 的代码与资源,旨在加速全球开发者在空间计算和3D 内容领域的创新。
4、Meta发布SAM Audio:全球首个支持“点击分离声音”的多模态音频模型,一键提取吉他声、人声或狗叫
Meta发布了SAM Audio,这是全球首个支持多模态音频分离的模型,能够通过文本、视觉和时间片段提示,一键提取目标声音,如吉他声、人声或狗叫。该技术首次将人类自然感知声音的方式复刻到AI系统中,具有革命性的意义。
【AiBase提要:】
🎧 文本提示:通过语义描述提取对应声源。
👁️ 视觉提示:点击视频中的发声物体分离音频。
⏱️ 时间片段提示:标记时间区间自动处理同类声音。
详情链接:https://ai.meta.com/samaudio/ https://github.com/facebookresearch/sam-audio
5、MiniMax通过港交所上市聆讯,国产大模型“第一股”或将花落上海
MiniMax通过港交所上市聆讯,有望成为首家登陆资本市场的国产大模型公司,其核心资产为大语言模型与多模态生成技术,这标志着资本市场对大模型商业化路径的认可度提升,并可能为后续AI公司IPO开辟通道。
【AiBase提要:】
🚀 MiniMax通过港交所上市聆讯,成为首家登陆资本市场的国产大模型公司。
💼 其核心资产为大语言模型与多模态生成技术,不同于传统计算机视觉企业。
📈 若成功上市,将验证资本市场对大模型商业化路径的认可度,并可能为后续AI公司IPO开辟通道。
6、OpenAI 正式官宣:开发者可向ChatGPT提交应用程序
OpenAI 向全球开发者开放 ChatGPT 应用提交权限,标志着 ChatGPT 进阶为 AI 原生应用平台。开发者可通过最新指南提交作品,通过审核后将出现在 ChatGPT 应用目录中,赋予 ChatGPT 实操能力。
【AiBase提要:】
🚀 生态大门开启:OpenAI 开放应用提交,开发者可将功能整合进 ChatGPT 供全球用户发现。
🛒 应用目录上线:用户可通过工具菜单或访问 chatgpt.com/apps 搜索和浏览精选 AI 应用。
💰 盈利前景明确:支持链接外部网站交易实体商品,并计划探索数字商品变现模式。
7、千问 App 接入高德:阿里 AI 走入现实世界
千问 App 接入高德地图,标志着其具备了物理世界的理解与行动能力,能够处理复杂的现实场景需求,并计划进一步接入更多核心场景,打造一个强大的超级入口。
【AiBase提要:】
🚀 千问 App 接入高德地图,实现从回答问题到地理空间推理的跨越。
🧭 千问能生成可视化决策卡片,直接唤起导航或打车服务。
🛍️ 阿里计划将千问打造为能调用现实履约网络的超级入口。
8、微软开源 TRELLIS.2:一键将图片转为高精度 3D 模型
微软开源了TRELLIS.2,这是一款高效的图像到3D模型生成工具,能够快速生成高质量的3D模型,并且支持多种平台使用。TRELLIS.2在NVIDIA H100显卡的支持下表现出色,能够在极短时间内完成高分辨率模型的生成。此外,它还提供了PBR四件套贴图,非常适合电商场景的应用。
【AiBase提要:】
🌟 TRELLIS.2是一款微软开源的图像到3D模型生成工具,能迅速生成高质量3D模型。
⏱️ 该工具在NVIDIA H100显卡上生成512³分辨率模型仅需3秒,效率极高。
🛒 附带PBR四件套贴图,方便电商用户快速将产品转为3D展示。
详情链接:https://huggingface.co/microsoft/TRELLIS.2-4B
9、xAI 推最快语音代理 API,支持中文实时搜索与情绪控制
xAI 发布的 Grok 语音代理 API 在实时语音 AI 领域展现出卓越性能和极具竞争力的价格。该模型在音频推理基准测试中表现优异,响应速度远超竞品,并支持多语言自动检测、实时网页搜索与情绪控制等功能,为开发者提供了强大的工具。
【AiBase提要:】
🔥 Grok 语音代理 API 以每分钟 0.05 美元的价格推出,性价比极高。
🌐 支持包括中文在内的多种语言自动检测与自由切换,适应全球用户需求。
🧠 深度集成实时网页搜索与推理能力,确保回复内容紧跟最新资讯。
10、豆包AI眼镜明年上市!联合润欣科技、老凤祥打造 2000 元内智能穿戴新品
豆包AI眼镜即将在 2025 年初上市,由火山引擎提供技术支持,润欣科技负责硬件设计,并与老凤祥合作打造时尚外观。该产品定价 2000 元以内,支持实时语音助手、环境感知等场景化功能,标志着字节跳动以“大模型+硬件+渠道”策略抢占下一代人机交互入口。
【AiBase提要:】
🧠 豆包AI眼镜依托火山引擎的RTC技术,实现低延迟语音交互与云端协同。
💼 联合润欣科技和老凤祥,打造融合大模型能力的亲民级AI眼镜。
🛒 定价 2000 元以内,预计 2025 年初上市,推动智能穿戴走向生活刚需。
(举报)
伊甸园真容现世新疆于阗
在线免费阅读/精美PDF版免费下载

微信扫一扫打赏
支付宝扫一扫打赏

