当前位置：首页 > news >正文

YC 孵化项目 Pinch：实时语音翻译视频会议平台；Mistral OCR：能处理多语言多模态复杂文档丨日报

news 来源：原创 2025/8/22 17:14:50

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。

我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq，@鲍勃

01、有话题的技术

1、腾讯混元「图生视频模型」正式发布并开源

3 月 6 日，腾讯混元发布图生视频模型并对外开源，同时上线对口型与动作驱动等玩法，并支持生成背景音效及 2K 高质量视频。官方介绍，基于图生视频的能力，用户只需上传一张图片并简短描述，混元即可按照用户要求让图片动起来，变成 5 秒的短视频，还能自动配上合适的背景音效。此外，上传一张人物图片，并输入希望「对口型」的文字或音频，图片中的人物即可「说话」或「唱歌」；如果选择动作模版，还能一键生成同款跳舞视频。

腾讯混元表示，此次开源的图生视频模型，是混元文生视频模型开源工作的延续，模型总参数量保持 130 亿，适用于多种类型的角色和场景。开源内容包含权重、推理代码和 LoRA 训练代码，支持开发者基于混元训练专属 LoRA 等衍生模型。目前用户通过混元 AI 视频官网即可体验，企业和开发者可在腾讯云申请使用 API 接口使用；同时，混元视频生成开源模型目前在 Github、HuggingFace 等主流开发者社区均可下载体验。( @APPSO)

2、阿里发布开源模型 QwQ-32B，消费级显卡实现满血版性能

3 月 6 日凌晨，阿里云发布并开源全新的推理模型通义千问 QwQ-32B。官方称，这个新模型仅仅拥有 320 亿参数，但在性能上比肩 6710 亿参数的满血版 DeepSeek R1。

[图片]

目前，阿里云并未发布还完整技术报告，但官方数据显示，QwQ-32B 仅在编程竞赛（LiveCodeBench）和美国数学竞赛（AIME24）两项略逊于满血的 DeepSeek-R1，其余三项则全面超越。此外更是碾压完全超越了 OpenAI-o1-mini。

阿里云解释称，团队此次基于 Qwen2.5-32B 模型，探索了扩展强化学习（RL）的技术方案，并发现强化学习训练能够持续提升模型性能，尤其在数学与编程任务中表现显著。该团队还提到，通过持续扩展强化学习训练的规模，中型模型也可以实现与巨型混合专家模型（MoE）相媲美的性能。

此外，QwQ-32B 还满足更低的资源消耗需求，适合快速响应或对数据安全要求高的应用场景，开发者和企业可以在消费级显卡上将其部署到本地设备中，进一步打造高度定制化的 AI 解决方案。阿里称，QwQ-32B 已多个平台基于宽松的 Apache2.0 协议开源，所有人都可免费下载模型进行本地部署，或者通过阿里云百炼平台直接调用模型 API 服务。

值得一提的是，此前 OpenAI 曾因遇到技术瓶颈，将原来的 GPT5.0 降格为 GPT4.5 进行发布，之后还透露将降低强化学习训练的优先级，转向监督学习（SSL）和语言模型（LM）为核心的技术路线。而 QwQ-32B 的发布则证明了强化学习路线仍有潜力，可以继续提升模型的性能。

千问 QwQ-32B 模型中还集成了与智能体 Agent 相关的能力，使其能够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。（@网易新闻）

3、NotaGen 古典音乐生成模型

[图片]

NotaGen 是一个专注于生成高品质古典音乐的模型。它采用了类似 LLM 的训练范式，在超过 160 万首音乐作品上进行预训练而来。

就在昨天，官方开源了模型和代码。本次开源还包括了一个受 DeepSeekR1 启发的模型 Notagen-X，本地部署需要 24G 显存。

值得注意的是，该模型输出的不是音频文件，而是 ABC & xml 文件。（@三花 AI ）

4、沉寂很久的 Mistral AI 推出号称世界最强 OCR

欧洲 AI 明星公司 Mistral AI 今日发布 Mistral OCR，一款号称「世界最佳文档理解 API」的全新产品。

Mistral OCR 是一款光学字符识别（OCR）API，但它远不止于简单的文字识别。与其他模型不同，Mistral OCR 能够全面理解文档的每一个元素，包括媒体、文本、表格、公式等，并展现出前所未有的准确性和认知能力。它支持图像和 PDF 作为输入，并能从中提取出有序的、交错的文本和图像内容。

这种强大的理解能力使得 Mistral OCR 成为与 RAG（检索增强生成）系统结合使用的理想模型，尤其擅长处理多模态文档，例如幻灯片或复杂的 PDF 文件。

亮点

1. 顶尖的复杂文档理解能力： Mistral OCR 擅长理解复杂的文档元素，包括交错的图像、数学表达式、表格以及 LaTeX 等高级排版格式。这使得模型能够更深入地理解富文档，例如包含图表、图形、公式和图像的科学论文。

2. 原生多语言和多模态支持： Mistral OCR 天生具备多语言和多模态处理能力，能够处理多种语言和不同类型的内容。

4. 顶级的基准测试表现： Mistral OCR 在多项基准测试中都取得了领先地位，展现了其卓越的性能

5. 同类产品中最快速度： Mistral OCR 的轻量化设计使其速度远超同类模型，单节点每分钟可处理高达 2000 页的文档。快速的处理能力确保了即使在高吞吐量环境下也能持续学习和改进。

6. 「文档即提示」的结构化输出： Mistral OCR 创新性地引入了「文档即提示」的概念，用户可以使用文档作为提示，实现更强大、更精确的指令。它允许用户从文档中提取特定信息，并将其格式化为 JSON 等结构化输出。用户可以将这些结构化输出串联到下游函数调用和构建代理中。

8. 选择性提供自托管部署： 对于有严格数据隐私要求的组织，Mistral OCR 提供自托管选项。这确保了敏感或机密信息在您自身的基础设施内保持安全，符合监管和安全标准。（@AI 寒武纪）

02、有亮点的产品

1、Beats 联手 Sandy Liang 推出限量版 Solo 4 耳机
[图片]

近日，Beats 联手 Sandy Liang 推出限量版 Solo 4 耳机。据官方信息公布，联名款 Beats Solo 4 将采用银粉配色，耳机头梁部分加入粉色「蝴蝶结」设计。据了解，Beats Solo 4 采用定制的 40mm 音频单元，支持个性化空间音频和动态头部追踪；采用 USB-C 接口，支持 Fast Fuel 闪充技术，充电 10 分钟，即可持续播放 5 小时。
目前联名限量版 Beats Solo 4 已上架苹果美区官网，售价为 199.99 美元。
(@APPSO)

2、Captiwate：一款实现网站访客即时视频通话的销售工具

[图片]

（图片来源：Product Hunt）

Captiwate 是一个创新的销售和营销平台，其核心价值在于实现与高价值潜在客户的即时视频通话。该产品主要面向寻求提高销售效率和转化率的 B2B 企业和销售团队。Captiwate 解决了传统销售流程中无法及时把握客户意向的痛点，为用户提供了在最佳时机捕捉潜在客户的解决方案。在功能方面，产品的亮点包括即时视频通话功能和针对高价值潜在客户的精准定位。Captiwate 的差异化优势在于其能够在网站访客浏览时直接发起视频通话，大大提高了销售机会的把握。用户体验上，该产品强调赋能销售开发代表（SDRs），提高销售效率。

网站链接： https://www.captiwate.com/?ref=producthunt

( @Z Potentials)

3、Pinch：一款提供实时语音翻译的跨语言视频会议平台

Pinch 是一个创新的虚拟会议平台，其核心价值在于实现无障碍的跨语言沟通。该产品主要面向需要进行国际交流的企业、团队和个人用户。Pinch 解决了传统视频会议中语言障碍的痛点，为用户提供了一个能够实时翻译并让参与者听起来像母语使用者的解决方案。在功能方面，产品的亮点包括支持超过 30 种语言的实时语音翻译，以及沉浸式的会议体验。Pinch 的差异化优势在于其能够让用户在视频会议中以母语水平展现自己，大大提高了跨语言沟通的效率和自然度。

网站链接： https://startpinch.com/
( @Z Potentials)

02、有态度的观点

1、Anthropic CPO：AI 将进化为「智能引导者」

[图片]

近日，Anthropic CPO Mike Krieger 接受播客 20VC 采访，其透露了不少未来方向的思考。Mike 在采访中提到 AI 将超越「工具」或「助手」的局限，突破优秀的提示词工程的限制，并进化为「智能引导者」，主动洞察用户需求，指引方向，辅助决策，成为用户达成最重要目标的关键伙伴。Mike 还表示，未来软件开发人员需要掌握的技能，首先是跨学科的，或者说是多面手的。

并且他想象了未来三年软件开发工作的面貌：提出正确的想法，进行正确的人机交互设计，弄清楚如何正确地委托任务，然后弄清楚如何大规模地审查代码。此外，Mike 还与主持人谈及了 DeepSeek。Mike 表示，DeepSeek 从默默无闻到如今的火爆程度，令他不得不深思到底是哪一步有所失误；同时，他认为 DeepSeek 让更多人接触到了全新的 AI 体验过程，他也反思，Claude 也应该早点意识到并去努力实现。(@APPSO)

在这里插入图片描述

更多 Voice Agent 学习笔记：

世界最炙手可热的语音 AI 公司，举办了一场全球黑客松，冠军作品你可能已经看过

多模态 AI 怎么玩？这里有 18 个脑洞

AI 重塑宗教体验，语音 Agent 能否成为突破点？

对话 TalktoApps 创始人：Voice AI 提高了我五倍的生产力，语音输入是人机交互的未来

2024，语音 AI 元年；2025，Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管：打造通用 AI 助理，主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元，并预测了 2025 年语音技术趋势

语音即入口：AI 语音交互如何重塑下一代智能应用

在这里插入图片描述

01、有话题的技术

02、有亮点的产品

02、有态度的观点

相关文章：