2025年1月20日,一款名为豆包的实时语音大模型正式发布。这款大模型专注于语音理解和生成的一体化,能够实现端到端的语音对话,主要服务于中文语境和场景,同时也支持英语对话,但暂时不支持多语种交互。在中文范围内,它对部分方言和地方口音的理解和表达也有限制,未来还有较大的改进空间。
豆包实时语音大模型的一个显著特点是其接近真人水平的语音表达能力,这得益于语音和语义的联合建模技术。该模型在语音表现力、控制力以及情绪承接方面表现出色,并且具有低延迟、允许对话中随时打断等特性。这些功能使得与豆包的互动更加流畅自然,减少了人机交流中的机械感。
值得注意的是,豆包被设计为直接与OpenAI最新的GPT-4o大模型竞争。根据外部真实众测的结果,豆包在整体满意度上超越了GPT-4o,特别是在语音语气的自然度和情绪饱满度方面,展现出更优越的情商,能够更好地捕捉和回应人类的情感信息。此外,豆包贴合中国用户的实际需求,从一开始就面向广大用户提供服务,而不仅仅停留在演示阶段。
在用户评价方面,豆包获得了4.36分的整体满意度评分(满分5分),其中一半的测试者给予了满分。这一成绩表明,相较于GPT-4o的3.18分,豆包在用户体验上占据了明显的优势。
为了达到这样的效果,豆包团队开发了一套端到端框架,通过深度结合语音和文本模态来增强语音生成和理解的能力。预训练阶段,利用大量交织的数据进行训练,以高效地压缩语音信息并实现两种能力的融合。而在后训练阶段,则采用了高质量数据和强化学习算法,进一步提升模型的对话能力和安全性,同时确保“智商”与“情商”的平衡。
随着豆包等先进语言模型的发展,它们不仅改变了AI产品的人机交互体验,还推动了AI玩具等硬件领域的发展。这些AI玩具具备面部识别、语音识别和自然语言处理等功能,可以提供个性化和情感化的陪伴,满足用户的教育和娱乐需求。据广发证券分析,AI玩具市场是一个有真实需求的方向,预计会成为AI硬件落地的重要领域之一,涉及的公司包括实丰文化、汤姆猫、奥飞娱乐等。