首页 文章推荐 家电百科 实时讯息 常识

百度端到端语音语言大模型发布,成本宣称最高降90%

0次浏览     发布时间:2025-03-31 16:34:00    

IT之家 3 月 31 日消息,在今日的百度 AI DAY 上,百度发布首个基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型,宣布实现超低时延与超低成本,在电话语音频道的语音问答场景中,调用成本较行业均值下降约 50%-90%。

当日,文小言宣布品牌焕新,率先接入该模型,还带来多模型融合调度、图片问答等功能升级。接入该模型后,文小言不仅能支持更拟真的语聊效果,而且支持重庆、广西、河南、广东、山东等特色方言。据介绍,语音大模型具备极低的训练和使用成本,极快的推理响应速度,语音交互时,可将用户等待时长从行业常见的 3-5 秒降低至 1 秒左右。

更新后的文小言还支持“多模型融合调度”,整合了百度自研的文心 X1、文心 4.5 等模型,并接入 DeepSeek-R1 等第三方优质模型,实现了多模型间的智能协同。用户可以选择“自动模式”,一键调用最优模型组合,也可根据需求选择单一模型完成特定任务,提升响应速度与任务处理能力。

IT之家从活动中获悉,文小言还加强了图片问答功能,用户拍摄或上传图片,以文字或语音提问即可直接获取深度解析。例如,拍摄一道数学题可实时生成解题思路与视频解析;上传多款商品图可对比参数、价格,辅助购物决策。

此外,文小言新增“图个冷知识”功能,用户可预设“历史学者”“科技达人”等人设视角,为同一图片赋予多维解读。例如,当用户询问“猫窗探秘,为何猫爱窗边的科学真相?”,文小言能从狩猎本能、能量获取、领地意识等角度给出独特解读。

百度语音首席架构师贾磊透露,该模型是百度在业界首个推出、基于全新互相关注意力 (Cross-Attention) 的端到端语音语言大模型。“在语音场景满足一定交互指标下,大模型调用成本比行业平均降低 50%-90%,推理响应速度极快,将语音交互等待时间压缩至 1 秒左右,极大提升了交互流畅性。同时,在大模型加持下,实现了流式逐字的 LLM 驱动的多情感语音合成,情感饱满、逼真、拟人,交互听感也得到极大提升。”

相关文章
  1. 钉钉十周年:无招用AI回应“一切”

    中经记者 李立 杭州报道没有解释与过度表达,一身黑衣,黑色T恤背面印着醒目的“Be Crazy”,钉钉创始人、CEO陈航(花名:无招)用100分钟讲述了钉钉的AI新故事。8月25日,钉钉在杭州发布全新8.0版本。“钉钉8.0也是AI钉钉的1.0,我们决心清空过去,以归零心态,为AI时代打造一个全新的

    0 2025-08-26 13:31:00

  2. 国网西咸新区供电公司:新电价政策入企 好服务举措随行

    本报讯(通讯员 李元杰)为进一步推动陕西电网分时电价新政策的有效实施,帮助企业合理规划用电,降低用电成本,8月6日,国网西咸新区供电公司组织开展了走访企业宣传活动。此次活动旨在让企业深入了解新政策,充分享受政策红利,同时助力电力资源优化配置,保障电力系统安全稳定运行。自陕西省发展和改革委员会发布《关

    0 2025-08-11 17:16:00

  3. 为什么说大消费平台的关键基础设施是大会员体系?

    文 | 数字力场,作者 | 佘宗明14年前,在“投资界春晚”伯克希尔·哈撒韦股东大会上,股神巴菲特讲了个笑话:他跟老铁芒格旅行时遭遇劫机,劫匪说可以满足他俩每人最后一个愿望。芒格说,我要说下Costco(好市多)的优点,最好给我准备个PPT。劫匪认为很合理,之后又转向他,问“你呢?”他说,还是先把我

    0 2025-08-08 19:46:00

  4. 李斌:蔚来充电站、换电站都是行业布局数量第一

    IT之家 7 月 27 日消息,蔚来创始人、董事长、CEO 李斌今日发文介绍了蔚来 9 纵 11 横 16 大城市群高速换电网络全线打通的第三条线路 ——G1 京哈高速。据介绍,G1 京哈高速打通于 2021 年 9 月 20 日,蔚来在全长 1229 公里的线路上铺设了 21 座换电站,串联北京、

    0 2025-07-27 11:55:00

  5. 钉钉第三次转向

    “飞书多维表格比钉钉领先至少12个月。”今年7月,飞书CEO谢欣在接受媒体采访时说。已经很久没有一位掌门人如此点名道姓、简单直白地宣称自家产品领先竞争对手。他更是暗讽钉钉的AI功能:“如果你的办公工具主要不是在创作,而是在打卡,那一年的沉淀可能是1000万次的打卡数据,那大概率AI能帮你预测的是,明

    0 2025-07-21 10:35:00