百度端到端语音语言大模型发布,成本宣称最高降90%
IT之家 3 月 31 日消息,在今日的百度 AI DAY 上,百度发布首个基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型,宣布实现超低时延与超低成本,在电话语音频道的语音问答场景中,调用成本较行业均值下降约 50%-90%。
当日,文小言宣布品牌焕新,率先接入该模型,还带来多模型融合调度、图片问答等功能升级。接入该模型后,文小言不仅能支持更拟真的语聊效果,而且支持重庆、广西、河南、广东、山东等特色方言。据介绍,语音大模型具备极低的训练和使用成本,极快的推理响应速度,语音交互时,可将用户等待时长从行业常见的 3-5 秒降低至 1 秒左右。
更新后的文小言还支持“多模型融合调度”,整合了百度自研的文心 X1、文心 4.5 等模型,并接入 DeepSeek-R1 等第三方优质模型,实现了多模型间的智能协同。用户可以选择“自动模式”,一键调用最优模型组合,也可根据需求选择单一模型完成特定任务,提升响应速度与任务处理能力。
IT之家从活动中获悉,文小言还加强了图片问答功能,用户拍摄或上传图片,以文字或语音提问即可直接获取深度解析。例如,拍摄一道数学题可实时生成解题思路与视频解析;上传多款商品图可对比参数、价格,辅助购物决策。
此外,文小言新增“图个冷知识”功能,用户可预设“历史学者”“科技达人”等人设视角,为同一图片赋予多维解读。例如,当用户询问“猫窗探秘,为何猫爱窗边的科学真相?”,文小言能从狩猎本能、能量获取、领地意识等角度给出独特解读。
百度语音首席架构师贾磊透露,该模型是百度在业界首个推出、基于全新互相关注意力 (Cross-Attention) 的端到端语音语言大模型。“在语音场景满足一定交互指标下,大模型调用成本比行业平均降低 50%-90%,推理响应速度极快,将语音交互等待时间压缩至 1 秒左右,极大提升了交互流畅性。同时,在大模型加持下,实现了流式逐字的 LLM 驱动的多情感语音合成,情感饱满、逼真、拟人,交互听感也得到极大提升。”
-
Win10/Win11效率神器PowerToys发布0.91.1
IT之家 5 月 20 日消息,科技媒体 NeoWin 今天(5 月 20 日)发布博文,报道称微软更新 PowerToys,在最新 v0.91.1 版本中,持续改进 Command Palette,优化 Keyboard Manager 界面,并修复多项 BUG。IT之家援引博文介绍,PowerT
-
Oukitel发布全球首款模块化三防手机WP300
IT之家 5 月 19 日消息,Oukitel 称其最新的 WP300 坚固型手机是全球首款通过模块化设计,将智能手机、健身手环、无线耳机与露营灯功能集于一身的设备。WP300 一亿像素像素主摄旁的小屏幕是一个可拆卸的独立健身手环模块,包装内附赠腕带可供佩戴,更特别的是,手环模块还能作为蓝牙通话耳机
-
全方位降成本,上海助力新质生产力“拔节生长”
上海,寸土寸金之地,在上海创新创业,成本会不会很高?这是很多人关心的问题。聚力培育发展新质生产力,上海瞄准企业关心的创新成本、要素成本、营商环境等重点领域,以一系列实打实的举措,帮助企业降低综合成本、化解成本焦虑,推动新质生产力拔节生长。(中国证券报)
-
12GB实现128K上下文5会话,IBM预览Granite 4.0 Tiny模型
IT之家 5 月 10 日消息,IBM 本月 2 日介绍了其 Granite 4.0 系列模型中的最小版本之一:Granite 4.0 Tiny 的预览版本。Granite 4.0 Tiny Preview 的优势在于高计算效率和低内存需求:在 FP8 精度下,运行 5 个 128KB 上下文窗口的
-
京东宣布:这些人薪酬不设上限!
5月8日,“京东招聘”微信公众号发布消息,宣布“京东TGT—顶尖青年技术天才计划”全球启动。薪酬不设上限据介绍,该计划面向全球高校本硕博在校生、应届生及毕业两年内的技术人才开放招募,旨在与全球技术天才一起,基于京东丰富的业务场景探索前沿技术、用技术创造更多美好。 在人才培养方面,京东表示将采取“技术