RTE2024 AI 专场:从大模型厂商到B/C端的应用 生成式AI的新质生产力
生成式AI的高速发展,不仅持续驱动着大模型本身的变革,更为各行各业创造了无数令人激动和无限想象的空间。
在生成式 AI 的驱动下,实时互动体验正在迈向一个全新的高度。
企业新的竞争力=基座模型+组织+数据资产+业务场景。
AI 社交将成为社交新方式的补充。
IM产品有望借助大模型的能力,满足用户对社交产品的期望......
从情绪价值到新质生产力、从社交新方式到社交新构想。一场围绕 AI 自身进化与赋能的 RTE2024 AI 专场10月25日在北京成功举办。声网 AI RTE 产品线负责人姚光华、阿里云智能集团 通义千问高级产品架构师辛晓剑、智谱解决方案负责人吴同、MiniMax 商务总监王苏、Soul App AI算法技术总监刘忠亮、环信 IM 产品负责人王璨等嘉宾齐聚一堂,分别站在RTE行业、大模型厂商、B端以及C端视角,带来了他们对AI大模型发展的分享和预判。
实时互动进入AI+RTE的全新时代
作为离生成式 AI 最近的行业,实时互动正在迈向一个全新的高度。在RTE2024 AI 论坛上,声网 AI RTE 产品线负责人姚光华表示,在生成式AI的驱动下,实时互动带来的体验上将从“听得到”到“听得清”到“听得懂”再到今天的“听得心”,产品技术上也将完成从QoS、QoE到 MM QoE的标准革新。
据介绍,2014-2019年期间,声网专注于使用技术手段提升服务质量(QoS),聚焦确保文本、音频和视频等多模态内容能够进行高保真传输,进而利于终端用户进行内容消费,这一阶段被称为“SLA时代”。从2020年起,声网的产品从RTC转变成了RTE,重心从也服务质量转向了体验质量(QoE),并在2020年提出了“XLA”。在XLA时代,声网更关注用户在使用服务时感受到的流畅性、延迟和清晰度(音质、画质)等体验因素。
姚光华指出,实时互动正在进入AI+RTE的全新时代,生成式AI技术将实现跨模态的数据传输与体验优化。在未来的跨模态的 MM QoE,我们将看到音频、视频、文本模态互相转换成为可能。多模态交互和生成式AI技术的结合,将彻底改变用户的内容消费的体验方式。
从行业的情况来看,生成式 AI 时代的到来已经不同程度上刺激了需求的暴增,具体的需求内容也 RTE 转变成了AI+ RTE。据姚光华介绍,为了携手各行各业共创AI+ RTE未来,声网也正式推出了业内首个、为大模型设计的人类意图预测产品——Human Intention Prediction,其产品矩阵也逐渐演进到包含AI Streaming Service、Linux Server SDK for AI 以及 HIP(Human Intention Prediction)在内的基建、核心产品、核心服务、对外API的组合形态。
通义、智谱、MiniMax:大模型厂商谈企业级落地
自ChatGPT发布以来,全球大模型厂商的发展就迈入了百花齐放、你追我赶的历程。放眼国内市场,以通义、智谱、MiniMax 为代表的大模型厂商在技术创新与场景落地上的探索也在持续。
论大语言模型的发展速度,通义算得上首当其冲。自从阿里云发布“通义”系列模型以来,其就以惊人的速度屡次刷新行业认知。2024年9月推出了新一代模型——千问2.5,千问2.5也成为了整个开源应用技术最为广泛的模型之一。据悉,通义在很早之前就已经开始布局多模态,尤其是视觉多模态领域。不仅推出了包括音频理解、视频生成在内的多个大模型,还在模型基础之上,拓展了对话机器人等大模型原生应用。
阿里云智能集团通义千问高级产品架构师辛晓剑表示,通义的强大不止表现在大模型本身,在围绕企业级落地层面,通义千问也有着自己独特的优势。他指出,架构是否安全可信、效果如何优化、成本如何降低是大模型在企业级落地方面存在的普遍问题,针对这些问题,通义有着自己独特的解法。
在安全问题上,辛晓剑从内容安全、传输安全、数据存储安全三个方向进行了解读。内容安全上,通义千问会在模型训练环节就把原始训练语料里偏违规、有害的内容去除,并在训练后期用 强化方式做偏好对齐。此外,千问还会通过内容安全的产品去做输入/输出的安全内容拦截。传输安全上,通义千问不仅采用了私网隔离的内容传输方式,还结合了其他内容加密形式以保证传输的效率及链路安全。数据存储上,通义千问还增加了一个审计环节,用于保障端到端的传输安全。在效果以及成本优化上主要有两点,混合数据训练的方式将带来更显著的微调能力提升,按 Tokens 计费的形式也进一步降低了推理应用成本。
智谱解决方案负责人吴同也认为,大模型时代下,企业新的竞争力=基座模型+组织+数据资产+业务场景。大模型将在企业降本增效、构建新的产品和竞争壁垒层面发挥不可或缺的价值。
据悉,智谱已经形成了包括语音大模型、代码大模型、多模态大模型和超拟人大模型在内的智谱大模型矩阵,其全产品矩阵可以对标 OpenAI。
吴同介绍到,为了让更多企业在使用通用模型之外能更好的进行微调,智谱发布了新一代MaaS平台,客户仅需准备训练数据、创建微调任务、部署微调模型三个步骤就可以轻松完成模型微调。另外,智谱还发布了一款面向企业的AI Agent开发工具——智谱清流。智谱清流基于智谱全自研大模型架构底座,孵化企业级大模型Al应用开发平台,整合了多Agent的构建、工作流编排设计、开发、使用和管理,及知识沉淀功能,使得企业能够迅速定制企业级AI Agent,让企业无需专业编程即可快速构建高效行业应用,推动业务智能化和效率提升。
除了通义、智谱之外,MiniMax 也面向企业客户推出了大模型应用解决方案——MiniMax 开放平台,为企业和开发者提供安全、灵活、可靠的 API 服务,助力快速搭建 AI 应用。MiniMax 商务总监王苏介绍到,除了MiniMax 开放平台之外,MiniMax 还为企业级用户打造了专属的云上专区,为企业提供安全性及整体维度上的保障。
据介绍,MiniMax成立于2021年12月,是一家专注于推动通用人工智能技术突破的科技创业公司,致力于与用户共创智能。MiniMax 自主研发了不同模态的通用大模型,其中包括万亿参数的 MoE 文本大模型、语音&音乐大模型以及图像、视频大模型。基于不同模态的通用大模型,MiniMax还推出生产力工具海螺AI、沉浸式AI内容社区星野等原生应用。
Soul App、WPS: AI赋能 C 端场景探索无限可能
在AI的赋能之下,C 端应用又发生了哪些实践与革新呢?Soul App AI 算法技术总监刘忠亮和金山办公 WPS会议 产研负责人吴伟涛分别从社交和办公的角度,为我们解读了C 端场景下,AI 所带来的无限可能。
在社交层面,刘忠亮认为,未来一定存在AI社交的必然。在传统关系链接方式减弱、个体原子化的趋势下,AI将成为社交新方式的补充。对象多元化会让人会更注重情感质量,AI将更高效、更高质的提供情绪价值。科技普惠将让AI社交的成本急剧下降,AI可以为用户提供更个性化、更定制化的服务。 在这样的社交趋势洞察下,Soul 在AI方面的探索一直走到前列。
据刘忠亮介绍,自Soul 的AIGC研发工作启动以来,Soul X 垂类多模态大模型就持续在超人化、情感化、个性化和多模态方向不断升级迭代。值得一提的是,Soul 自研多模态交互系统升级到第二代后,该模型就拥有了类 GPT-4o 端到端实时音视频通话能力,且拟人化大幅度提升至接近真人程度。得益于声网RTC搭建的全双工架构,第二代自研系统可以实现用户侧端到端的延迟平均1.4秒,最快仅需1秒的效果。
刘忠亮表示,Soul未来在应用探索上将主要围绕人机协同和人机互动两大块。人机协同上,不擅长聊天破冰的用户可以借助Soul提供的AI聊天助理、AI分身等,更好、更快的聊起来,高质、高效的建立关系。人机互动上的探索主要集中在社交类、游戏类以及智能伴侣、智能房主等智能体上。
AI的大有可为不仅仅局限在社交领域,在办公协作上,WPS会议也在不断深挖AI能力,并用其惊人的能力表现为办公场景提质增效。金山办公 WPS会议产研负责人吴伟涛表示,目前大语言模型赋能在线会议的主要路径是将会后音频录制、会中实时音频通过离线/实时ASR模型转换为转文本信息,再利用LLM能力进行文字处理,最终转换为我们所看到的会议总结、智能章节、待办提取、发言人观点的提取等。
据悉,WPS会议在实践过程中已经支持云录制、AI智能章节、AI精华纪要、对话详情、智能问答等功能。为了让在线会议更轻松的被发起,WPS还在去年发布了全新的WPS 365办公新质生产力平台,并提供了WPS协作、WPS日历、WPS云文档、WPS邮箱在内的工作台,让使用者在这些场景下都可以做到轻松发起一场会议,会议的信息也可以在这些应用场景底下很轻松地流转和访问。与此同时,WPS 365办公新质生产力平台还为企业提供了各种可靠的方案,帮助他们完成灵活的部署。
吴伟涛认为,AI驱动会议协作应用场景未来的发展趋势是,大厂发挥平台作用,做好基础功能、开放能力和生态。小厂依托平台的开放能力,深入垂直场景,实现AI增值。
AI如何重新定义即时通讯
作为互联网上最为流行的通讯方式,IM 产品在生活中的应用价值无可替代。尽管如此,但IM产品在应用过程中,仍旧存在着诸多痛点。譬如,C端上历史数据利用率低 、未读消息积压 、重要信息难以查找 、群组活跃度低等问题。在B端上的主要表现为高人力投入和低运营效率 、内容管控难度大 、跨语言沟通障碍等。
针对这些问题,环信IM产品负责人王璨认为,在生成式AI时代下,IM与AI的结合一定会带来更多的创新,并且能够有效地帮助我们提升沟通效率。
在RTE2024 AI论坛上,王璨不仅分享了环信助力星野业务成长的案例以及涵盖云市场、PaaS 服务、应用场景在内的环信 IM PaaS 开发工具包,还详细介绍了环信借助大模型去解决社交产品C端、B端用户痛点的解决方案。他指出,在C端的效率维度上,环信IM借助AI实现了对话摘要、日程安排、消息编写以及语言翻译等场景助力。在情感维度,AI还可以实时提供表情建议、虚拟陪聊以及回复建议等功能。在B端上,环信IM主要提供了暖场机器人、智能回答、智能推荐、智能管理员等帮助企业降本增效的选项。
王璨表示,我们完全有理由相信,IM产品有望在未来借助大模型的能力连接数字世界与实体世界,满足用户对社交产品的期望。
从多位专家和从业者的分享中不难看出,生成式 AI 正在帮助各行各业的期待从想象变为现实。我们也相信,无论是新质生产力的赋能,还是新社交方式的革新,声网与 RTE 都将在其中发挥至关重要的价值,携手共创新时代的繁荣。