RTE2024 AI 专场：从大模型厂商到B/C端的应用生成式AI的新质生产力

2024-11-04 17:04:33 8阅读

生成式AI的高速发展，不仅持续驱动着大模型本身的变革，更为各行各业创造了无数令人激动和无限想象的空间。

在生成式 AI 的驱动下，实时互动体验正在迈向一个全新的高度。

企业新的竞争力=基座模型+组织+数据资产+业务场景。

AI 社交将成为社交新方式的补充。

IM产品有望借助大模型的能力，满足用户对社交产品的期望......

从情绪价值到新质生产力、从社交新方式到社交新构想。一场围绕 AI 自身进化与赋能的 RTE2024 AI 专场10月25日在北京成功举办。声网 AI RTE 产品线负责人姚光华、阿里云智能集团通义千问高级产品架构师辛晓剑、智谱解决方案负责人吴同、MiniMax 商务总监王苏、Soul App AI算法技术总监刘忠亮、环信 IM 产品负责人王璨等嘉宾齐聚一堂，分别站在RTE行业、大模型厂商、B端以及C端视角，带来了他们对AI大模型发展的分享和预判。

实时互动进入AI+RTE的全新时代

作为离生成式 AI 最近的行业，实时互动正在迈向一个全新的高度。在RTE2024 AI 论坛上，声网 AI RTE 产品线负责人姚光华表示，在生成式AI的驱动下，实时互动带来的体验上将从“听得到”到“听得清”到“听得懂”再到今天的“听得心”，产品技术上也将完成从QoS、QoE到 MM QoE的标准革新。

图：声网 AI RTE 产品线负责人姚光华

据介绍，2014-2019年期间，声网专注于使用技术手段提升服务质量（QoS），聚焦确保文本、音频和视频等多模态内容能够进行高保真传输，进而利于终端用户进行内容消费，这一阶段被称为“SLA时代”。从2020年起，声网的产品从RTC转变成了RTE，重心从也服务质量转向了体验质量（QoE），并在2020年提出了“XLA”。在XLA时代，声网更关注用户在使用服务时感受到的流畅性、延迟和清晰度（音质、画质）等体验因素。

姚光华指出，实时互动正在进入AI+RTE的全新时代，生成式AI技术将实现跨模态的数据传输与体验优化。在未来的跨模态的 MM QoE，我们将看到音频、视频、文本模态互相转换成为可能。多模态交互和生成式AI技术的结合，将彻底改变用户的内容消费的体验方式。

从行业的情况来看，生成式 AI 时代的到来已经不同程度上刺激了需求的暴增，具体的需求内容也 RTE 转变成了AI+ RTE。据姚光华介绍，为了携手各行各业共创AI+ RTE未来，声网也正式推出了业内首个、为大模型设计的人类意图预测产品——Human Intention Prediction，其产品矩阵也逐渐演进到包含AI Streaming Service、Linux Server SDK for AI 以及 HIP（Human Intention Prediction）在内的基建、核心产品、核心服务、对外API的组合形态。

通义、智谱、MiniMax：大模型厂商谈企业级落地

自ChatGPT发布以来，全球大模型厂商的发展就迈入了百花齐放、你追我赶的历程。放眼国内市场，以通义、智谱、MiniMax 为代表的大模型厂商在技术创新与场景落地上的探索也在持续。

论大语言模型的发展速度，通义算得上首当其冲。自从阿里云发布“通义”系列模型以来，其就以惊人的速度屡次刷新行业认知。2024年9月推出了新一代模型——千问2.5，千问2.5也成为了整个开源应用技术最为广泛的模型之一。据悉，通义在很早之前就已经开始布局多模态，尤其是视觉多模态领域。不仅推出了包括音频理解、视频生成在内的多个大模型，还在模型基础之上，拓展了对话机器人等大模型原生应用。

阿里云智能集团通义千问高级产品架构师辛晓剑表示，通义的强大不止表现在大模型本身，在围绕企业级落地层面，通义千问也有着自己独特的优势。他指出，架构是否安全可信、效果如何优化、成本如何降低是大模型在企业级落地方面存在的普遍问题，针对这些问题，通义有着自己独特的解法。

图：阿里云智能集团通义千问高级产品架构师辛晓剑

在安全问题上，辛晓剑从内容安全、传输安全、数据存储安全三个方向进行了解读。内容安全上，通义千问会在模型训练环节就把原始训练语料里偏违规、有害的内容去除，并在训练后期用强化方式做偏好对齐。此外，千问还会通过内容安全的产品去做输入/输出的安全内容拦截。传输安全上，通义千问不仅采用了私网隔离的内容传输方式，还结合了其他内容加密形式以保证传输的效率及链路安全。数据存储上，通义千问还增加了一个审计环节，用于保障端到端的传输安全。在效果以及成本优化上主要有两点，混合数据训练的方式将带来更显著的微调能力提升，按 Tokens 计费的形式也进一步降低了推理应用成本。

智谱解决方案负责人吴同也认为，大模型时代下，企业新的竞争力=基座模型+组织+数据资产+业务场景。大模型将在企业降本增效、构建新的产品和竞争壁垒层面发挥不可或缺的价值。

图：智谱解决方案负责人吴同

据悉，智谱已经形成了包括语音大模型、代码大模型、多模态大模型和超拟人大模型在内的智谱大模型矩阵，其全产品矩阵可以对标 OpenAI。

吴同介绍到，为了让更多企业在使用通用模型之外能更好的进行微调，智谱发布了新一代MaaS平台，客户仅需准备训练数据、创建微调任务、部署微调模型三个步骤就可以轻松完成模型微调。另外，智谱还发布了一款面向企业的AI Agent开发工具——智谱清流。智谱清流基于智谱全自研大模型架构底座，孵化企业级大模型Al应用开发平台，整合了多Agent的构建、工作流编排设计、开发、使用和管理，及知识沉淀功能，使得企业能够迅速定制企业级AI Agent，让企业无需专业编程即可快速构建高效行业应用，推动业务智能化和效率提升。

除了通义、智谱之外，MiniMax 也面向企业客户推出了大模型应用解决方案——MiniMax 开放平台，为企业和开发者提供安全、灵活、可靠的 API 服务，助力快速搭建 AI 应用。MiniMax 商务总监王苏介绍到，除了MiniMax 开放平台之外，MiniMax 还为企业级用户打造了专属的云上专区，为企业提供安全性及整体维度上的保障。

据介绍，MiniMax成立于2021年12月，是一家专注于推动通用人工智能技术突破的科技创业公司，致力于与用户共创智能。MiniMax 自主研发了不同模态的通用大模型，其中包括万亿参数的 MoE 文本大模型、语音&音乐大模型以及图像、视频大模型。基于不同模态的通用大模型，MiniMax还推出生产力工具海螺AI、沉浸式AI内容社区星野等原生应用。

图：MiniMax 商务总监王苏

Soul App、WPS： AI赋能 C 端场景探索无限可能

在AI的赋能之下，C 端应用又发生了哪些实践与革新呢？Soul App AI 算法技术总监刘忠亮和金山办公 WPS会议产研负责人吴伟涛分别从社交和办公的角度，为我们解读了C 端场景下，AI 所带来的无限可能。

在社交层面，刘忠亮认为，未来一定存在AI社交的必然。在传统关系链接方式减弱、个体原子化的趋势下，AI将成为社交新方式的补充。对象多元化会让人会更注重情感质量，AI将更高效、更高质的提供情绪价值。科技普惠将让AI社交的成本急剧下降，AI可以为用户提供更个性化、更定制化的服务。在这样的社交趋势洞察下，Soul 在AI方面的探索一直走到前列。

图：Soul App AI 算法技术总监刘忠亮

据刘忠亮介绍，自Soul 的AIGC研发工作启动以来，Soul X 垂类多模态大模型就持续在超人化、情感化、个性化和多模态方向不断升级迭代。值得一提的是，Soul 自研多模态交互系统升级到第二代后，该模型就拥有了类 GPT-4o 端到端实时音视频通话能力，且拟人化大幅度提升至接近真人程度。得益于声网RTC搭建的全双工架构，第二代自研系统可以实现用户侧端到端的延迟平均1.4秒，最快仅需1秒的效果。

刘忠亮表示，Soul未来在应用探索上将主要围绕人机协同和人机互动两大块。人机协同上，不擅长聊天破冰的用户可以借助Soul提供的AI聊天助理、AI分身等，更好、更快的聊起来，高质、高效的建立关系。人机互动上的探索主要集中在社交类、游戏类以及智能伴侣、智能房主等智能体上。

AI的大有可为不仅仅局限在社交领域，在办公协作上，WPS会议也在不断深挖AI能力，并用其惊人的能力表现为办公场景提质增效。金山办公 WPS会议产研负责人吴伟涛表示，目前大语言模型赋能在线会议的主要路径是将会后音频录制、会中实时音频通过离线/实时ASR模型转换为转文本信息，再利用LLM能力进行文字处理，最终转换为我们所看到的会议总结、智能章节、待办提取、发言人观点的提取等。

据悉，WPS会议在实践过程中已经支持云录制、AI智能章节、AI精华纪要、对话详情、智能问答等功能。为了让在线会议更轻松的被发起，WPS还在去年发布了全新的WPS 365办公新质生产力平台，并提供了WPS协作、WPS日历、WPS云文档、WPS邮箱在内的工作台，让使用者在这些场景下都可以做到轻松发起一场会议，会议的信息也可以在这些应用场景底下很轻松地流转和访问。与此同时，WPS 365办公新质生产力平台还为企业提供了各种可靠的方案，帮助他们完成灵活的部署。

吴伟涛认为，AI驱动会议协作应用场景未来的发展趋势是，大厂发挥平台作用，做好基础功能、开放能力和生态。小厂依托平台的开放能力，深入垂直场景，实现AI增值。

图：金山办公 WPS会议产研负责人吴伟涛

AI如何重新定义即时通讯

作为互联网上最为流行的通讯方式，IM 产品在生活中的应用价值无可替代。尽管如此，但IM产品在应用过程中，仍旧存在着诸多痛点。譬如，C端上历史数据利用率低、未读消息积压、重要信息难以查找、群组活跃度低等问题。在B端上的主要表现为高人力投入和低运营效率、内容管控难度大、跨语言沟通障碍等。

针对这些问题，环信IM产品负责人王璨认为，在生成式AI时代下，IM与AI的结合一定会带来更多的创新，并且能够有效地帮助我们提升沟通效率。

图：环信IM产品负责人王璨

在RTE2024 AI论坛上，王璨不仅分享了环信助力星野业务成长的案例以及涵盖云市场、PaaS 服务、应用场景在内的环信 IM PaaS 开发工具包，还详细介绍了环信借助大模型去解决社交产品C端、B端用户痛点的解决方案。他指出，在C端的效率维度上，环信IM借助AI实现了对话摘要、日程安排、消息编写以及语言翻译等场景助力。在情感维度，AI还可以实时提供表情建议、虚拟陪聊以及回复建议等功能。在B端上，环信IM主要提供了暖场机器人、智能回答、智能推荐、智能管理员等帮助企业降本增效的选项。

王璨表示，我们完全有理由相信，IM产品有望在未来借助大模型的能力连接数字世界与实体世界，满足用户对社交产品的期望。

从多位专家和从业者的分享中不难看出，生成式 AI 正在帮助各行各业的期待从想象变为现实。我们也相信，无论是新质生产力的赋能，还是新社交方式的革新，声网与 RTE 都将在其中发挥至关重要的价值，携手共创新时代的繁荣。