kaiyun中国官方网站咱们将多模态才略融入公司本领研发体系-kaiyun下载

发布日期：2024-07-02 04:48 点击次数：119

5月24日kaiyun中国官方网站，36氪“新质分娩力·AI Partner大会”于北京环球贸易中心厚爱拉开帷幕。大汇注焦AI场景与应用端，分为“AI能为咱们作念什么”和“我被AI赋能了”两大篇章。现场汇聚来自蚂聚合团、空想、OPPO、百度、英特尔等企业的AI畛域时尚者，以“赋能者”与“被赋能者”的不同视角，共同商量AI本领怎么“爆改”千行百业。

以下为趣丸科技副总裁兼CTO 谢睿演讲实录。

趣丸科技副总裁兼CTO 谢睿

公共下昼好！我是趣丸科技的谢睿。

很庆幸大要受邀参加36氪AI Partner大会。今天我的演讲主题是《多模态智能引发应用新场景》，借这个场所与列位新老一又友共享趣丸科技在东谈主工智能方面的最新探索后果，以及赋能智能音频和数字安全方面的一些想考。

率先，请允许我直率先容一下趣丸科技。

咱们是一家成立于2014年的国度高新本领企业，可能有些一又友对咱们的好奇酬酢家具TT语音和TT电竞业务比拟熟悉。收成于公司十年蕴蓄的本领自研才略，咱们也构建了全栈式AI交互本领产业生态，专注东谈主工智能交互前沿本领辩论和提供企业级管束决议。

咱们现在围绕四个大模子（生成式3D大模子、生成式音频大模子、生成式动作大模子、对话大模子）在开展本领自研，后续将鼓舞范畴化落地应用。

前段时期GPT-4o的问世，肯定公共都看到好多对于多模态智能的参谋。多模态使得东谈主工智能不错像东谈主类雷同感知和纠合音频、文本、图像、视频等多种模态信息，并与东谈主类进行愈加当然高效的交互，展现出了广宽的功能和通俗的营业应用出路。

多模态才略是竣事通用东谈主工智能的遑急旅途之一，亦然趣丸科技东谈主工智能本领的重心参加场地。咱们觉得AI竞争归根结底是落地速率的竞争，新本领的真的繁盛，取决于应用的繁盛。

这几年，咱们将多模态才略融入公司本领研发体系，并勾通弥远蕴蓄的用户上风，探索出了经过阛阓和用户考证的应用后果。这里，我主要收用了两个案例来作念共享：

一、智能音频赋能创新玩法

在智能音频畛域，咱们的本领才略还是竣事了数据层、算法层到应用层、接入层的全场地笼罩，智能音频亦然趣丸科技与生俱来的本领上风。

怎么诳骗智能音频本领管束创新玩法盘算和进步用户体验？

具体来说，咱们从听、说、想三部分来进行想路拆解：

率先要让AI能听懂用户的声息，正确识别声息中的文本信息、音频属性信息等；

其次能参与用户互动，比如用户不错进行及时的语音交流、调节音色，打造更多新奇体验；

第三即是能纠合信息中蕴含的好奇，纠合用户的意图、神志情状，匡助咱们作念出合理的反馈。

分析好想路后，咱们要作念的是寻找管束决议，这个管束决议必须繁盛三大意见要求，即算法效果准确、模子展望的性能要最优、算法推理延时小于咱们要求的阈值，保险用户能有细密的体验。

经过万古期的迭代与考证，咱们自研了一套端云协同三维一体智音体系，它主要在迁徙端语音识别、音色克隆TTS、音色调节、语音评价等方面竣事本领冲破，在安全着实范围内，有用管束用户在即时语音场景下的语音疏通问题，且为用户提供了丰富的音频玩法。可落地应用于在线音频、酬酢、语音类家具中。

总的来说，咱们但愿通过这套管束决议，让AI“更懂东谈主话、更有才华、更通东谈主性”，切实地鼓舞家具创新、增强用户体验。

（一）听：语音识别场地

在语音识别场地，咱们主要基于特征和对比学习的模子蒸馏本领，以及对流式语音识别模子RNNT的一系列算法改进，包括跳帧解码、刑事牵累蔓延以及输出遏制。此外，咱们还借助广宽的大模子进行模子微长入数据增强，最终整合端上神经集会预料框架NCNN的纠正，打造了一款具备低蔓延、低资源破钞和高准确率、高安全性的的迁徙端轻量级语音识别决议。

它适配不同口音、语速和环境噪声，可应用在语音直播、多东谈主聊天等场景。举例，多东谈主聊天场景中，咱们匡助客户开拓出“字幕生成”功能，不错毫秒级完谚语音识别音转字，通俗用户交流。

（二）说：音色克隆TTS场地

在音色克隆场地，传统的语音克隆需要无数的数据集来考核模子，少批量数据会导致模子效果欠安，当使用少批量的数据进行语音克隆时，存在克隆音色相似度低，合成音频存在底噪大、漏字、神志当然度差等问题。

因此咱们开拓出了一种基于深度学习本领的云霄语音克隆决议，自研完善音色克隆TTS本领。该决议通过高质料音频数据收罗处理，在模子中加入alignment loss对都模块、话语学信息、prosody encoder模块等，再经过云霄推理优化，系统地进步了音频合成的当然度、相似度和各类性。

举例，不错将该决议应用在说唱歌曲合成场景，让不会说唱或疼爱说唱的用户，直率通过读歌词录制10秒音频，快速生成相似音色的说唱歌曲，大大繁盛个性化需求。

（三）想：变声&音效&音色识别&语音评价场地

传统音频本领已发展多年，好多本领还是启动趋向老练或到了瓶颈，而深度学习的到来，给音频本领带来了一次转变。咱们通过将传统音频本领与深度学习本领相勾通，有用地勾通了二者的优点，研发了一套迁徙端变声&音效&音色识别&语音评价系统。在音色效果的丰富性、音色识别的准确性和鲁棒性、语音评价的多维度上，竣事了全场地的才略进步，获取了高于行业平均水平的效果。

该决议在音乐创作、线上K歌场景中为用户带来了全新的互动玩法，举例在线上K歌打分玩法中，大要勾通音高、节律、吐字、气味等多维度对用户的唱歌水平进行愈加全面、客不雅的评价，进而匡助用户在浪漫的吟唱环境中进步唱歌技能与结交好友。

二、大模子赋能数字安全升级

前边共享的主如果咱们在本领创新上的一些后果，骨子上我衰败想借今天这个契机跟公共共享对于数字安全、对于社会牵累的一些想考。

对于趣丸科技来讲，在追求科技创新的过程中，咱们不仅但愿通过本领去鼓舞产业发展，也但愿能诳骗本领的先进性更好地去承担动作科技公司的社会牵累。

数字安全是一场莫得硝烟的“干戈”，这小数肯定公共都深有体会。尤其在东谈主工智能时间，数字安全问题呈现出前所未有的复杂性。它并非单点本领不错管束，而是需要由上至下、多方协同的体系化工程成立。

咱们依托以前十年在安全攻防畛域的实战警戒和AI畛域的双重专长，在合规的基础上，确立了新一代平台安全管控体系，具备可管可控、极速反馈、高效定制、生态保险的特质，不错匡助企业进一步完善平台生态成立，为用户构建起愈加风清气正的集会空间。

其中，咱们诳骗自建算法模子，获取了囊括图片、文本、音频、视频等多模态内容的识别与审核才略。这里重心先容咱们的“特定东谈主群文本识别”和“语音年事识别”两大本领技巧。

特定东谈主群文本识别：继承单文本检测+高下文识别的决议。其中，单文本识别咱们自研了通用的要道词匹配分析框架，援救多种匹配状貌、援救自界说过滤条款、援救极端象征等；高下文识别继承大模子进行复杂语义纠合，咱们将用户神志要素纳入到了内容审核算法中，极大提高了对高风险音频的遏制准确度。

语音年事识别：语音年事识别是识别音频信号中是否含有某个年事段的声息以及年事标签对应的时期。咱们继承语音自监督学习模子，通过语音数据高效的收罗、处理、增强历程，以及帧级别置信度输出，使得对特定年事段的声息识别准确率高达90%以上。

跟着东谈主工智能本领的发展，多模态智能有望融入更多应用场景，如影视、老师、直播、办公等各个畛域，安详浸透到每个专家的生计中。运筹帷幄词，东谈主工智能本领今天依然濒临着许多根人道的问题莫得管束，如应用门槛依然不低、算力与电力的紧缺、法律与伦理等复杂问题。

AI的海潮还是驾临，应用层的黄金契机正恭候着咱们去发掘，站在历史的遑急交织点，趣丸科技在东谈主工智能畛域的参加初见奏效。接下来，咱们会接续剿袭“向下扎根，朝上滋长”的信念，咱们觉得唯有抑止向下夯实底层本领才略，构建属于我方的本领护城河，才略让本领在更多的畛域朝上“吐花戒指”，最终指导公司胜仗地穿越周期。

谢谢！kaiyun中国官方网站

上一篇：开云(中国)KAIYUN·官方网站出货量同比增长了7%-kaiyun下载

下一篇：kaiyun尤其是日本、澳大利亚和沙特-kaiyun下载