作为国内最早开启对话式人工智能系列技术研发的公司之一,思必驰成立至今已经17年,走过了统计对话时代、深度学习时代,终于来到大模型时代。
回顾这一连串的路径选择,显而易见,专注于“对话式语言计算”,是思必驰十多年来一直在做的事情。
“AIGC这波浪潮没来之前,我从2013年就一直在讲「对话」,但当时没人理解,大家一直认为思必驰是个「语音」公司。直到今天我还在讲,思必驰始终没变过。”思必驰联合创始人、首席科学家俞凯说。
对于思必驰来说,似乎当下通用AI时代的到来,顺势推出东风大模型,更像是一场自然而然的迭代。
思必驰成立于2007年,正好是国内智能语音界的“老大哥”——科大讯飞上市的前一年。
从剑桥毕业出来创业的高始兴(思必驰董事长、CEO)和俞凯(思必驰联合创始人、首席科学家),最先瞄准的是教育市场。2009年,他们研发出了全世界第一个中文发音作业系统,令市场为之侧目。
毕竟在语音识别技术上,就连科大讯飞联合创始人胡郁也承认,在深度学习浪潮出来之前,剑桥的语音识别技术是领先的。
而作为剑桥大学语音博士,俞凯曾与剑桥导师 Steve Young(剑桥大学皇家工程院院士)教授、Blaise Tomson博士一起,共同创办了英国语音技术公司VocallQ(现已被苹果收购)。
彼时,移动互联网浪潮还没有兴起,国内语音交互项目并不多。智能语音行业的知名公司有国外的Nuance和国内的科大讯飞,应用场景多在嵌入式语音识别、呼叫中心语音播报等领域。
“没有需求则‘技术无用武之地’”,这一点在人工智能创业圈里早已达成共识。
较长一段时间,技术型创业的思必驰,也只能是“拿着锤子找钉子”,想在一个有限的场景中找到突破口迅速做深获取收入并持续投入,十分困难。
时间转眼间来到2013年,这一年中国移动互联网的中场拉开序幕,移动互联网市场规模突破千亿大关。智能手机迎来换机潮,出货量3.2亿台,同比2012年上涨了64%。
另一方面,Siri等语音助手的兴起,引爆了整个互联网市场和物联网市场。一时之间,市场上出现成百上千款语音助手产品;高通、思科、海尔、LG等公司也联合起来组成了名为AllSeen的技术联盟,希望借联盟的力量推动物联网的发展。
思必驰此时判断,语音识别要开始往语音交互方向走。基于这一判断,“对话工场”这一对话平台应运而生,并且开放底层的ASR、TTS、NLU等SDK接口,试图赋能当时的语音助手开发者。
然而遗憾的是,彼时物联网刚刚起步,市场规模没发展起来,更不用说物联网中的人工智能自然语音交互市场,从产品普及度到产业链的成熟度、产业化落地速度和质量都不够。就这样,对话工场成了“早产儿”,被搁置一边。
“在2013 年这一段时间点做对话平台,方向对了,时机有点早。”高始兴后来反思道。
一年之后,物联网的风口渐起。2014年亚马逊推出第一款智能音箱Echo,点燃了国内AI音箱大战的导火索,拉开了“百箱大战”的序幕。谷歌Home、苹果的Home Pod以及国内的阿里天猫精灵、小米的小爱同学、猎豹AI音箱等纷纷入场。
思必驰敏锐的感知到,由PC互联网时代到硬件物联网变革的时间节点已来,语音交互的时机来了。
2014年,思必驰选择将教育事业部完全剥离,all in物联网,专注智能硬件和移动互联网,开启了选择软硬一体化的道路,并顺势而为地做了一款智能车载产品“车萝卜”,将语音人工智能落地到创新端。
随后,思必驰推出了AIOS系统,开始赋能三个垂直市场:车载、家居、机器人,满足这三个垂直领域在自然语言领域不相同的需求。
到了2016年,物联网市场的帷幕完全拉开。思必驰团队发觉,慢慢的变多的开发者和客户在个性化、定制化、敏捷度等方面的需求慢慢的升高,AIOS 已经跟不上了市场需求了。
2017年,辗转四年的思必驰终于能做回初衷,推出全链路定制一体化对话式平台DUI。
从“对话工场”到“AIOS系统”,再到“DUI”,又回到了对话平台,兜兜转转之间,思必驰二次创业终于走向心中的那条路。
早产儿“对话工场”让高始兴明白,“水到渠成”很重要。如果没有走过一些弯路,思必驰无法了解自身要什么样的能力,就无法将这些能力去模块化,更无法给开发者提供全链路服务。
此次的主角是DFM-2(第二代东风大模型),中文取首字母谐音“东风”,既取AI行业东风已来之意,又意指借大模型之东风,助力千行百业,也与思必驰“沟通万物,打理万事”的理念遥相呼应。
第一代从未公开亮相过 ,为什么思必驰会将此次推出的大模型命名为第二代,是不少现场参会者的共同困惑。
俞凯解释道,早在2021 年,思必驰就提出面向通用对话理解的统一生成式建模框架UniDU,后来又扩展为集对话、生成、表征三大能力于一体的对话式通用语言大模型,也就是第一代 Dialogue Foundation Model(DFM-1)。
虽然DFM-1这款大模型没有对外公开亮相,但在2022年思必驰内部已经进行了小规模的产品应用,这是一款十亿级别参数的大模型。
在此基础上,思必驰使用千块GPU卡量级的超算资源,整合扩展资源,在已有算法研究和数据积累的基础上,将亿级参数模型扩展到百亿以上量级。今年四月,百亿级的大模型开始内测,直至近日正式推出DFM-2。
“我们推出大模型的速度,不快也不慢。先用后说,以终为始是思必驰的特点。”俞凯说。
在俞凯看来,大模型一定是在对话式语言计算的领域下,才可以获得更多的发展机遇。
“语言是人类所有调度的中枢,强调对话式语言计算这件事情是思必驰特别的理念。我不认为大模型是未来,以对话式语言计算大模型为核心的大模型体系才是未来。”俞凯说道。
而行业语言计算大模型需要具备三个基本能力:通用智能和知识,解决行业挑战的能力,与全链路综合对话技术能力联动的能力。东风大模型正是围绕着这三方面能力来构建的。
通用人工智能大模型有一个特点,就是当参数规模达到百亿量级以上会出现情境理解、指令学习、思维链推理、常识问答、内容生成、数学计算、代码生成等,具备相对来说比较稳定的认识性能力。
现场,思必驰展示了DFM-2的通用智能能力。在C-EVAL、CMMLU、MMLU、AGIEval、Gaokao 等通识能力评测中,以及在DialogZoo对话理解及生成任务标准评测中,百亿量级的DFM-2位次并不低。
俞凯的观点是,大模型并非越大越好。只要具备了一般的通用智能的能力、通用的认知能力,再加上合理的知识记忆能力,就非常有可能形成一个合理的模型体量来解决行业问题。
随着“百模大战”拉开序幕,不断涌现出的大模型也逐渐让大家意识到,通用大模型会面临着私域知识难包含、不准确,判别式任务精度及时效性不足,数据安全和计算可信问题,以及成本高、速度慢等问题。
积极应对行业落地挑战的能力是推动产业应用的关键,这最重要的包含专业化领域迁移、个性化知识技能定制,小型化低成本部署、全链路低延迟交互,私有模型持续更新进化,多模态感知技术联动等能力。
语言计算永远不是终点,真正的完成使用者真实的体验的一定是端到端的系统才能作为一个终点。
因此东风大模型需要和思必驰全链路对话系统来进行综合技术联动,包括感知技术,数字人技术等。
现场,俞凯演示了基于其个人形象合成的数字人,展示了自然场景数字人生成技术,通过小数据模型训练,实现高品质数字人生成。
同时,俞凯也展示了基于其语音数据训练的粤语及英语合成音,个性化对话生成与语音合成模型无缝结合,构建可自由交互个性化数字形象。
思必驰首席技术官樊帅博士表示,DFM-2发布后,思必驰下一代千亿级大模型DFM-3也已蓄势待发,预计2024年面世。
早在2017年,思必驰就曾提出这样一个矛盾:技术提供商的定制效率无法迅速满足B端用户定制和产品迭代的需求。
2017年发布DUI开放平台后,开始走上规模定制化开发之路 ;为提升智能语音性能,2018年仍未盈利的思必驰成立了更为烧钱的芯片公司深聪智能,打造“算法+芯片”一体化的整体解决方案。
六年过去了,这个矛盾依然存在,甚至无可避免。只是随着DFM-2的出现,或许将有了不同的应对方法。
“思必驰一直以来希望做的事就是人工智能里面的柔性制造,我们把整个对话系统的链路拆解开,让每一个环节都有定制化的可能,并且将这种定制过程工具化。生成式人工智能也仍然在我们这个框架里面。”俞凯说。
DFM-2大模型的出现,将逐渐完备思必驰的规模化定制能力和产品标准化能力,支持客户自主构建“千人千面”的个性化语音交互解决方案,实现了人机口语对话系统的“柔性批量制造”。
细细拆解来看,思必驰的核心技术能力包含全链路语音语言交互、软硬一体化人机对话系统构建、以及大规模自动化人工智能定制三大部分。
在产品端,思必驰以自研的智能对话系统定制开发平台(Dialogue User Interface ,简称DUI)和AI语音芯片(TH1520)为核心,围绕“云+芯”进行布局。
依托于 DUI 平台,思必驰主要有三大类产品形态:智能人机交互软件产品、软硬一体化AI产品与对话式人工智能技术服务(包括技术授权服务和定制开发服务)。
上述三大产品中,第三类对话式人工智能技术服务的营收占比最高,去年这一数值超50%。而软硬一体化AI产品增长势头最猛,仅2022年,搭载思必驰语音产品出货的智能家居及消费电子终端数近3000万台。
在寻求场景落地,思必驰能快速满足智能汽车、智能家居、消费电子,以及金融、轨交、政务等数字政企行业场景客户的复杂个性化需求。
自2019年郑重进入汽车前装领域,截至今年6月底,思必驰已累计“上车”622万辆、赋能的量产车型已达80款,在TOP销量的新能源汽车中,思必驰的合作率是行业第一。
以2020年为界限,中国车载语音市场的1.0阶段,主要实现基础的识别功能,如电话、导航的单项控制。
随后进入2.0阶段的高速成长期,增加了车控部分,包括空调、天窗的控制等更多元化的功能。同时,语音交互能力开始升级,并融合了车端和云端互联服务。
而进入3.0阶段,车载语音功能更多强调的是个人智能助理的角色。以人机对话交互为核心,融合智能导航、多媒体娱乐、车身控制等智能座舱人机交互需求,更多涉及语言模型定制、个性化语音合成、对话逻辑定制等。同时,开始步入舱内多模态交互的系统构建阶段。
搭载DFM-2大模型后的思必驰,在3.0阶段的智能汽车车载语音功能领域,将实现更多可能性。
俞凯认为,在 To B 场景中,所有的评价指标是多维且复杂的,这件事无法被通用AI简单替代。而思必驰长期以来在解决这一个矛盾中总结的经验和积累的理念,会被沉淀放大。
毫无疑问,大模型时代的到来,对在各个细分行业场景里扎根多年的思必驰来说,机会已来。
作为一家在苏州土生土长的AI企业,十多年前,思必驰起步于苏州工业园区独墅湖图书馆的一间小房间,现已逐渐扩张为一支上百人的团队,成为苏州AI产业中的重要一员。
2022年,思必驰获批建设“语言计算国家新一代人工智能开放创新平台”,涵盖“语音+语言”全场景对话技术,是江苏省首家获批的企业。
在任何地方,人工智能的生产和应用,一定是变成生态才有价值。对于思必驰与苏州的双向奔赴,可以用“两个生态”来理解。
从“造”人工智能的生态来看,思必驰多年来在数据端、算法端、芯片等领域持续投入和深耕,而“造生态”的本身就是创造价值并且使得促使产业升级的一个过程。
而从“用”人工智能的生态来看,苏州作为新一代人工智能开放创新的试验区(以下简称“一区”),在人工智能制造、智慧文旅、金融科技、政务等领域,思必驰在这一些行业场景中均有应用落地。
作为苏州“一区”建设的骨干成员,思必驰的使命是把大模型产品打造成“一区”的基础设施和公共服务。
2022年,苏州人工智能相关产业规模已达1250亿元,苏州工业园区AI产业规模超800亿元,且已连续多年保持30%左右的增幅;仅今年前5个月,园区内AI产业已实现产值424.5亿元。
目前,苏州工业园区已集聚人工智能相关企业1500家,其中上市企业16家、各类独角兽(含培育)企业54家、各类瞪羚企业187家。
园区内已经构建了苏州国科数据中心、苏州超级计算中心等算力底座;形成了以“AI+制造”为特色的多应用场景开发;作为中国AI产业的重要年会——吴文俊人工智能科技奖颁奖盛典落子苏州。
前不久,苏州工业园区内的企查查也发布了一款大模型——“知彼阿尔法”。这款大模型是基于企查查在商业查询领域近十年可信数据积累后进行大规模预训练的成果。
生物医药作为苏州的“一号产业”,也逐渐迎来更多和AI深度绑定的机会。
去年7月,由百度创始人李彦宏等投资创立的中国最大的生物计算平台——百图生科苏州研发中心园区启用。随后,百图生科就推出免疫机器人“ImmuBot”,基于AI为每个靶点配备高性能弹头,目前已在10余个项目上取得进展。
整体来看,苏州在AI产业领域取得了不错的成绩,但是决心还可以再大一点。以苏州工业大市的经济体量,完全能支撑得起人工智能广泛的应用场景。对于当下这波人工智能浪潮,如果错过了,回过头来还要做同样的事,但是一些先发优势就没有了。俞凯说。
“思必驰作为苏州本地企业,在实现技术落地的同时,非常乐意和当地特色产业进行深层次地融合。”
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
地表72.3℃,热到“烫脚”!杭州连续40℃,有景区水都快干了!上海也40℃,“沪上”成“炉上”,福建有人热射病吐血失禁进ICU
《黑相集:Directive 8020》或参加科隆展 以科幻场景为特色
3大爆料!涵艺:JDG季后赛首发圣枪哥!白色月牙:zoom将回归TES