金融大模型从“能力涌现”走向“价值涌现”
高级副总裁、恒生聚源董事长王锋在近日举行的“大模型在金融行业的应用与展望”研讨会上指出,AI将进入发展新阶段。
据悉,当模型突破某个规模时,性能明显提升,表现出让人惊艳、意想不到的能力。比如语言理解能力、生成能力、逻辑推理能力等,这就是“涌现”。2022年11月以来,随着OpenAI发布ChatGPT,全球迎来AI大模型热潮。到今年3月BloombergGPT的推出,在国内引起对金融垂直领域大模型应用的关注。
王锋表示,“传统的AI模型,参数量少,通过大量的数据标注、大规模的模板配置来实现。换一个场景就要再重新来过一遍,泛化性不足,被诟病为有多少人工,才有多少智能。而大模型基于GPT——生成式预训练tranformer技术路线,通过预训练、微调、奖励模型、强化学习四个主要步骤和千亿级别参数规模,做到了令人惊艳的效果,也就是我们所说的能力涌现。另外,与以往AI技术和应用两条腿走路不同,这一轮是技术与应用并驾齐驱而来:ChatGPT、office全家桶、Midjourney等现象级应用的出现,告诉我们AI现在正迎来iPhone时刻。”
据恒生研究院院长、首席科学家白硕介绍,基于Transformer架构,大模型目前分为两条技术路线,其中GPT的单向预测模型能够理解为“接龙”,而另一条路线类似于“填空”,前者通过一条示意可以容纳包括知识、推理、引导、详细说明,甚至代码的预测,后者需要两边文本的信息指示。
“GPT对AI行业的冲击非常大。”白硕和记者说,在此之前,机构部署的AI系统都是“烟囱式”的单个系统,“诸多小模型的训练使堂堂分析师沦为数据标注员,而模型的可用性也难以得到保障”。
富国基金信息技术部总经理李强提到,在基金行业的AI应用中,自然语言处理、文档解析、智能客服、发票识别、表单提取等小模型应用都已相对成熟,但“烟囱式”发展问题非常严重。
“小模型和大模型也存在经济学中的‘不可能三角’。”申万宏源证券研究所所长助理刘洋提到,小模型强调了精准度、利润率,但弱化了智能化程度,大模型恰恰相反,通过成本的堆叠,实现了模型的智能化与高效能。
“当高质量语料库训练到百亿级参数时,大模型的语言能力就会涌现,在意图理解、文本语言生成等方面的能力将随着参数的增加达到顶峰。”白硕指出,尽管大模型的语言能力已经很强,但是在垂直专业能力方面还有所欠缺,当前普遍适用的解法是,以大模型中控为核心,结合应用、插件等共同构建成AI能力中心,将大模型中控成为链接大模型与应用的“桥梁”。
“大模型的涌现能力,让基于大量计算的‘暴力求解’成为现实。”刘洋表示,在算力、算法、数据“三驾马车”的推动下,工程化能力变得特别的重要,特别是在券商、基金这样的垂类大模型应用场景下,率先为客户提供服务的厂商将抢占先机。从应用端,李强认为,目前各类大模型“百花齐放”,但应用落地还需要真正的工程化能力。
“我们要解决的一个核心问题是,让大模型有效应用于投资业务服务之中,对于机构客户能带来投资收益,对我们内部的中台与后台,能带来有效工作效率提升。”中信证券首席数据科技分析师张若海指出,在投研领域,大模型可以助力人均价值的提升,例如在量化领域,对政策文本数据的情绪提炼、中观景气研究的指标投资有效性识别,在投资覆盖宽度与数据处理精度大幅度的提高的同时,人力规模并没有显著等比例增加。在高频场景下,能轻松实现大规模的定量数据跟踪与观点提炼,解构成交易信号,从而帮助到机构投资的人更加便利地获得大模型的赋能。
李强指出,未来三年内代码生成的效率提升将在30%-50%之间。白硕则提到,从技术发展的角度,三年内大模型的语言能力将全部上一个台阶,而在金融领域的提质增效目前主要集中于IT研发与数据分析方面。通过AI能轻松实现低代码甚至“零代码”,能提高2-3倍工效,满足七成以上的数据偶发性即时需求,提升8-10倍的建模功效。