算法难度低
但并不代表垂直大模型谁都能做。 众所周知,AI大模型三要素算力、算法、数据,都是喂养AI的“饲料”。 先说算力。 大模型之所以“大”,就是因为参数众多和数据量庞大。AI大模型所需要的计算量,大致上相当于参数量与数据量的乘积。 过去年,AI大模型的参数量几乎每年提升一个数量级,例如GPT-参数量是GPT-的倍,达到.万亿个。 随着图像、音视频等多模态数据的引入, 大模型的数据量也在飞速膨胀。 这意味着想要玩转大模型,必须拥有 伯利兹电话号码 大算力。 而一套垂直大模型的训练和推理成本,做个参考,在数字人垂类技术场景中,可以做到比Open AI同参数规模的模型低一个量级,像启元世界的战略总监王思捷就曾提到先构建更小的垂类模型比如百亿参数、十亿参数,让数据飞轮和模型训练能够很好结合,垂类模型在某些领域可能比Open AI的效果更好成本更低。 即便垂直大模型在算力要求上已远远低于通用大模型,但对算力基础设施的投入依然会阻挡部分小公司的入局。 再说算法。 在三要素中,算法的研发难度相对较低,每家公司都有自己实现大模型的路径算法,且有众多开源项目可作为参考,中国公司最容易缩短甚至抹平差距。 最后说数据。 高质量的数据是助力AI训练与调优的关键,足够多、足够丰富的数据,是AI大模型的根基。 OpenAI此前披露, 为了AI像人类那样流畅交谈, 研发人员给GPT-.提供多达TB的文本语料,相 希腊号码数据 当于万套中国“四大名著”。这些语料的来源包括百科、网络文章、书籍期刊等,甚至还将代码开源平台Github纳入其中。 但是聚焦到细分行业,数据的获取就没那么容易了。 兴业证券公开表示,要训练专业的行业大模型,优质的行业数据、公共数据至关重要。 就国内数据市场而言,据发改委官方批露,我国政府数据资源占全国数据资源的比重超过/,但开放规模不足美国的,个人和企业可以利用的规模更是不及美国的。 而行业数据更是非常核心的私域数据,私域数据量越大,质量越高,就越有价值。
Read More