• 帮助
  • 广告服务

京财时报

滚动新闻:
·高质量发展,传统消费赛道品牌走向竞争博弈新格局 ·5月31日晚8点京东618超秒日开启 品质好物就五折 ·4999元起!小米MIX4今日首发:搭载新一代屏下摄像头技术 ·微软承诺对Windows11会对更多的内置应用程序进行改造 ·如何熨平“猪周期”? ·百度2021年Q2净利润54亿元智能云收入同比增71% ·1780亿个参数,这个语言模型的诞生只为挑战王者GPT-3? ·“植物肉”食品走俏其实热量不低不能减肥 ·中国火锅品牌巧思走近“Z世代”专家:反映数字经济时代变革性转向 ·软银出售ARM交易价上涨100多亿美元,奈何只剩一线希望 ·联想刘军:二季度中国区PC销量市场份额达40%,增长4.2%创历史新高 ·新一代智能手表三星GalaxyWatch4和GalaxyWatch4Cl ·雷军:向小米手机1首批用户每人赠送价值1999元的红包 ·今年前7个月俄罗斯国内共售出中国品牌汽车56573辆,同比增长140% ·雷军向小米手机1首批用户赠送1999元,符合这些条件才能领取红包 ·华为申请Matext等商标,或为下一款折叠屏手机 ·满帮发布第二季度财报:GTV达740亿元履约订单数达3600万单 ·知乎建立内容分级体系,以优化内容结构和创作生态 ·IT之家鸿蒙OS原生版1.10上架:重大顺畅度优化/滑动切换板块/支持平 ·荣芯16.66亿元拍得德淮半导体,比亚迪半导体未出价 

1780亿个参数,这个语言模型的诞生只为挑战王者GPT-3?

京财时报   来源:网络    发布时间:2021-08-12 19:14:00   阅读量:12040   

有人要胆敢挑战GPT-3垄断地位!

GPT-3自问世以来就成为了最大的AI语言模型之一。

不仅可以写电邮、写文章、创建网站、甚至是生成用于Python深度学习的代码。

最近,一个名叫「侏罗纪」模型号称可以打败GPT-3。

究竟是谁这么有勇气,居然敢如此叫嚣?

不是侏罗纪公园的恐龙!是Jurassic-1 Jumbo,还在公测的语言模型!

现在还可以免费体验:

除了能将Python代码转成Javascript,这个语言模型还有什么过人之处?

胆大,但有实力

在机器学习中,参数是模型的一部分,从历史训练数据中学来的。

一般来说,在语言领域,参数越多,模型就越复杂。

Jurassic-1 Jumbo这个模型包含了1780亿个参数。

一下子就甩开GPT-3足足30亿个参数!

在词汇项目上,GPT-3有50000个。

但Jurassic-1可以识别包括表达式、单词和短语等共250000个。

涵盖范围比GPT-3在内的大多数现有模型更大。

Jurassic-1模型经过云训练,在一个公共服务上有数百个分布式GPU。

token是一种在自然语言中将文本片段分成更小的单元的方法,它可以是单词、字符或单词的一部分。

而Jurassic-1训练数据集就有3000亿个token,全都是从维基百科、新闻出版物、StackExchange等英语网站编译而来的。

模型的训练采用传统的自监督和自回归的形式,对来自公开资源的3000亿个token进行训练。

优化程序方面,研究人员对J1-Large和J1-Jumbo分别使用了1.2times;10-4和0.6times;10-4的学习率,以及200万和320万个token的批大小。

平均每字节对数概率表明模型在不同领域的适用性

研究人员表示,在几乎所有的语料库中,Jurassic-1模型都领先于GPT-3。

在小样本学习的测试上则各有输赢,不过平均得分两个模型持平。

在基准测试中,Jurassic-1回答学术和法律问题的表现已经能与GPT-3相当,甚至表现得更好。

GPT-3需要11个token,但Jurassic-1只需要4个,样本效率大大增加。

当然,对于语言模型来说,最困难的莫过于逻辑和数学问题。

而Jurassic-1 Jumbo已经可以解决两个大数相加这种非常简单的算术问题。

Jurassic可以解释某个单词的意思

在各种各样的语言模型面前,Jurassic-1 Jumbo最多只能算是个后起之秀,也不是什么新奇的模型了。

不过和它的前辈们类似,如果问题描述不清,大概率出现的答案并不是你想要的。

堪称产品经理终结者。

偏见起来连自己人都「打」

Jurassic-1模型由AI21 Labs公司开发,会通过AI21 Labs的Studio平台提供服务。

开发人员可以在公开测试版中构建虚拟代理和聊天机器人等应用程序原型。

除此之外,在公测版中,Jurassic-1模型和Studio还能用于释义和总结,比如从产品描述中生成简短的产品名称。

根据新闻内容给新闻分类

同时,开发者还可以训练自己的Jurassic-1模型,甚至只需要50-100个训练实例。

训练完成之后,就可以通过AI21 Studio使用这个自定义模型。

但是Jurassic-1也一样面临其它语言模型的「痛点」:对于性别、种族和宗教的偏见。

由于模型训练数据集中或多或少都会存在偏见,训练出来的模型也会跟着「学坏」。

有研究人员指出,GPT-3等类似的语言模型生成的文本可能会激化极右翼极端主义意识形态和行为。

Jurassic模型的输出面临预设场景问题

针对这一点,AI2 Labs就在限制可以在公测中生成的文本数量,打算手动审查每个微调模型。

不过就算是经过微调的模型也难以摆脱训练过程中「染上的恶习」。

就像Open AI的Codex,还是一样会生成种族主义或者其它令人反感的可执行代码。

虽然是以色列的研究人员开发的,但大概是受训练数据集的影响,Jurassic-1似乎对犹太人的歧视比GPT-3还更重一些。

在偏见与歧视这个问题上,各个模型都是「五十步笑百步」。

不过AI21 Labs的工程师则表示,Jurassic-1模型的偏见比GPT-3少那么一丢丢。

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

热文推荐

首页 | 新闻| 财经| 房产| 娱乐| 旅游| 时尚| 生活| 科技| 健康| 汽车| 教育| 今日北京 | 电子报

Copyright @ 2010- 网站地图
关于同意京财时报设立互联网站并提供新闻信息服务的批复