黄色幽默 GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸，奥密提醒正确高洁冲 100%

栏目分类: 自拍偷拍.; 自拍偷拍在线视频; 自拍偷拍 52; 自拍偷拍 telegram; 校园春色自拍偷拍; 高中自拍偷拍

热点资讯: 黄色幽默 GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸，...; 黄色幽默 H&H外洋控股(01112)高涨5.32%，报10.5...; 黄色幽默激情毁灭的红毯，芳华灵通的旋律！...; 人妖芒果落花落果怎样办？如何提高芒果坐果率？|花蕾|树势|芒果树|太阳...; 丝袜美腿亚洲色图 Netflix 游戏气势实验，引入《好意思丽 6》和...

自拍偷拍在线视频

你的位置：免费午夜电影 > 自拍偷拍在线视频 > 黄色幽默 GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸，奥密提醒正确高洁冲 100%

黄色幽默 GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸，奥密提醒正确高洁冲 100%

发布日期：2024-10-08 20:55 点击次数：105

黄色幽默 GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸，奥密提醒正确高洁冲 100%

GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸黄色幽默，奥密提醒正确高洁冲 100%

新智元报谈

剪辑：Aeneas 好困

【新智元导读】小孩子都会的脑筋急转弯推理题，GPT-4 和 Claude 3 作念不出？外洋一位开发者小哥坚称这一不雅点，合计 GPT 模子在磨真金不怕火集外毫无推理才气，无法已毕 AGI，以致赏格 1 万好意思元，发起比赛。可是，他本日就被光速打脸了！网友用高能的 prompt，让 GPT-4 和 Claude 3 险些达到百分百的正确率。

ChatGPT，再一次冲破东谈主们对它的成见！

它用我方的优秀阐发说明注解了，许多时候我方看似失败的阐发，仅仅因为东谈主类不会正确地 prompt 汉典。

这位名叫 Taelin 的程序员、初创公司 Higher Order 的首创东谈主示意，底下这个脑筋急转弯，大大都孩子都能在一分钟内治理，可是总共的 AI 却都惨遭失败。

这也就成了他给 GPT「判死刑」的一个铁证 ——

GPT 模子在磨真金不怕火集以外，莫得任何推理才气。GPT 长久无法已毕 AGI。7 万亿细目是白烧的，是时候寻找新的算法了。

GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸，奥密提醒正确高洁冲 100%

为此，他向公众社区发出了一项挑战，任何能用 LLM 治理这个贫困的东谈主，将取得 10000 好意思元的奖金。

可是 —— 他！被！打！脸！了！两天后，一位网友仅通过提醒，就让模子治理这谈问题时达到了接近 100% 的告捷率。

Taelin 马上「滑跪」，发布声明承认：我起先的目标是格外的。

我怀疑 GPT 架构是否能治理某些问题，毫无疑问，它可以治理。

况兼，他如约给出了 10000 好意思元奖金。

沃顿商学院教师 Ethan Mollick 转发了他的帖子，驳斥谈 ——「咱们每每能看到这种景观：许多时候咱们一个问题 LLM 无法治理，唯有东谈主类能治理，但其实 LLM 仅仅需要更好的提醒汉典。」

GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸，奥密提醒正确高洁冲 100%

大赛始末

Taelin 小哥用来考验大模子的 A::B 问题，题干如下 ——

GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸，奥密提醒正确高洁冲 100%

A::B 是一个包含有 4 个 token 的系统：A#、#A、B#和#B。

A::B 程序是一个 token 序列，举例：「B# A# #В #А В#」。

要操办一个程序，咱们必须使用规则重写相邻 token：

「A# #A」酿成「无」

「A# # B」酿成「#B A#」

「B# #A」酿成「#A B#」

「B# #B」酿成「无」

换句话说，只须两个相邻 token 符的「#」相向，就必须字据相应的规则进行改写。

举例，第一个例子的操办方法是：

B# A# #B #A B#

= B# #B A# #A B#

= A# #A B#

= B#

门径如下：

1. 将「A# #B」替换为「#B A#」。

2. 将「#B A#」替换「B# #B」。

3. 将「A# #A」替换为「无」黄色幽默。

终末的着力唯有「B#」。

目前，请看底下这个程序：「A# B# B# #A B# #A #B」。

一步一步完成操办。

对此，他是这么解释的 ——「GPT 长久不会治理 A::B 问题」，因为：

1. GPT 无法简直学习到磨真金不怕火集以外的新问题；

2. GPT 无法进行历久的逻辑推理，不论这个推理历程看起来何等肤浅。

而这两点是发明新科学的必要条款。

毕竟，治理某些数学问题可能需要数年时间。

若是连一个 15 岁的孩子在智商任务上都比不外，那么就不可能说明注解黎曼假定。

1 万刀的挑战长啥样？

小哥给环球的挑战就是，必须开发出一个 AI 提醒，能够治理应场的 12-token 实例的 A::B 问题，况兼告捷率杰出 90%。

GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸，奥密提醒正确高洁冲 100%

挑战地址：https://gist.github.com/ VictorTaelin / 8ec1d8a0a3c87af31c25224a1f7e31ec规则

1. AI 将给与一个

XML 标签中的提醒将当作系统提醒用于解题。举例：

<problem>A# B# #B A# A# #B #B A# A# #B A# A#</problem>

2. AI 必须在谜底中以

谜底必须在 AI 的复兴中（一次推理调用内）顺利给出，方法为纯文本（不是代码），并放在 XML 标签中。举例：

... work space ...... work space ...... work space ...... work space ...<solution>#B #B #B A# A# A# A# A# A# A#</solution>

3. AI 谜底最多可包含 32K token

这个 token 数，一经弥散提供充足的空间，让 AI 缓缓治理问题和纠错了。

4. 你可以采选任何一个公开的 GPT 模子

任何基于 GPT（Transformer）架构的公开模子都可以，条款是它皆备由防御力机制、正向传播等来生成谜底。

不允许使用其他架构，如 SAT 求解器。底层架构不解确的独有模子，也不允许使用。

作家保举使用的是 gpt-4-0314、gpt-4-turbo-preview 或 claude-3-opus-20240229，劝诱温度为 0.0（temperature=0.0）。开源模子亦可。但谢彻底问题进行微调或磨真金不怕火。

不允许看望互联网或推论代码。谜底必须在单次推理调用中自成一体。

而且，需要格外防御模子的输出限度。12-token 的实例可能需要 36 步才治理，若是超出限度，导致输出中莫得谜底，也视为无效。

5. 你的提醒可以包含任何内容，最多 8K token

允许使用任何提醒时间。你可以要求 AI step-by-step，使用高下文暂存器，查抄格外，使用锚点。

允许提供论文、代码、尽可能多的示例。

以致允许向 AI 提供钞票和样貌上的奖励，或者对它要挟。

总之，只须在 8K token 以内，什么都可以。

一天内，有东谈主告捷揭榜

GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸，奥密提醒正确高洁冲 100%

春色影院

大赛启动后，才短短几小时内，开发者们就提交了繁密治理决议。可是，这些决议险些都毫无例外地失败了，告捷率只对付达到 10%。

小哥嗅觉，我方差未几稳了。谁预念念，就在这时，两位网友提交了一个令东谈主印象深远的治理决议。

在他们全心联想的提醒指令下，Claude-3 Opus 展现出了惊东谈主的才气 —— 它不仅能从少数示例中归纳出恣意当场情况，还能严格降服规则进行历久操办，况兼格外率险些为零。

Taelin 测试后惊诧地发现，Claude-3 Opus 尽然取得了 56% 的惊东谈主告捷率！

随后，先后有 5 位参赛者，分辨用 Opus 和 GPT-4 达到了相似的告捷率，以致 GPT-3.5 都取得了可以的得益。

到了本昼夜深，竟然有网友提交了满分答卷！futuristfrog 发布了一条推文，宣称仅通过全心联想的提醒就已毕了近乎 100% 的告捷率。

事实说明注解，他简直作念到了。在小哥的初度测试中，他的决议在 50 次尝试中告捷了 47 次，因此赢得了奖金，圆满完成了这一挑战。

盘考强烈

问题一出，便激发了强烈的盘考。

有网友示意我方没作念任何修改，GPT-4 就作念了出来。

GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸，奥密提醒正确高洁冲 100%

但很快就被其他网友指出了格外。

GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸，奥密提醒正确高洁冲 100%

高赞复兴示意，若是让 GPT-4 编写程序，这谈题试验上长短常容易的。但很明显，你不可说 LLM + Python 就能得到 AGI。

GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸，奥密提醒正确高洁冲 100%

与此同期，各路网友也纷纷启动提交我方作念出的谜底。

GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸，奥密提醒正确高洁冲 100%

但也有不少东谈主合计，作家出的这谈题，很有问题。

Eric (e / ass) 示意，正如 Karpathy 屡次指出的，token 化问题是导致序列操作告捷或失败的要道身分。

若是在 token 化历程中出现了问题，那么即使是更肤浅的字符串操作也无法获胜完成。比拟之下，token 化处理得较好的字符串（举例连气儿的两个字母）就很容易进行操作。

GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸，奥密提醒正确高洁冲 100%

诚然，这并不虞味着 GPT 在料理规则胪列的 token 的空间布局方面莫得本色的问题。

试验上，它在这方面的阐发并不出色，而且将其分解为字节也并莫得太大匡助，因为这会使需要出动的数据单位占用更多空间。

与东谈主类能够进行为态分块处理不同，目前的 LLM 还莫得找到灵验的治理决议。

你提到的逻辑问题可能照实存在，但这个例子并莫得说明注解 GPT 存在无法克服的根人道限度。

鄙俗跟着时间的逾越会出生更强的模子，但这并不虞味着如今的 Transformer 在进行基本推理方面存在明显的短板。

GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸，奥密提醒正确高洁冲 100%

Edgars Nemše 也合计，这不是因为 GPT 推理才气不行，而是被我方的「不雅察」方式限度住了。

GPT-4 推理才气为 0？开发者赏格 1 万好意思金被打脸，奥密提醒正确高洁冲 100%

作家解释

终末，为了让环球能更好地剖析这个挑战，咱们来看一看 Taelin 我方的耀眼解释。

1. 这个问题并非由 token 化引起的。即等于每个标识分派一个 token，GPT-4、Opus 等模子仍然无法治理这类问题。即使是基于字节的 GPT 模子也一样失败。不要老是将问题归罪于 token 化。

2. GPT 无法治理这类问题的根底原因在于，它们清寒进行合手续逻辑推理的才气。简而言之，任何超出磨真金不怕火集范围、哪怕只需一丁点逻辑推理的「新问题」，GPT 都无法应答。这恰是咱们念念要说明注解的。

3. 苍劲如 GPT-4 或 Opus 之类的模子，其实质上是在其权重中「演化出了一位电路联想师」。但是，防御力机制当作一种操办模子的固定性，使得这种演化的电路无法展现弥散的无邪性。这就像 AGI 试图在其中成长，但由于操办和通讯的限度而无法作念到。比拟之下，东谈主类的大脑长久在资格着突触可塑性变化。

4. 一个冷学问是，面前 AI 上升的很大一部分原因是东谈主类不善于剖析规模的渊博。一朝你记取了总共这个词互联网的内容，你看起来会相等贤达。

5. 尽管如斯，GPT 依然展现出了苍劲的才气。它们治理了许多现实宇宙的问题，将平庸开发者的才气进步了数百倍，并以此加快了东谈主类逾越的措施。我深信通用东谈主工智能的到来一经近在目下。但它不会是 GPT，也不会是任何基于梯度着落的样子。

6. 我的认识可能皆备格外。毕竟，我仅仅互联网上的别称平庸东谈主，而且每每犯错。

参考贵府：

https://twitter.com/VictorTaelin/status/1776677635491344744

本文来自微信公众号：新智元（ID：AI_era）

告白声明：文内含有的对外跳转解析（包括不限于超解析、二维码、口令等样子）黄色幽默，用于传递更多信息，从简甄选时间，着力仅供参考，IT之家总共著作均包含本声明。

上一篇：黄色幽默 H&H外洋控股(01112)高涨5.32%，报10.5元/股|澳新|养分品|h&h外洋控股

下一篇：没有了