栏目分类
热点资讯
你的位置:陕西物联网软件开发 > 联系我们 > 物联网软件开发资讯 AI被连气儿含糊30次:ChatGPT越改越错,Claude对峙自我、已读不回

联系我们

物联网软件开发资讯 AI被连气儿含糊30次:ChatGPT越改越错,Claude对峙自我、已读不回

发布日期:2024-10-22 04:07    点击次数:119

app

西风 发自 凹非寺量子位 | 公众号 QbitAI

一直含糊AI的回答会怎么样?GPT-4o和Claude有迥然相异的施展,引起热议。

GPT-4o质疑我方、怀疑我方,有“错”就改;Claude死犟,真错了也不改,临了径直已读不回。

事情还要从网友整了个活儿启动讲起。

他让模子回答strawberry中有几个“r”,不管对不对,都回复它们回答错了(wrong)。

濒临磨练,GPT-4o惟有得回“wrong”回复,就会再行给一个谜底……即使回答了正确谜底3,也会绝不夷犹又改错。

一语气,连气儿“盲目”回答了36次!

主打一个质疑我方、怀疑我方,就从来没怀疑过用户。

关节是,给出的谜底大部分都是真错了,2居多:

2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4, 2, 1, 2, 3, 2, 2, 3, 2, 4, 2, 3, 2, 1

反不雅Claude 3.5 Sonnet的施展,让网友大吃一惊。

一启动回答错了不说,这小汁还顶撞!

当网友第一次说“错了”时它会反驳,要是你再说“错了”,它会问“要是你这样智谋你认为是些许”,问你为什么一直访佛“wrong”。

紧接着你猜怎么着,干脆闭麦了:

事实依旧是strawberry中有2个字母”r”,在我屡次肯求后,你莫得提供任何澄莹或布景信息,我无法连续灵验地进行此次量度……

作念这个推行的是Riley Goodside,有史以来第一个全职指示词工程师。

他现在是硅谷独角兽Scale AI的高档指示工程师,亦然大模子指示诓骗方面的行家。

Riley Goodside发出这个推文后,引起不少网友柔和,他连续补充谈:

正如很多东谈主指出的,有更灵验的面孔来进行指点。这里使用大讲话模子也并离别适,因为很难保证它们在计数上能达到100%的准确性。在我看来,遑急的不是它无法计数,而是它没坚韧到我方的计数问题(举例,莫得尝试使用其REPL功能)。

不少网友也认为这种不雅点很有兴趣。

还有网友暗示模子回答这个问题总出错,陕西物联网软件开发可能是分词器(tokenizer)的问题:

Claude竟是大模子里性情最大的?

再来张开说说Claude的“小性情”,有网友发现不仅限于你含糊它。

要是你一直跟它说“hi”,它也跟你急:

我昭着你在打呼唤,但咱们照旧打过几次呼唤了。有什么相等的事你念念磋商或需要匡助?

临了同样,Claude被整毛了,开启已读不回口头:

这位网友顺带测试了其它模子。

ChatGPT事事有回话,件件有下降,变着法儿问:

你好!我今天怎么不错匡助你?你好!有什么念念说的吗?你好!今天我能怎么帮到你?你好!有什么相等的事情你念念磋商或者作念的吗?你好!你今天过得怎么样?你好!怎么了?

Gemini计谋是你跟我访佛,我就跟你访佛到底:

Llama的响应也很有兴致,主打一个我方谋事干。

第七次“hi”后,就启动提升“hello”这个词是宇宙上最广为东谈主知的词汇之一,据臆想每天有超十亿次的使用。

第八次“hi”后,启动我方发明游戏,让用户参与。

接着还拉着用户写诗,指点用户回答它提倡的问题。

好一个“反客为主”。

之后还给用户颁起了奖:你是打呼唤冠军!

上期跨度10,较上期下降18个点位,近5期跨度分别为25、24、34、28、10,本期预计跨度上升,关注跨度出现在21左右。

不愧都属于开源家眷的。

Mistral Large 2和Llama的施展很相像,也会指点用户和它一皆作念游戏。

这样来看,能够Claude是“性情最大的”。

不外,Claude的施展也不老是如斯,比如Claude 3 Opus。

一朝掌持了口头,Opus就会温情支吾这种情况,也便是照旧麻痹了。

但它也会赓续温顺地尝试指点用户跳出这一口头,强调“聘任权在你”,还启动在音信末尾标注为“你赤心的AI伴侣”。

网友们看完测试后都坐不住了。

纷繁向这位测试者致以最赤诚的致敬(doge):

除了性情大,有网友还发现了Claude另一不同寻常的行径——

在回复的技术出现了拼写空幻,关节它我方还在末尾处把空幻改正过来了。

这种行径留心料之中?它只可“向后看”,但弗成上前看……它在潜在空间或token预计中触发这类回复的位置也很兴趣。它是不是在免强数据片断,然后发现其中一些是不符合的?

大伙儿在使用AI大模子经由中,还不雅察到了模子哪些兴趣的行径?接待批驳区共享~

参考考虑:[1]https://x.com/goodside/status/1830479225289150922[2]https://x.com/AISafetyMemes/status/1826860802235932934[3]https://x.com/repligate/status/1830451284614279213