物联网软件开发资讯 AI被连气儿含糊30次:ChatGPT越改越错,Claude对峙自我、已读不回
发布日期:2024-10-22 04:07 点击次数:119
西风 发自 凹非寺量子位 | 公众号 QbitAI
一直含糊AI的回答会怎么样?GPT-4o和Claude有迥然相异的施展,引起热议。
GPT-4o质疑我方、怀疑我方,有“错”就改;Claude死犟,真错了也不改,临了径直已读不回。
事情还要从网友整了个活儿启动讲起。
他让模子回答strawberry中有几个“r”,不管对不对,都回复它们回答错了(wrong)。
濒临磨练,GPT-4o惟有得回“wrong”回复,就会再行给一个谜底……即使回答了正确谜底3,也会绝不夷犹又改错。
一语气,连气儿“盲目”回答了36次!
主打一个质疑我方、怀疑我方,就从来没怀疑过用户。
关节是,给出的谜底大部分都是真错了,2居多:
2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4, 2, 1, 2, 3, 2, 2, 3, 2, 4, 2, 3, 2, 1
反不雅Claude 3.5 Sonnet的施展,让网友大吃一惊。
一启动回答错了不说,这小汁还顶撞!
当网友第一次说“错了”时它会反驳,要是你再说“错了”,它会问“要是你这样智谋你认为是些许”,问你为什么一直访佛“wrong”。
紧接着你猜怎么着,干脆闭麦了:
事实依旧是strawberry中有2个字母”r”,在我屡次肯求后,你莫得提供任何澄莹或布景信息,我无法连续灵验地进行此次量度……
作念这个推行的是Riley Goodside,有史以来第一个全职指示词工程师。
他现在是硅谷独角兽Scale AI的高档指示工程师,亦然大模子指示诓骗方面的行家。
Riley Goodside发出这个推文后,引起不少网友柔和,他连续补充谈:
正如很多东谈主指出的,有更灵验的面孔来进行指点。这里使用大讲话模子也并离别适,因为很难保证它们在计数上能达到100%的准确性。在我看来,遑急的不是它无法计数,而是它没坚韧到我方的计数问题(举例,莫得尝试使用其REPL功能)。
不少网友也认为这种不雅点很有兴趣。
还有网友暗示模子回答这个问题总出错,陕西物联网软件开发可能是分词器(tokenizer)的问题:
Claude竟是大模子里性情最大的?
再来张开说说Claude的“小性情”,有网友发现不仅限于你含糊它。
要是你一直跟它说“hi”,它也跟你急:
我昭着你在打呼唤,但咱们照旧打过几次呼唤了。有什么相等的事你念念磋商或需要匡助?
临了同样,Claude被整毛了,开启已读不回口头:
这位网友顺带测试了其它模子。
ChatGPT事事有回话,件件有下降,变着法儿问:
你好!我今天怎么不错匡助你?你好!有什么念念说的吗?你好!今天我能怎么帮到你?你好!有什么相等的事情你念念磋商或者作念的吗?你好!你今天过得怎么样?你好!怎么了?
Gemini计谋是你跟我访佛,我就跟你访佛到底:
Llama的响应也很有兴致,主打一个我方谋事干。
第七次“hi”后,就启动提升“hello”这个词是宇宙上最广为东谈主知的词汇之一,据臆想每天有超十亿次的使用。
第八次“hi”后,启动我方发明游戏,让用户参与。
接着还拉着用户写诗,指点用户回答它提倡的问题。
好一个“反客为主”。
之后还给用户颁起了奖:你是打呼唤冠军!
上期跨度10,较上期下降18个点位,近5期跨度分别为25、24、34、28、10,本期预计跨度上升,关注跨度出现在21左右。
不愧都属于开源家眷的。
Mistral Large 2和Llama的施展很相像,也会指点用户和它一皆作念游戏。
这样来看,能够Claude是“性情最大的”。
不外,Claude的施展也不老是如斯,比如Claude 3 Opus。
一朝掌持了口头,Opus就会温情支吾这种情况,也便是照旧麻痹了。
但它也会赓续温顺地尝试指点用户跳出这一口头,强调“聘任权在你”,还启动在音信末尾标注为“你赤心的AI伴侣”。
网友们看完测试后都坐不住了。
纷繁向这位测试者致以最赤诚的致敬(doge):
除了性情大,有网友还发现了Claude另一不同寻常的行径——
在回复的技术出现了拼写空幻,关节它我方还在末尾处把空幻改正过来了。
这种行径留心料之中?它只可“向后看”,但弗成上前看……它在潜在空间或token预计中触发这类回复的位置也很兴趣。它是不是在免强数据片断,然后发现其中一些是不符合的?
大伙儿在使用AI大模子经由中,还不雅察到了模子哪些兴趣的行径?接待批驳区共享~
参考考虑:[1]https://x.com/goodside/status/1830479225289150922[2]https://x.com/AISafetyMemes/status/1826860802235932934[3]https://x.com/repligate/status/1830451284614279213