Re: [爆卦] OpenAI 新模型o1輕鬆考上台大資工/台大

作者imhan705 (最後也就睡了)

看板Gossiping

標題Re: [爆卦] OpenAI 新模型o1輕鬆考上台大資工/台大

時間Tue Sep 17 02:19:39 2024

剛推出出來的時候我拿了幾題邏輯題出來考他正確率很高我很驚喜覺得太神啦剛剛看到下面推文說他答不出來9.9跟9.11誰比較大我想說不可能這麼簡單的答不出來吧就測試了一下結果…下面是我的對話真的答不出來我還試著引導他用程式來解決但完全沒有幫助這代幻覺好像更嚴重了連你質疑他都不會想改答案我相信未來能解決的我比較擔心一些人開始依賴他把他當google 他們會逐漸喪失辨別真偽的能力 AI輸出什麼就是什麼 AI犯錯不可怕可怕的是犯錯了沒人知道他犯錯了 https://youtu.be/4EayaPNo6pk?si=XPOsISjXtbvi7cQA

-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.99.24.246 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1726510781.A.B75.html

→ qw99992: 辨別不了真偽的慢慢就會被職場淘汰64.114.211.68 09/17 02:20

推 void: 你講的最後一段早就發生了一些白癡好像完全67.188.8.241 09/17 02:20

當模型能力越強信賴就會越深…有一天會有一群人相信9.9<9.11

→ void: 不懂AI會無中生有編假的答案給你連驗證都不67.188.8.241 09/17 02:21

→ void: 知道要做還有ChatGPT以後就不需要估狗笑死67.188.8.241 09/17 02:21

※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:21:55

→ void: 不用什麼模型能力強第一代GPT就有這問題了67.188.8.241 09/17 02:22

推 void: 如果你熟悉的東西你還知道它在唬爛如果是67.188.8.241 09/17 02:24

→ void: 你完全外行的領域你連它在唬爛都看不出來67.188.8.241 09/17 02:24

推 TaiwanUp: 看起來是當成日期了中文問答較差119.14.30.29 09/17 02:24

那他的算式意思是9月9日-9月11日=-0月21日囉

→ void: 偏偏現在一堆XX GPT講什麼就信什麼只能說8767.188.8.241 09/17 02:25

→ void: Bing會附上reference這點是好很多但性能差67.188.8.241 09/17 02:25

→ TaiwanUp: 九月11確實比九月九大119.14.30.29 09/17 02:26

推 void: 誰來試一下13.11和13.9看看? 這不可能是日期67.188.8.241 09/17 02:27

他答對了但就如我所說真真假假才是最可怕的 https://i.imgur.com/Gg3qyuk.png

→ void: 會不會上面這個就答對了不會出錯?67.188.8.241 09/17 02:27

推 swgun: 問問AI 如何用數學證明9.1大於9.949.216.16.224 09/17 02:28

→ swgun: 說不定你發現AI 才是世界真理49.216.16.224 09/17 02:28

※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:28:35

推 jamo: 我感覺ai的正確率也不比記者低，在特定議題 36.231.80.70 09/17 02:28

→ jamo: 睜眼說瞎話程度兩者相當。記者的話都有人在36.231.80.70 09/17 02:28

→ jamo: 信了，信AI看起來也就沒那麼不可接受了吧?36.231.80.70 09/17 02:29

推 dans: 都說9.9-9.11=-0.21了，所以實際上是把9.11 150.117.58.153 09/17 02:29

→ dans: 當作10.11，感覺只是小錯 150.117.58.153 09/17 02:29

可是我要他驗算的時候抓不出來啊他一直自圓其說 ※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:30:31 ※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:31:55

推 williambox: 除了文書處理外還是小心求證得好... 1.200.247.112 09/17 02:32

推 dans: ChatGPT本來就瞎掰王了，是你打開的房市錯 150.117.58.153 09/17 02:33

我覺得離譜的地方是我請他用程式來計算了他直接無視程式的輸出繼續講他的

→ dans: 了150.117.58.153 09/17 02:33

→ williambox: 最近職場上真的很常聽到"可是GPT說...1.200.247.112 09/17 02:33

→ williambox: " 嗯... 好唷 1.200.247.112 09/17 02:33

推 dans: https://i.imgur.com/ciUv1ah.jpeg 150.117.58.153 09/17 02:35

→ dans: 我成功教育瞎掰王把13.11也算錯了150.117.58.153 09/17 02:35

XD ※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:37:17

推 photoswimmer: 感覺人類哪天被AI滅了也會是因為一 1.200.188.65 09/17 02:38

→ photoswimmer: 些愚蠢的邏輯錯誤 1.200.188.65 09/17 02:38

想像哪天全人類要移民火星了結果AI分不清楚9.9 9.11誰大太空船路線直接衝向太陽然後船上的人也都不覺得有問題XD

推 DarkerDuck: https://i.imgur.com/kFscaRK.png 1.172.122.135 09/17 02:38

→ DarkerDuck: FUCK 1.172.122.135 09/17 02:38

※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:41:26

推 GOD5566: https://i.imgur.com/JEHs9I4.jpeg 39.9.133.39 09/17 02:42

推 cccwahaha: 工程用的模型不一樣就是了XDXD 36.226.99.77 09/17 02:44

→ cccwahaha: 其實也很多在質疑目前AI的邏輯訓練方式 36.226.99.77 09/17 02:45

→ cccwahaha: 反正未來誰能更準確更厲害.誰就是對的 36.226.99.77 09/17 02:47

推 dans: 現實沒有所謂「最準確、最合理」若一直用這 150.117.58.153 09/17 02:50

→ dans: 標準去訓練AI模型，就只會持續做出瞎掰王 150.117.58.153 09/17 02:50

推 joywilliamjo: 那問他0.1+0.2是否等於0.3這個經典 1.200.138.164 09/17 02:54

→ joywilliamjo: 問題呢 1.200.138.164 09/17 02:54

推 TameFoxx: 用9.90-9.11問她他就會了 58.114.188.80 09/17 02:54

推 YAYA6655: 他是語文模型本身是不懂的思考的可悲 59.126.16.9 09/17 02:55

→ WenliYang: 無聊的AI 走倒退路罷了 1.164.117.195 09/17 02:55

→ YAYA6655: 若這種都不會，AI真的會泡沫化 zzz 59.126.16.9 09/17 02:56

噓 twoboy: 9.9<9.11? 你傻了嗎？ 49.231.223.84 09/17 03:00

→ enthpzd: 你問它：我可不可以說1+1=3。 101.136.70.229 09/17 03:14

推 cassetoi: 不用問數學，問chatgpt raspberry 有幾 69.172.157.88 09/17 03:14

→ cassetoi: 個r，它不會說3個，因為它不是真的給你 69.172.157.88 09/17 03:14

→ cassetoi: 乖乖去算 69.172.157.88 09/17 03:15

推 starfishfish: 推 42.79.200.248 09/17 03:15

噓 mimi1020b: 你講的這些不就是人類行為嗎 1.171.219.238 09/17 03:31

→ mimi1020b: 假做真時真亦假不代表AI就是人了? 1.171.219.238 09/17 03:32

推 milkBK: https://i.imgur.com/A67Tbs5.png 114.32.129.203 09/17 03:45

→ milkBK: 第一次回答錯誤叫他寫證明 114.32.129.203 09/17 03:45

推 milkBK: https://i.imgur.com/vybXaj3.png 114.32.129.203 09/17 03:50

→ milkBK: 用程式也沒問題啊你用盜版嗎 114.32.129.203 09/17 03:51

推 dovepacket: 他就只是個大數據而已沒多神 111.253.164.3 09/17 04:12

→ JoeyChen: 為啥copilot也會答錯 61.65.254.33 09/17 04:12

→ JoeyChen: 兩個AI都答錯大數據裡應該不是這樣吧 61.65.254.33 09/17 04:17

→ AtsukoErika: https://i.imgur.com/w1Pu6ZH.jpeg124.218.202.169 09/17 04:18

→ AtsukoErika: 累死終於矯正成功124.218.202.169 09/17 04:18

推 graysinger: 我的還真的不會算耶，還給錯誤的證明 36.224.138.148 09/17 04:27

→ graysinger: ，整個廢到笑 36.224.138.148 09/17 04:27

→ graysinger: http://i.imgur.com/uYTxOhW.jpg 36.224.138.148 09/17 04:28

推 graysinger: http://i.imgur.com/Nd3ZGwy.jpg 36.224.138.148 09/17 04:32

推 dovepacket: 恭喜掰正 111.253.164.3 09/17 04:32

→ JoeyChen: gray大它方法1是對的耶 61.65.254.33 09/17 04:34

推 Chilloutt: 看不出ai對錯的比ai還敢更糟 223.137.2.102 09/17 04:36

推 graysinger: ai這種錯中有對，對中有錯最讓人害怕 36.224.138.148 09/17 04:42

推 lau6m2002: 真的有在用的都知道AI超會唬爛。但現 49.195.62.60 09/17 05:25

→ lau6m2002: 在真的有白癡把AI產出當成正確的證據 49.195.62.60 09/17 05:25

推 MrCool5566: 只要加寫出你的思考過程就會對了223.137.182.253 09/17 05:47

推 eric112: 剛下試了一下發現它幹話講的很有道理， 36.233.250.123 09/17 05:53

→ eric112: 我差點以為我錯了 36.233.250.123 09/17 05:53

推 nalthax: 在法界早就發生了 111.255.233.32 09/17 06:06

→ jasperhai: 早就一堆人把AI當神毫無判斷能力了 111.185.73.132 09/17 06:31

推 menchian: ai目前錯誤還是很多，碰到不知道的事情125.231.227.195 09/17 06:38

→ menchian: 還會隨便唬爛，但可悲的是一堆低能兒跟125.231.227.195 09/17 06:39

→ menchian: 你討論事情時只會拿ai的回答當佐證125.231.227.195 09/17 06:39

推 menchian: http://i.imgur.com/yGZWb0X.jpg125.231.227.195 09/17 06:41

→ menchian: 比如像這樣亂算一通125.231.227.195 09/17 06:41

推 mugen8521: 挺有趣的http://i.imgur.com/q43ByON.j 101.8.32.122 09/17 06:42

→ mugen8521: pg 101.8.32.122 09/17 06:42

→ mugen8521: http://i.imgur.com/xbV1l0M.jpg 101.8.32.122 09/17 06:43

→ eva19452002: 但是這題用google gemini就有答對 118.232.66.139 09/17 06:48

推 jacky5827: 無法辨別真偽的，用google只會更慘 124.218.216.64 09/17 07:18

推 Taiwanfish: https://i.imgur.com/ywkUfIR.jpeg 1.161.60.63 09/17 07:30

推 uwptd: 完美模擬台灣司法133.159.153.188 09/17 07:34

推 laugh8562: ChatGPT是數學白癡應該說他的模型就 219.70.223.154 09/17 08:04

→ laugh8562: 不是用來算這個的 219.70.223.154 09/17 08:04

推 Ernest: 算數學要數學特化的ai，有人做 116.89.136.145 09/17 08:07

→ riker729: 這不叫AI 沒有分辨能力餵他屎他就出屎111.251.237.193 09/17 08:18

推 Isopod: https://i.imgur.com/2rqY1JJ.jpeg 111.250.18.97 09/17 08:29

→ Isopod: prompt要下好 111.250.18.97 09/17 08:29

推 WFU: 你的問法不對問9.90跟9.11哪個比較大就行了 118.169.93.56 09/17 08:50

推 graysinger: 沒救耶http://i.imgur.com/lckvyKy.jp 36.224.138.148 09/17 08:52

→ graysinger: g 36.224.138.148 09/17 08:52

→ graysinger: http://i.imgur.com/TgF0Cw6.jpg 36.224.138.148 09/17 08:53

推 joke3547: o1好像會說服人，蠻恐怖的 42.73.72.49 09/17 09:00

推 pftmax: 不是Ai犯錯，而是答案本來就沒對錯 39.12.73.128 09/17 09:03

→ pftmax: 逆向思考，也許錯的答案也是對的 39.12.73.128 09/17 09:03

推 qzwse: 真的沒救 123.240.86.187 09/17 09:07

→ qzwse: https://i.imgur.com/7llItn2.jpeg 123.240.86.187 09/17 09:07

→ qzwse: 結論 123.240.86.187 09/17 09:10

→ qzwse: 數學部分相信AI程式碼執行出來的東西不 123.240.86.187 09/17 09:10

→ qzwse: 要直接相信AI 123.240.86.187 09/17 09:10

推 holypiggy: 確定只有數學部份嗎 219.91.90.70 09/17 09:11

推 qzwse: gpt4 反而沒有這個問題 123.240.86.187 09/17 09:13

→ qzwse: https://i.imgur.com/HHVxWav.jpeg 123.240.86.187 09/17 09:13

推 Townshend: 試了一下還真的分不出9.9 跟9.11誰大， 39.15.40.232 09/17 09:23

→ Townshend: copilot的理由是9.9可當成9.90，比較 39.15.40.232 09/17 09:23

→ Townshend: 尾數1>0，所以9.11比較大。真是笨的不 39.15.40.232 09/17 09:23

→ Townshend: 可思議 39.15.40.232 09/17 09:23

推 XiaoChing221: 就問的方式他聽不懂，別怪工具不好 223.136.240.33 09/17 09:36

推 Townshend: 連問9.9跟9.11哪個數字大也聽不懂，還 39.15.40.232 09/17 09:56

→ Townshend: 不能怪ai不好? 39.15.40.232 09/17 09:57

推 Townshend: https://imgur.com/q3ms5sW 39.15.40.232 09/17 09:59

推 Townshend: 這樣問又知道答案不曉得問題出在哪 39.15.40.232 09/17 10:00

推 LDY97: 結果他還把9.90-9.11=0.79改成錯的笑爛123.205.180.112 09/17 10:11

推 acluke: 開始讓我懷疑9.9是不是9.90了122.116.249.182 09/17 10:18

→ pengda200010: 9.9 and 9.11 are both float which 119.14.155.15 09/17 10:34

推 wiork: 對啊，缺點只能不要太深入的問題，還要檢 61.230.70.188 09/17 10:46

→ wiork: 視答案 61.230.70.188 09/17 10:46

→ deray: 微軟的copilot真他媽辣雞118.165.166.173 09/17 10:50

推 DarkerDuck: o1幻覺更嚴重不意外啊 1.172.122.135 09/17 10:53

→ patvessel: https://reurl.cc/dyq0ez 125.229.28.82 09/17 10:53

→ DarkerDuck: LLM本來就有幻覺，你還CoT串起來疊加 1.172.122.135 09/17 10:54

→ DarkerDuck: https://i.imgur.com/EZiE3SL.png 1.172.122.135 09/17 10:54

→ DarkerDuck: 這就是為什麼有些問題o1表現更鬼扯 1.172.122.135 09/17 10:56

→ DarkerDuck: 至於9.9和9.11的問題在於LLM的全名是 1.172.122.135 09/17 11:01

→ DarkerDuck: arge language model 1.172.122.135 09/17 11:01

→ DarkerDuck: Large language model 1.172.122.135 09/17 11:01

→ DarkerDuck: 它處理的最小單位是語言中的單字token 1.172.122.135 09/17 11:02

→ DarkerDuck: 不是設計用來處理數字的 1.172.122.135 09/17 11:02

→ karta1271642: 他就不會推理啊223.137.157.178 09/17 12:17

噓 hotrain13: 他就不是拿來問數學的.... 122.99.15.229 09/17 12:27

噓 vincent8914: 根本是你問錯方式誰知道你問的是日223.136.198.190 09/17 13:17

→ vincent8914: 期版本號還是數值?期待AI通靈?223.136.198.190 09/17 13:18

→ AoWsL: 9.9跟9.11這數學問題討論很多次吧...我還測 111.71.20.4 09/17 13:20

→ AoWsL: 試了一下大部分的AI，GPT4o剛開始還會跟你 111.71.20.4 09/17 13:20

→ AoWsL: 硬拗不認錯 111.71.20.4 09/17 13:20

→ AoWsL: 喔好像只有gemini答對是不是？ 111.71.20.4 09/17 13:23

推 hhealthy0429: 沒有背景知識能力使用generative a 68.45.21.105 09/17 13:46

→ hhealthy0429: i 幫助有限 68.45.21.105 09/17 13:46

推 losage: 有沒有可能ai的推論才是真的 111.82.220.27 09/17 15:10

推 abbag: 開始虎爛不認錯後，信任度下降就慘了XD 123.194.188.56 09/17 15:26

推 a0521487241: https://i.imgur.com/BcxpNTC.jpeg 203.204.103.71 09/17 20:36

→ a0521487241: 我是叫他再想想就正確了 203.204.103.71 09/17 20:37

噓 XiaoChing221: 表達能力有問題嫌工具爛 223.136.240.33 09/17 21:40

→ wulitou: https://i.imgur.com/q9FxQU1.jpeg 36.230.26.148 09/19 11:27

💬 八卦 Gossiping 版：熱門文章

💬 八卦 Gossiping 版：更多文章