測(cè)試結(jié)果證明ChatGPT能夠進(jìn)入原創(chuàng)性思維前1%的行列

2023-08-15 12:23:50 來源: cnBeta

蒙大拿大學(xué)及其合作伙伴的最新研究結(jié)果表明，根據(jù)一項(xiàng)標(biāo)準(zhǔn)的創(chuàng)造力測(cè)試，人工智能可以與人類前1%參與者的創(chuàng)造能力相媲美。在蒙大拿大學(xué)商學(xué)院助理臨床教授 Erik Guzik 博士的領(lǐng)導(dǎo)下，研究小組采用了托倫斯創(chuàng)造性思維測(cè)試（Torrance Tests of Creative Thinking）--一種幾十年來用于評(píng)估人類創(chuàng)造力的著名工具。

研究人員提交了由 GPT-4 人工智能引擎驅(qū)動(dòng)的應(yīng)用程序 ChatGPT 生成的 8 個(gè)答案。他們還提交了一個(gè)對(duì)照組的答案，該對(duì)照組由 24 名選修古茲克的創(chuàng)業(yè)和個(gè)人理財(cái)課程的 UM 學(xué)生組成。這些分?jǐn)?shù)與 2016 年參加 TTCT 考試的全國 2700 名大學(xué)生進(jìn)行了比較。所有提交的答案都由 Scholastic Testing Service 進(jìn)行評(píng)分，該公司并不知道人工智能參與其中。

結(jié)果顯示，ChatGPT 在創(chuàng)造力方面名列前茅。人工智能應(yīng)用程序在流暢性（產(chǎn)生大量想法的能力）和原創(chuàng)性（提出新想法的能力）方面都名列前茅。在靈活性（產(chǎn)生不同類型和類別創(chuàng)意的能力）方面，人工智能表現(xiàn)略顯不足，排名第 97 位。

(資料圖)

"對(duì)于 ChatGPT 和 GPT-4，我們首次發(fā)現(xiàn)它在原創(chuàng)性方面的表現(xiàn)位于前 1%，"古茲克說。

他欣慰地注意到，他的一些UM學(xué)生的表現(xiàn)也進(jìn)入了前1%。不過，ChatGTP 的表現(xiàn)超過了全國絕大多數(shù)大學(xué)生。

Erik Guzik 是蒙大拿大學(xué)商學(xué)院的臨床助理教授。圖片來源：Ryan Brennecke 蒙大拿大學(xué)

古茲克在春季學(xué)期對(duì)人工智能和他的學(xué)生進(jìn)行了測(cè)試。蒙大拿大學(xué)西部分校的 Christian Gilde 和維爾紐斯大學(xué)的 Christian Byrge 協(xié)助他完成了這項(xiàng)工作。研究人員于五月份在南俄勒岡大學(xué)創(chuàng)造力大會(huì)上介紹了他們的工作。

"我們?cè)跁?huì)議上非常謹(jǐn)慎，沒有過多地解釋數(shù)據(jù)，"Guzik 說。"我們只是展示了結(jié)果。但我們分享了強(qiáng)有力的證據(jù)，表明人工智能似乎正在開發(fā)與人類能力相當(dāng)甚至超過人類能力的創(chuàng)造能力。"

他問 ChatGPT，如果它在 TTCT 上表現(xiàn)出色，會(huì)說明什么。人工智能給出了一個(gè)有力的答案，他們?cè)诖髸?huì)上分享了這個(gè)答案：ChatGPT 告訴我們，我們可能無法完全理解人類的創(chuàng)造力，我認(rèn)為這是正確的。它還建議我們可能需要更復(fù)雜的評(píng)估工具，以區(qū)分人類和人工智能產(chǎn)生的創(chuàng)意。TTCT 是受保護(hù)的專有資料，因此 ChatGPT 無法通過訪問互聯(lián)網(wǎng)或公共數(shù)據(jù)庫中的測(cè)試信息來"作弊"。

長期以來，古茲克一直對(duì)創(chuàng)造力很感興趣。在馬薩諸塞州帕爾默小鎮(zhèn)長大的七年級(jí)學(xué)生時(shí)，他參加了一個(gè)天才學(xué)生項(xiàng)目。那次經(jīng)歷讓他了解到埃利斯-保羅-托倫斯（Ellis Paul Torrance）開發(fā)的"未來問題解決"程序，這位心理學(xué)家也是 TTCT 的創(chuàng)始人。古茲克說，他當(dāng)時(shí)就愛上了頭腦風(fēng)暴，愛上了它如何發(fā)掘人類的想象力，他一直活躍在未來問題解決組織中，甚至在一次會(huì)議上認(rèn)識(shí)了他的妻子。

過去一年，Guzik 和他的團(tuán)隊(duì)在玩過 ChatGPT 之后，決定對(duì)其創(chuàng)造力進(jìn)行測(cè)試。他說："我們一直在探索 ChatGPT，我們注意到它做了一些我們意想不到的有趣事情。有些反應(yīng)很新穎，令人吃驚。于是我們決定對(duì)它進(jìn)行測(cè)試，看看它到底有多大的創(chuàng)造力。"

古茲克說，TTCT 測(cè)試使用了模仿現(xiàn)實(shí)生活中創(chuàng)造性任務(wù)的提示。例如，你能想到一種產(chǎn)品的新用途或改進(jìn)這種產(chǎn)品嗎？

"比方說，這是一個(gè)籃球，"他說。"盡可能多地想一想籃球的用途。你可以在籃圈里投籃，也可以在展示架上使用。如果你強(qiáng)迫自己去思考新的用途，也許你可以把它切碎，用作花盆?；蛘哂么u頭堆砌東西，或者用作鎮(zhèn)紙。但也許你可以把它磨碎，改造成全新的東西。"

古茲克曾對(duì) ChatGPT 抱有一些期望，希望它能善于創(chuàng)造很多想法（流暢性），因?yàn)檫@正是生成式人工智能的工作。在評(píng)估人員看來，ChatGPT 在回應(yīng)提示方面表現(xiàn)出色，提出了許多相關(guān)、有用和有價(jià)值的想法。

更讓他感到驚訝的是，人工智能在產(chǎn)生原創(chuàng)性想法方面表現(xiàn)出色，而這正是人類想象力的標(biāo)志。測(cè)試評(píng)估人員得到了一份提示的常見回答列表，這些回答幾乎都是預(yù)期會(huì)提交的。然而，人工智能在提出新穎回答方面卻名列前茅。

"在會(huì)議上，我們了解到一年前對(duì) GPT-3 所做的研究，"Guzik 說。"當(dāng)時(shí)，ChatGPT 在涉及原創(chuàng)性思維的任務(wù)上得分不如人類?，F(xiàn)在有了更先進(jìn)的 GPT-4，它已經(jīng)進(jìn)入了所有人類反應(yīng)的前 1%。"

隨著人工智能進(jìn)步的加快，他預(yù)計(jì)人工智能將成為未來商業(yè)世界的重要工具，并成為地區(qū)和國家創(chuàng)新的重要新動(dòng)力。

"對(duì)我來說，創(chuàng)造力就是以不同的方式做事，"古茲克說。"我喜歡的創(chuàng)業(yè)定義之一是，創(chuàng)業(yè)就是以不同的方式思考。因此，人工智能可以幫助我們將創(chuàng)造性思維的世界應(yīng)用到商業(yè)和創(chuàng)新過程中，這對(duì)我來說非常吸引人。"

他說，UM 商學(xué)院對(duì)人工智能教學(xué)持開放態(tài)度，并將其納入課程學(xué)習(xí)。"我認(rèn)為，我們知道未來會(huì)以某種方式將人工智能納入其中，"Guzik 說。"我們必須謹(jǐn)慎對(duì)待人工智能的使用方式，并考慮所需的規(guī)則和法規(guī)。但企業(yè)已經(jīng)在使用它來完成許多創(chuàng)造性的任務(wù)。就創(chuàng)業(yè)和區(qū)域創(chuàng)新而言，這是一個(gè)改變游戲規(guī)則的因素。"

關(guān)鍵詞：