官术网_书友最值得收藏!

3.2 人工智能成為全科優秀大學生

除繪畫、攝影之外,人工智能在其他知識領域也具備比肩甚至超越人類的全科能力。

2023年3月,在發布GPT-3.5僅4個月后,OpenAI就發布了GPT-4。相比GPT-3.5,GPT-4在理解能力、生成質量、知識范圍、多任務處理、安全性及個性化方面實現了多維度的突破。可以說,如果把GPT-3.5看作一個具備六年級智力及知識水平的學生,那GPT-4就是能順利完成大學入學考試(Scholastic Assessment Test,SAT)的準大學生。

OpenAI公司持續讓GPT-3.5、GPT-4參加美國各類考試,并將結果發布在GPT-4技術報告(GPT-4 Technical Report)中。表3-1整理了ChatGPT在部分美國主流考試中的成績。在統一律師資格考試中,GPT-4得分的估計百分位達到90%,也就是GPT-4的得分超過了90%的考生。美國法學院入學考試(Law School Admission Test,LSAT)的滿分為180分,GPT-4可以考163分,打敗了88%的考生,GPT-3.5則僅能超過40%的考生。SAT-閱讀與寫作的滿分為800分,GPT-4可以考710分,超過93%的考生。GPT-4在高級學術程度-藝術史、高級學術程度-生物學等考試中也拿到了5分的滿分成績。

表3-1 ChatGPT在部分美國主流考試中的成績

資料來源:根據OpenAI的GPT-4技術報告整理。

在中國,高考無疑是衡量智力及知識水平的標尺之一,那各種大模型在國內高考中的表現如何呢?

2024年全國高考結束后,科技媒體極客公園組織多個國內外大模型就新課標Ⅰ卷全科目(與河南考生考卷相同)進行了一次“統考”,并由名師閱卷。

測評結果顯示,目前在中文語境中,大模型更像數學水平相對較弱的優秀文科生,如表3-2所示。在文科考試中,大模型普遍表現不錯,GPT-4o、豆包和文心4.0、百小應成績靠前,得分超過河南文科一本線,其他大模型的得分也都超過河南文科二本分數線。它們尤其擅長語言類科目,邏輯和語言能力較為出色,大模型在英語考試中表現最優異,9個大模型的平均分超過131分(滿分為150分),大部分大模型都可以做到客觀題得分接近滿分,作文少量失分。在由歷史、地理、政治組成的新課標“文綜”考卷評測中,GPT-4o獲得237分,平均分為79分,超過了大多數真實的文科考生。

表3-2 國內外九大主流大模型在2024年高考中的成績

注1:默認所有大模型產品在英語聽力考試中均能得到滿分(30分)。

注2:根據教育考試官網,2024年河南省高校招生文科和理科一本錄取分數線分別為521分、511分。

資料來源:根據極客公園的報道整理。

主站蜘蛛池模板: 绥德县| 囊谦县| 黄骅市| 扶风县| 朝阳县| 淅川县| 手机| 尉犁县| 桃园市| 古蔺县| 玛曲县| 庆云县| 安阳县| 屏南县| 安图县| 朔州市| 工布江达县| 司法| 合阳县| 商水县| 吴忠市| 扶沟县| 门头沟区| 孝感市| 赞皇县| 黄梅县| 塔城市| 林甸县| 宜昌市| 江城| 东宁县| 东台市| 瑞金市| 响水县| 九台市| 吕梁市| 晋江市| 平度市| 右玉县| 宜兰县| 蒲城县|