AI在历史知识考验中受挫：GPT-4 Turbo 高级历史考试准确率仅46%

发布时间：2025-01-20 19:47:28来源：

近期，奥地利复杂科学研究所的一项研究显示，大型语言模型在高级历史问题上的表现不尽如人意。研究针对GPT-4、Llama和Gemini三大模型进行测试，通过“Hist-LLM”基准测试工具评估其历史知识准确性，结果最佳模型GPT-4 Turbo的准确率仅为46%。这表明AI在处理复杂历史问题时存在局限，例如对古埃及特定时期技术的误解。此外，模型在处理特定区域问题时的表现较差，暗示训练数据可能存在偏见。伦敦大学学院副教授指出，尽管大型语言模型令人印象深刻，但在高级历史知识理解方面仍有待提高。

研究负责人强调，这些结果反映了LLMs在某些领域仍无法替代人类的专业知识和理解。

标签： AI在历史知识考验中受挫GPT4Turbo高级历史考试准确率仅46

免责声明：本答案或内容为用户上传，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如遇侵权请及时联系本站删除。

AI在历史知识考验中受挫：GPT-4 Turbo 高级历史考试准确率仅46%

相关阅读

猜你喜欢

生活经验

生活百科

生活常识

精选知识

最新滚动