AI在历史知识考验中受挫:GPT-4 Turbo 高级历史考试准确率仅46%
发布时间:2025-01-20 19:47:28来源:
近期,奥地利复杂科学研究所的一项研究显示,大型语言模型在高级历史问题上的表现不尽如人意。研究针对GPT-4、Llama和Gemini三大模型进行测试,通过“Hist-LLM”基准测试工具评估其历史知识准确性,结果最佳模型GPT-4 Turbo的准确率仅为46%。这表明AI在处理复杂历史问题时存在局限,例如对古埃及特定时期技术的误解。此外,模型在处理特定区域问题时的表现较差,暗示训练数据可能存在偏见。伦敦大学学院副教授指出,尽管大型语言模型令人印象深刻,但在高级历史知识理解方面仍有待提高。
研究负责人强调,这些结果反映了LLMs在某些领域仍无法替代人类的专业知识和理解。
免责声明:本答案或内容为用户上传,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 如遇侵权请及时联系本站删除。