研究人员写道:他们的基准测试结果表明,现实世界中的自由职业工作对前沿语言模型来说仍然是一个挑战。测试显示,基础模型还无法完全取代人类工程师。尽管它们可以帮助解决漏洞,但还没有达到能够独立赚取自由职业收入的水平。