搜尋任何 X

所有人都在体感上主观认为,GPT-4o不如GPT-4 Turbo,但是在lmsys leaderboard,排名却一直是相反的,甚至GPT-4o mini都比GPT-4高。请问是lmsys的methodology出了问题,还是大家出了问题?

© 2025 抖