阿里發(fā)布Qwen2-Math:數(shù)學推理全球第一,超越GPT-4o和Claude-3.5

  • 來源:
  • 2024-08-09

Qwen官方網(wǎng)站消息,8月8日,阿里發(fā)布了Qwen2-Math(1.5B/7B/72B)系列。Qwen2-Math是一系列基于Qwen2 LLM構(gòu)建的專門用于數(shù)學解題的語言模型,數(shù)學推理能力全球第一。

Qwen團隊表示,Qwen2-Math是基于Qwen2大型語言模型構(gòu)建的一系列專業(yè)數(shù)學語言模型,其數(shù)學能力顯著超越了開源模型甚至閉源模型(例如GPT-4o)。希望Qwen2-Math能夠為解決復雜的數(shù)學問題做出社區(qū)貢獻。

Qwen團隊表示,一系列數(shù)學基準評測結(jié)果表明,阿里最大的數(shù)學專用模型Qwen2-Math-72B-Instruct超越了最先進的模型,包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和Llama-3.1-405B。

Qwen團隊介紹,Qwen2-Math的基礎(chǔ)模型以Qwen2-1.5B/7B/72B為起點,然后在精心設(shè)計的數(shù)學專業(yè)語料庫上進行預訓練。該語料庫包含大規(guī)模高質(zhì)量的數(shù)學網(wǎng)絡(luò)文本、書籍、代碼、考試題目以及由Qwen2合成的數(shù)學預訓練數(shù)據(jù)。

團隊使用中英文的數(shù)學基準評測對Qwen2-Math-72B-Instruct進行評估。除了常用的GSM8K和Math基準評測,還加入了更具挑戰(zhàn)性的考試,例如,OlympiadBench、CollegeMath、中考、高考等。

久久99精品九九九久久婷婷,精品国偷自产在线电影,欧美人成人亚洲专区中文字幕,欧美一级一区二区三区视频
亚洲性日韩精品一区二区三区 | 香蕉啪视频在线观看视频久 | 亚洲日韩欧美少妇精品 | 欧洲亚洲国产精品 | 亚洲日本中文字幕乱码在线 | 亚洲欧美偷国产精品三区 |