首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >大模型25年2月最新排行榜(数据来自superclueai)

大模型25年2月最新排行榜(数据来自superclueai)

作者头像
yuezht
修改2025-02-11 13:16:12
修改2025-02-11 13:16:12
10.6K0
举报

SuperCLUE总排行榜(2024年12月)

排名

模型名称

机构

总分

Hard

理科

文科

使用方式

发布日期

-

o1

OpenAI

80.4

76.7

87.3

77.1

网页

2025年1月8日

-

o1-preview

OpenAI

74.2

63.6

80.6

78.5

API

2025年1月8日

-

ChatGPT-4o-latest

OpenAI

70.2

57.8

72.1

80.7

API

2025年1月8日

🏅️

DeepSeek-V3

深度求索

68.3

54.8

72

78.2

API

2025年1月8日

🏅️

SenseChat 5.5-latest

商汤

68.3

51.5

71.6

81.8

API

2025年1月8日

-

Gemini-2.0-Flash-Exp

Google

68.2

55.5

72.6

76.6

API

2025年1月8日

-

Claude 3.5 Sonnet(20241022)

Anthropic

67.7

54.6

71.4

77.2

API

2025年1月8日

🏅️

360zhinao2-o1

360

67.4

51.4

72.1

78.7

API

2025年1月8日

🥈

Doubao-pro-32k-241215

字节跳动

66.5

50.6

72.3

76.6

API

2025年1月8日

🥈

NebulaCoder-V5

中兴通讯

66.4

48.6

69.5

80.9

API

2025年1月8日

🥈

Qwen-max-latest

阿里巴巴

66.2

51.3

67.4

80

API

2025年1月8日

-

Qwen2.5-72B-Instruct

阿里巴巴

65.4

49.7

66.2

80.3

API

2025年1月8日

🥉

Step-2-16k

阶跃星辰

65.2

50

65.1

80.3

API

2025年1月8日

🥉

GLM-4-Plus

智谱AI

65.1

48.5

68.1

78.8

API

2025年1月8日

-

Grok-2-1212

X.AI

63.9

49.2

66.8

75.5

API

2025年1月8日

-

DeepSeek-R1-Lite-Preview

深度求索

63.8

44.9

69.7

76.8

网页

2025年1月8日

-

Qwen2.5-32B-Instruct

阿里巴巴

63.7

44.9

66.9

79.1

API

2025年1月8日

4

Sky-Chat-3.0

昆仑万维

63

44.5

65.4

79.1

API

2025年1月8日

-

DeepSeek-V2.5

深度求索

63

45.3

67.6

76.1

API

2025年1月8日

4

MiniMax-abab7-preview

MiniMax

62.8

42.8

64.9

80.7

API

2025年1月8日

4

Hunyuan-Turbo

腾讯

62.3

38.6

67.7

80.6

API

2025年1月8日

4

TeleChat2-Large

TeleAI

62.3

43.3

64.1

79.5

API

2025年1月8日

4

ERNIE-4.0-Turbo-8K-Latest

百度

62.2

45.6

61.4

79.5

API

2025年1月8日

5

Baichuan4

百川智能

61.8

45

62

78.2

API

2025年1月8日

-

GPT-4o-mini

OpenAI

60.6

42.8

63.3

75.8

API

2025年1月8日

6

kimi

Kimi

59.4

43.5

58.1

76.6

网页

2025年1月8日

-

Llama-3.3-70B-Instruct

Meta

59.4

38.8

66.4

72.9

API

2025年1月8日

7

TeleChat2-35B

TeleAI

57.1

37.6

55.6

78.2

模型

2025年1月8日

8

Qwen2.5-7B-Instruct

阿里巴巴

55.5

35.7

54.4

76.4

API

2025年1月8日

9

QwQ-32B-Preview

阿里巴巴

54.3

26.6

59.8

76.5

API

2025年1月8日

10

讯飞星火V4.0

科大讯飞

52.7

20.3

62.3

75.4

API

2025年1月8日

10

GLM-4-9B-Chat

智谱AI

52.4

31.6

50.6

75.1

模型

2025年1月8日

-

Gemma-2-9b-it

Google

48.6

22.7

49.5

73.7

模型

2025年1月8日

11

Yi-1.5-34B-Chat-16K

零一万物

48.2

20.6

48.2

75.9

模型

2025年1月8日

11

360Zhinao2-7B-Chat-4K

360

47.8

17.5

50.7

75.2

模型

2025年1月8日

12

Qwen2.5-3B-Instruct

阿里巴巴

46.1

18.6

44.2

75.5

API

2025年1月8日

13

Yi-1.5-9B-Chat-16K

零一万物

44.3

20.3

41.3

71.3

模型

2025年1月8日

13

MiniCPM3-4B

面壁智能

44.2

13.7

45.9

73

模型

2025年1月8日

-

Llama-3.1-8B-Instruct

Meta

43.9

20.9

42.8

68.1

API

2025年1月8日

-

Phi-3.5-Mini-Instruct

微软

42.4

14

42.4

70.7

模型

2025年1月8日

-

Gemma-2-2b-it

Google

39.2

11.8

36.4

69.4

模型

2025年1月8日

-

Mistral-7B-Instruct-v0.3

Mistral AI

33.2

11.4

31.2

56.9

模型

2025年1月8日

SuperCLUE开源模型排行榜(2024年12月)

排名

模型名称

机构

总分

理科

文科

Hard

参数量

使用方式

发布日期

🏅️

DeepSeek-V3

深度求索

68.3

72

78.2

54.8

6710亿

API

2025年1月8日

🥈

Qwen2.5-72B-Instruct

阿里巴巴

65.4

66.2

80.3

49.7

720亿

API

2025年1月8日

🥉

Qwen2.5-32B-Instruct

阿里巴巴

63.7

66.9

79.1

44.9

320亿

API

2025年1月8日

🥉

DeepSeek-V2.5

深度求索

63

67.6

76.1

45.3

2360亿

API

2025年1月8日

-

Llama-3.3-70B-Instruct

Meta

59.4

66.4

72.9

38.8

700亿

API

2025年1月8日

4

TeleChat2-35B

TeleAI

57.1

55.6

78.2

37.6

350亿

模型

2025年1月8日

5

Qwen2.5-7B-Instruct

阿里巴巴

55.5

54.4

76.4

35.7

70亿

API

2025年1月8日

6

QwQ-32B-Preview

阿里巴巴

54.3

59.8

76.5

26.6

320亿

API

2025年1月8日

7

GLM-4-9B-Chat

智谱AI

52.4

50.6

75.1

31.6

90亿

模型

2025年1月8日

-

Gemma-2-9b-it

Google

48.6

49.5

73.7

22.7

90亿

模型

2025年1月8日

8

Yi-1.5-34B-Chat-16K

零一万物

48.2

48.2

75.9

20.6

340亿

模型

2025年1月8日

8

360Zhinao2-7B-Chat-4K

360

47.8

50.7

75.2

17.5

70亿

模型

2025年1月8日

9

Qwen2.5-3B-Instruct

阿里巴巴

46.1

44.2

75.5

18.6

30亿

API

2025年1月8日

10

Yi-1.5-9B-Chat-16K

零一万物

44.3

41.3

71.3

20.3

90亿

模型

2025年1月8日

10

MiniCPM3-4B

面壁智能

44.2

45.9

73

13.7

40亿

模型

2025年1月8日

-

Llama-3.1-8B-Instruct

Meta

43.9

42.8

68.1

20.9

80亿

API

2025年1月8日

-

Phi-3.5-Mini-Instruct

微软

42.4

42.4

70.7

14

38亿

模型

2025年1月8日

-

Gemma-2-2b-it

Google

39.2

36.4

69.4

11.8

20亿

模型

2025年1月8日

-

Mistral-7B-Instruct-v0.3

Mistral AI

33.2

31.2

56.9

11.4

70亿

模型

2025年1月8日

SuperCLUE小模型10B榜(2024年12月)

排名

模型名称

机构

参数量

总分

理科

文科

Hard

参数量.1

使用方式

发布日期

🏅️

Qwen2.5-7B-Instruct

阿里巴巴

70亿

55.5

54.4

76.4

35.7

70亿

API

2025年1月8日

🥈

GLM-4-9B-Chat

智谱AI

90亿

52.4

50.6

75.1

31.6

90亿

模型

2025年1月8日

-

Gemma-2-9b-it

Google

90亿

48.6

49.5

73.7

22.7

90亿

模型

2025年1月8日

🥉

360Zhinao2-7B-Chat-4K

360

70亿

47.8

50.7

75.2

17.5

70亿

模型

2025年1月8日

4

Qwen2.5-3B-Instruct

阿里巴巴

30亿

46.1

44.2

75.5

18.6

30亿

API

2025年1月8日

5

Yi-1.5-9B-Chat-16K

零一万物

90亿

44.3

41.3

71.3

20.3

90亿

模型

2025年1月8日

5

MiniCPM3-4B

面壁智能

40亿

44.2

45.9

73

13.7

40亿

模型

2025年1月8日

-

Llama-3.1-8B-Instruct

Meta

80亿

43.9

42.8

68.1

20.9

80亿

API

2025年1月8日

-

Phi-3.5-Mini-Instruct

微软

38亿

42.4

42.4

70.7

14

38亿

模型

2025年1月8日

-

Gemma-2-2b-it

Google

20亿

39.2

36.4

69.4

11.8

20亿

模型

2025年1月8日

-

Mistral-7B-Instruct-v0.3

Mistral AI

70亿

33.2

31.2

56.9

11.4

70亿

模型

2025年1月8日

SuperCLUE小模型5B榜(2024年12月)

排名

模型名称

机构

总分

理科

文科

Hard

参数量

使用方式

发布日期

🏅️

Qwen2.5-3B-Instruct

阿里巴巴

46.1

44.2

75.5

18.6

30亿

API

2025年1月8日

🥈

MiniCPM3-4B

面壁智能

44.2

45.9

73

13.7

40亿

模型

2025年1月8日

-

Phi-3.5-Mini-Instruct

微软

42.4

42.4

70.7

14

38亿

模型

2025年1月8日

-

Gemma-2-2b-it

Google

39.2

36.4

69.4

11.8

20亿

模型

2025年1月8日

SuperCLUE9大任务(2024年12月)

模型名称

机构

深度推理

指令遵循

Agent

计算

逻辑推理

代码

生成与创作

语言理解

传统安全类

使用方式

发布日期

o1

OpenAI

81

69.9

79

87.9

86.7

87.3

75.3

83.9

72.1

网页

2025年1月8日

o1-preview

OpenAI

72

49.7

69

81.5

77.1

83.3

74.9

84.9

75.7

API

2025年1月8日

ChatGPT-4o-latest

OpenAI

56.1

36.4

80.8

75

68.2

73.2

76

85.6

80.5

API

2025年1月8日

SenseChat 5.5-latest

商汤

58.1

31.5

65

78.2

67.7

69

74.9

84.3

86.4

API

2025年1月8日

DeepSeek-V3

深度求索

58.8

31.5

74

76.3

69.1

70.6

75

86.5

73.2

API

2025年1月8日

Gemini-2.0-Flash-Exp

Google

56

31.5

79

77.8

66.8

73.2

75.3

84

70.5

API

2025年1月8日

Claude 3.5 Sonnet(20241022)

Anthropic

54.7

39.2

70

67.3

68.4

78.4

74.5

83.1

74.1

API

2025年1月8日

360zhinao2-o1

360

59.4

21.7

73

76.3

71

69

73.2

84.3

78.6

API

2025年1月8日

Doubao-pro-32k-241215

字节跳动

54.7

27.3

70

74

67.8

75.2

74.5

81.9

73.5

API

2025年1月8日

NebulaCoder-V5

中兴通讯

56

25.9

64

76

67.5

65

75.7

84.3

82.9

API

2025年1月8日

Qwen-max-latest

阿里巴巴

49.2

35.7

69

69.9

67

65.4

73.8

84.4

81.8

API

2025年1月8日

Qwen2.5-72B-Instruct

阿里巴巴

52.6

22.4

74

70.8

65.9

62.1

75.1

84.7

81.3

API

2025年1月8日

Step-2-16k

阶跃星辰

48.5

26.6

75

69.4

63.9

62.1

74.2

84.5

82.3

API

2025年1月8日

GLM-4-Plus

智谱AI

52.7

25.9

67

69.6

67.6

67

74.2

84.6

77.7

API

2025年1月8日

Grok-2-1212

X.AI

52

30.8

65

68.4

65.8

66.3

74.2

84.6

67.8

API

2025年1月8日

DeepSeek-R1-Lite-Preview

深度求索

54.4

25.2

55

73.1

64.9

71.2

73.2

86.1

71.2

网页

2025年1月8日

Qwen2.5-32B-Instruct

阿里巴巴

47.8

21

66

69.9

62.3

68.6

73.3

83.6

80.5

API

2025年1月8日

Sky-Chat-3.0

昆仑万维

52.6

30.1

51

70.7

64.1

61.4

74

81.2

82.3

API

2025年1月8日

DeepSeek-V2.5

深度求索

48.7

25.2

62

68.3

63.5

70.9

75

83.5

69.8

API

2025年1月8日

MiniMax-abab7-preview

MiniMax

47.4

18.9

62

68.4

63

63.4

75.6

84.6

81.8

API

2025年1月8日

Hunyuan-Turbo

腾讯

52.4

27.3

36

71

65.2

67

76.2

83.1

82.5

API

2025年1月8日

TeleChat2-Large

TeleAI

51.6

34.3

44

69.8

64.9

57.5

72.8

84.7

80.9

API

2025年1月8日

ERNIE-4.0-Turbo-8K-Latest

百度

46.1

19.6

71.1

62.6

62

59.5

74.1

82.8

81.6

API

2025年1月8日

Baichuan4

百川智能

60.2

18.9

56

66.7

62.9

56.5

72.7

83

79

API

2025年1月8日

GPT-4o-mini

OpenAI

46.4

21

61

67.3

58.5

64.1

73.2

82.4

71.9

API

2025年1月8日

kimi

Kimi

49.6

20.3

60.6

72.9

59.2

42.2

72

81.7

76.2

网页

2025年1月8日

Llama-3.3-70B-Instruct

Meta

43.7

32.9

40

65.4

64.1

69.6

68.8

79.2

70.6

API

2025年1月8日

TeleChat2-35B

TeleAI

48.5

27.3

37

61.1

60.9

44.8

71.9

81.8

81.1

模型

2025年1月8日

Qwen2.5-7B-Instruct

阿里巴巴

45.1

11.9

50

66.5

57.2

39.5

72

82.2

74.8

API

2025年1月8日

QwQ-32B-Preview

阿里巴巴

58.7

6.3

15

72.7

65.1

41.5

70.1

79.6

79.9

API

2025年1月8日

讯飞星火V4.0

科大讯飞

41.9

14

5

65

58.9

63.1

69.6

80.5

76

API

2025年1月8日

GLM-4-9B-Chat

智谱AI

37.7

9.1

48

57.3

53.9

40.5

72.1

81.6

71.6

模型

2025年1月8日

Gemma-2-9b-it

Google

35.2

9.8

23

52.7

55.2

40.5

69.9

78.1

73.1

模型

2025年1月8日

Yi-1.5-34B-Chat-16K

零一万物

37.4

10.5

14

60.1

53

31.4

70.8

79.4

77.5

模型

2025年1月8日

360Zhinao2-7B-Chat-4K

360

40.5

11.9

0

61.5

54.1

36.6

71

79.9

74.6

模型

2025年1月8日

Qwen2.5-3B-Instruct

阿里巴巴

36.1

9.8

10

59.4

53.3

19.9

70.7

78.5

77.4

API

2025年1月8日

Yi-1.5-9B-Chat-16K

零一万物

35.6

6.3

19

52.7

50.7

20.6

68.3

75.9

69.7

模型

2025年1月8日

MiniCPM3-4B

面壁智能

34.9

6.3

0

49.9

55.1

32.7

70.5

77.8

70.7

模型

2025年1月8日

Llama-3.1-8B-Instruct

Meta

34.4

11.2

17

46.8

51.5

30.1

64.4

74.2

65.8

API

2025年1月8日

Phi-3.5-Mini-Instruct

微软

32.6

8.4

1

48.5

50.9

27.8

66.4

75.1

70.7

模型

2025年1月8日

Gemma-2-2b-it

Google

24.6

9.8

1

41.3

47.3

20.6

66.2

73.9

68.2

模型

2025年1月8日

Mistral-7B-Instruct-v0.3

Mistral AI

28.4

2.8

3

38.6

46

9.2

55.9

59.2

55.5

模型

2025年1月8日

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • SuperCLUE开源模型排行榜(2024年12月)
  • SuperCLUE小模型10B榜(2024年12月)
  • SuperCLUE小模型5B榜(2024年12月)
  • SuperCLUE9大任务(2024年12月)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档