評測結(jié)果
CodeGeeX4-ALL-9B 被評為參數(shù)量100 億內(nèi)的最強模型,甚至超越了參數(shù)量大幾倍的通用模型,在推理性能和模型能力之間達到了最佳效果。
點擊圖片可查看完整電子表格
在 BigCodeBench 的 complete 和 instruct 任務中,CodeGeeX4-ALL-9B 分別取得了 48.9 和 40.4 的高分,這在參數(shù)量 200 億內(nèi)的模型中是最高的分數(shù)。
NaturalCodeBench測試結(jié)果顯示,CodeGeeX4-ALL-9B在代碼補全、代碼解釋器、代碼問答、代碼翻譯、代碼修復等任務上均取得了最佳效果:
Crux-Eval 是測試代碼推理、理解和執(zhí)行能力的基準測試,借助于其強大的 COT 能力,CodeGeeX4-ALL-9B 展現(xiàn)出色的表現(xiàn)。在 HumanEval、MBPP 和 NaturalCodeBench 等代碼生成任務中,CodeGeeX4-ALL-9B 也取得了出色的成績。目前,它是唯一支持 Function Call 功能的代碼模型,甚至取得了比 GPT-4 更高的分數(shù)。
CodeGeeX4-ALL-9B上下文處理能力達到了128K
在“Code Needle In A Haystack” (NIAH) 評估中,CodeGeeX4-ALL-9B 模型展示了在 128K 范圍內(nèi)檢索代碼的能力,在python語言環(huán)境達到了 100% 的檢索準確率,并在跨文件補全任務中表現(xiàn)出色。
![]() |
![]() |
上圖展示的是在一個全部由Python代碼組成的測試集中,插入一個賦值語句如:
?zhipu_codemodel = "codegeex"(Needle)
?,測試模型是否可以正確回答出?zhipu_codemodel
?的值,CodeGeeX4-ALL-9B 100%完成任務。
Cross-File Evaluation是一個多語言的基準,建立在Python、Java、TypeScript和C#的多樣化真實倉庫之上。它使用基于靜態(tài)分析的方法,嚴格要求跨文件上下文以實現(xiàn)準確的代碼補全。
點擊圖片可查看完整電子表格
在主流編程語言的效果評測上,CodeGeeX4代模型相比上一代模型優(yōu)化效果明顯。
更多建議: