????????「快意」大模型(KwaiYii) 是由快手AI團(tuán)隊(duì)從零到一獨(dú)立自主研發(fā)的一系列大規(guī)模語言模型(Large Language Model,LLM),當(dāng)前包含了多種參數(shù)規(guī)模的模型,并覆蓋了預(yù)訓(xùn)練模型(KwaiYii-Base)、對(duì)話模型(KwaiYii-Chat)。這里面我們介紹13B規(guī)模的系列模型KwaiYii-13B,其主要特點(diǎn)包括:
- KwaiYii-13B-Base預(yù)訓(xùn)練模型具備優(yōu)異的通用技術(shù)底座能力,在絕大部分權(quán)威的中/英文Benchmark上取得了同等模型尺寸下的State-Of-The-Art效果。例如,KwaiYii-13B-Base預(yù)訓(xùn)練模型在MMLU、CMMLU、C-Eval、HumanEval等Benchmark上目前處于同等模型規(guī)模的領(lǐng)先水平。
- KwaiYii-13B-Chat對(duì)話模型具備出色的語言理解和生成能力,支持內(nèi)容創(chuàng)作、信息咨詢、數(shù)學(xué)邏輯、代碼編寫、多輪對(duì)話等廣泛任務(wù),人工評(píng)估結(jié)果表明KwaiYii-13B-Chat超過主流的開源模型,并在內(nèi)容創(chuàng)作、信息咨詢和數(shù)學(xué)解題上接近ChatGPT(3.5)同等水平。
????????我們選取了行業(yè)中被廣泛認(rèn)可的權(quán)威Benchmark進(jìn)行評(píng)測(cè),例如體現(xiàn)英文綜合能力的MMLU、體現(xiàn)中文綜合能力的C-Eval和CMMLU、體現(xiàn)中小學(xué)數(shù)學(xué)能力的GSM8K以及體現(xiàn)代碼能力的HumanEval,并與行業(yè)上的主流模型在上述Benchmark上匯報(bào)的指標(biāo)結(jié)果進(jìn)行比較。具體對(duì)比結(jié)果如下所示:
- C-Eval是一個(gè)全面的中文基礎(chǔ)模型評(píng)測(cè)數(shù)據(jù)集,由清華大學(xué)、上海交通大學(xué)和愛丁堡大學(xué)合作構(gòu)建,包含12342道單項(xiàng)選擇題,涵蓋數(shù)學(xué)、物理、化學(xué)、生物、歷史、政治、計(jì)算機(jī)等52個(gè)不同學(xué)科和四個(gè)難度級(jí)別,是最具影響力的中文綜合性考試評(píng)測(cè)集之一。其采用5-shot的方式進(jìn)行評(píng)測(cè)。
Model 5-shot | Average | STEM | Social Sciences |
Humanities | Others | |
---|---|---|---|---|---|---|
預(yù)訓(xùn)練模型 | KwaiYii-13B-Base | 62.6 | 52.7 | 74.1 | 68.8 | 63.7 |
ChatGLM2-12B-Base | 61.6 | 55.4 | 73.7 | 64.2 | 59.4 | |
Qwen-7B | 59.6 | 52.8 | 74.1 | 63.1 | 55.2 | |
Baichuan-13B-Base | 53.6 | 47 | 66.8 | 57.3 | 49.8 | |
對(duì)話模型 | ChatGLM2 | 71.1 | 64.4 | 81.6 | 73.7 | 71.3 |
GPT-4 | 68.7 | 67.1 | 77.6 | 64.5 | 67.8 | |
KwaiYii-13B-Chat | 59.0 | 49.9 | 69.2 | 63.9 | 61.0 | |
ChatGLM2-12B-Chat | 57.0 | 52.1 | 69.3 | 58.5 | 53.2 | |
GPT-3.5 | 54.4 | 52.9 | 61.8 | 50.9 | 53.6 | |
Baichuan-13B-Chat | 51.5 | 43.7 | 64.6 | 56.2 | 49.2 |
- MMLU由加州大學(xué)伯克利分校等知名高校共同打造,集合了科學(xué)、工程、數(shù)學(xué)、人文、社會(huì)科學(xué)等領(lǐng)域的57個(gè)科目,包含14079道單項(xiàng)選擇題,主要目標(biāo)是對(duì)模型的英文跨學(xué)科專業(yè)能力進(jìn)行深入測(cè)試。其內(nèi)容廣泛,從初級(jí)水平一直涵蓋到高級(jí)專業(yè)水平,同樣采用5-shot方式進(jìn)行評(píng)測(cè)。
Model 5-shot | Average | STEM | Social Sciences |
Humanities | Others | |
---|---|---|---|---|---|---|
預(yù)訓(xùn)練模型 |
KwaiYii-13B-Base | 57.42 | 46.82 | 68.83 | 51.56 | 64.96 |
Qwen-7B | 56.7 | - | - | - | - | |
ChatGLM2-12B-Base | 56.18 | 48.18 | 65.13 | 52.58 | 60.93 | |
Llama2-13B-Base | 54.8 | - | - | - | - | |
Baichuan-13B-Base | 51.6 | 41.6 | 60.9 | 47.4 | 58.5 | |
Llama1-13B-Base | 46.9 | - | - | - | - | |
對(duì)話模型 |
GPT-4 | 86.4 | - | - | - | - |
GPT-3.5 | 70.0 | - | - | - | - | |
KwaiYii-13B-Chat | 56.44 | 46.79 | 66.36 | 50.73 | 64.28 | |
ChatGLM2-12B-Chat | 52.13 | 47.00 | 61.00 | 46.10 | 56.05 | |
Baichuan-13B-Chat | 52.1 | 40.9 | 60.9 | 48.8 | 59.0 |
- CMMLU是一個(gè)綜合性的中文評(píng)估基準(zhǔn),專門用于評(píng)估語言模型在中文語境下的知識(shí)和推理能力。CMMLU涵蓋了從基礎(chǔ)學(xué)科到高級(jí)專業(yè)水平的67個(gè)主題,包括:需要計(jì)算和推理的自然科學(xué),需要知識(shí)的人文科學(xué)和社會(huì)科學(xué),以及需要生活常識(shí)的中國(guó)駕駛規(guī)則等,共11582道單項(xiàng)選擇題。此外,CMMLU中的許多任務(wù)具有中國(guó)特色,可能在其他地區(qū)或語言中并不普遍適用,是一個(gè)完全中國(guó)化的中文測(cè)試基準(zhǔn)。評(píng)測(cè)分別采用5-shot和0-shot的方式進(jìn)行。
Model 5-shot | 平均分 | STEM | 人文學(xué)科 | 社會(huì)科學(xué) | 其他 | 中國(guó)特定 主題 |
|
---|---|---|---|---|---|---|---|
預(yù)訓(xùn)練模型 |
KwaiYii-13B-Base | 61.73 | 46.54 | 69.22 | 64.49 | 65.09 | 63.10 |
Qwen-7B-Base | 58.66 | 48.39 | 63.77 | 61.22 | 62.14 | 58.73 | |
MiLM-6B | 57.17 | 46.85 | 61.12 | 61.68 | 58.84 | 59.39 | |
Baichuan-13B-Base | 55.82 | 42.38 | 61.61 | 60.44 | 59.26 | 56.62 | |
ChatGLM2-6B-Base | 48.80 | 42.55 | 50.98 | 50.99 | 50.80 | 48.37 | |
對(duì)話模型 | GPT-4 | 70.95 | 65.23 | 72.11 | 72.06 | 74.79 | 66.12 |
KwaiYii-13B-Chat | 59.97 | 47.33 | 65.85 | 62.19 | 62.23 | 61.00 | |
Baichuan-13B-Chat | 55.8 | 42.8 | 62.6 | 59.7 | 59.0 | 56.1 | |
GPT-3.5 | 55.51 | 47.81 | 55.68 | 56.50 | 62.66 | 50.69 |
Model 0-shot | 平均分 | STEM | 人文學(xué)科 | 社會(huì)科學(xué) | 其他 | 中國(guó)特定 主題 |
|
---|---|---|---|---|---|---|---|
預(yù)訓(xùn)練模型 | KwaiYii-13B-Base | 61.22 | 46.82 | 69.35 | 63.42 | 64.02 | 63.26 |
MiLM-6B | 60.37 | 48.88 | 63.49 | 66.20 | 62.14 | 62.07 | |
Qwen-7B-Base | 57.57 | 46.33 | 62.54 | 60.48 | 61.72 | 58.77 | |
Baichuan-13B-Base | 54.63 | 42.04 | 60.49 | 59.55 | 56.60 | 55.72 | |
ChatGLM2-6B-Base | 49.95 | 41.28 | 52.85 | 53.37 | 52.24 | 50.58 | |
對(duì)話模型 | GPT-4 | 68.90 | 63.16 | 69.19 | 70.26 | 73.16 | 63.47 |
KwaiYii-13B-Chat | 60.41 | 46.15 | 66.49 | 63.25 | 62.68 | 61.94 | |
GPT-3.5 | 53.22 | 44.80 | 53.61 | 54.22 | 59.95 | 49.74 |
- GSM8K是由OpenAI構(gòu)建的高中數(shù)學(xué)應(yīng)用題數(shù)據(jù)集,包含8500道高質(zhì)量的數(shù)據(jù),主要目標(biāo)是對(duì)模型的數(shù)學(xué)推理能力進(jìn)行評(píng)測(cè),其中測(cè)試集1319條數(shù)據(jù),每個(gè)問題都需要2-8個(gè)步驟來解決,解決方案主要包括使用基本算術(shù)運(yùn)算(+ ? × ÷)進(jìn)行一系列的基本計(jì)算,以得到最終答案。其采用8-shot進(jìn)行評(píng)測(cè)。
Model 8-shot | GSM8K | |
---|---|---|
預(yù)訓(xùn)練模型 | Qwen-7B-Base | 51.6 |
KwaiYii-13B-Base | 48.4 | |
ChatGLM2-12B-Base | 40.94 | |
Llama2-13B-Base | 28.7 | |
Baichuan-13B-Base | 22.44 | |
對(duì)話模型 |
GPT-4 | 92.0 |
GPT-3.5 | 57.1 | |
KwaiYii-13B-Chat | 52.2 | |
Qwen-7B-Chat | 43.5 | |
ChatGLM2-12B-Chat | 38.13 |
- HumanEval是OpenAI和Anthropic AI一起制作的代碼數(shù)據(jù)集,包含164個(gè)原創(chuàng)編程題,涉及語言理解、算法、數(shù)學(xué)和軟件面試幾種類型的題目。其采用0-shot的方式進(jìn)行評(píng)測(cè)。
Model 0-shot | HumanEval @Pass1 |
|
---|---|---|
預(yù)訓(xùn)練模型 |
KwaiYii-13B-Base | 40.8 |
Qwen-7B-Base | 24.4 | |
Llama2-13B-Base | 18.3 | |
Llama1-13B-Base | 15.8 | |
對(duì)話模型 |
GPT-4 | 67.0 |
GPT-3.5 | 48.1 | |
KwaiYii-13B-Chat | 43.3 | |
Qwen-7B-Chat | 24.4 | |
Llama2-13B-Chat | 15.85 |
????????從對(duì)比結(jié)果可以看出,KwaiYii-13B-Base及KwaiYii-13B-Chat模型在各榜單中均處于領(lǐng)先水平。在MMLU、CMMLU、C-Eval等體現(xiàn)綜合學(xué)科類的Benchmark上領(lǐng)先,說明KwiiYii-13B-Base預(yù)訓(xùn)練模型在中英文雙語學(xué)科和行業(yè)領(lǐng)域的知識(shí)能力突出。在GSM8K數(shù)學(xué)評(píng)測(cè)集上及HumanEval編程測(cè)評(píng)集上的優(yōu)異表現(xiàn),則體現(xiàn)了模型較好的數(shù)理邏輯及代碼能力。
????????Benchmark指標(biāo)體現(xiàn)了語言模型的基礎(chǔ)理解能力,更直觀地,我們?nèi)斯ぴu(píng)估了模型在各類任務(wù)上遵循用戶指令的能力。我們構(gòu)建了一個(gè)高質(zhì)量評(píng)測(cè)集,包含了內(nèi)容創(chuàng)作、信息咨詢、數(shù)學(xué)解題、邏輯推理、代碼能力和多輪對(duì)話共6個(gè)類別。其中內(nèi)容創(chuàng)作包括文章寫作、翻譯、摘要總結(jié)等根據(jù)給定約束生成文本的任務(wù),以及對(duì)實(shí)體/事件的觀點(diǎn)描述等;信息咨詢偏向信息獲取,如知識(shí)/常識(shí)咨詢,景點(diǎn)、電影和音樂推薦等;數(shù)學(xué)解題主要包含四則運(yùn)算、應(yīng)用題、方程等數(shù)學(xué)問題;邏輯推理主要包括事實(shí)推理、演繹推理和數(shù)據(jù)統(tǒng)計(jì)等;代碼能力包含代碼編寫、代碼調(diào)試、Bug分析;多輪對(duì)話則主要體現(xiàn)在一個(gè)Session中持續(xù)對(duì)話的上下文意圖理解和產(chǎn)生正確回復(fù)的能力。
????????為了直觀地比較待評(píng)測(cè)模型與ChatGPT的效果差異,對(duì)于評(píng)測(cè)集中的每個(gè)問題,我們都評(píng)測(cè)了其與ChatGPT的Good:Same:Bad(下文簡(jiǎn)稱GSB,其中Good表示評(píng)測(cè)集中,待評(píng)測(cè)模型比ChatGPT表現(xiàn)更好的數(shù)量,Same則表示表現(xiàn)持平的數(shù)量,Bad則是待評(píng)測(cè)模型比ChatGPT表現(xiàn)更差的數(shù)量)結(jié)果。具體而言,我們將待評(píng)測(cè)模型與ChatGPT進(jìn)行雙盲對(duì)比測(cè)試:對(duì)于每一個(gè)Query,我們隱藏模型信息,并打亂兩個(gè)模型的答案順序,然后分配給多名評(píng)測(cè)者,評(píng)測(cè)人員根據(jù)內(nèi)容正確性、內(nèi)容相關(guān)性、內(nèi)容詳實(shí)性等維度進(jìn)行打分,然后從“模型A好”、“模型B好”、“兩者一樣好”、“兩者都一般”以及“兩者一樣差”五個(gè)選項(xiàng)中進(jìn)行選擇,最終再根據(jù)多名評(píng)測(cè)人員的GSB評(píng)測(cè)結(jié)果,按照規(guī)則擬合成該條數(shù)據(jù)的統(tǒng)一GSB結(jié)果。
????????我們對(duì)KwaiYii-13B-Chat模型以及同等參數(shù)規(guī)模的行業(yè)主流模型,均與ChatGPT(3.5)進(jìn)行了對(duì)比和人工評(píng)估,其各自的得分如下圖所示。從人工評(píng)估的結(jié)果來看,KwaiYii-13B-Chat超過了同等規(guī)模的開源模型,并接近ChatGPT同等水平。在內(nèi)容創(chuàng)作、信息咨詢、邏輯推理和數(shù)學(xué)解題上,基本與ChatGPT(3.5)效果相當(dāng)。在多輪對(duì)話能力方面,KwaiYii-13B-Chat超過同等規(guī)模的開源模型,但與ChatGPT(3.5)仍有一定差距。注意:人工評(píng)估結(jié)果受到評(píng)測(cè)數(shù)據(jù)覆蓋面、標(biāo)注主觀性等因素的影響,無法全面反映大語言模型的所有能力。