Meta再推AI神器，開源免費的模型Code Llama，對比ChatGPT如何？

Meta 近日釋出了一個基於 Llama 2 進行微調構建的大型語言模型 Code Llama。
（前情提要：ChatGPT企業版上線！OpenAI客製模型、共享對話… 六大功能一次看）
（背景補充：AI辦案！台灣檢警靠「ChatGPT」破獲1.5億虛擬貨幣詐騙案）

本文目錄

Meta 近日釋出了一個基於 Llama 2 進行微調構建的大型語言模型 Code Llama，可以使用文字提示生成程式碼，並且開源，可供研究和商業用途。

Code Llama 是針對程式碼任務的公開 LLM 的最先進技術，有可能使當前開發人員的工作流程更快、更高效，並降低學習編碼人員的進入門檻。 Code Llama 有潛力用作生產力和教育工具，幫助程式員編寫更強大、文件更齊全的軟體。

Code Llama 的工作原理

今年 7 月，Meta（原 Facebook）釋出了免費可商用的開源大模型 Llama 2。最新發布的 Code Llama 是 Llama2 的專門用於編碼的專用版本，是通過在其特定於程式碼的資料集上進一步訓練 Llama 2 來建立的，從同一資料集中取樣更多資料的時間更長。

總的來說，Code Llama 具有增強的編碼功能，建立在 Llama 2 之上。它可以根據程式碼和自然語言提示生成程式碼和有關程式碼的自然語言（例如，「給我寫一個輸出斐波那契序列的函式。」）它還可用於程式碼完成和除錯。

Code Llama 支援當今使用的許多最流行的語言，包括 Python、C++、Java、PHP、Typescript (Javascript)、C# 和 Bash。

Code Llama 目前擁有三個引數版本： 70 億引數、130 億引數、340 億引數 。

每個版本都使用 500B 程式碼 token 和程式碼相關資料進行訓練。 70 億和 130 億引數基礎模型和指令模型也經過了中間填充 (FIM) 功能的訓練，允許它們將程式碼插入到現有程式碼中，這意味著它們可以支援開箱即用的程式碼完成等任務。

這三種模型滿足不同的服務和延遲要求。例如，70 億模型可以在單個 GPU 上執行。 340 億模型返回最佳結果並提供更好的編碼輔助，但較小的 70 億和 130 億模型速度更快，更適合需要低延遲的任務，例如即時程式碼完成。Code Llama 模型提供了具有多達 10 萬個上下文 token 的穩定生成。所有模型都在 16,000 個 token 的序列上進行訓練，並在最多 100,000 個 token 的輸入上顯示出改進。

除了是生成更長程式的先決條件之外，擁有更長的輸入序列還可以為程式碼法學碩士解鎖令人興奮的新用例。例如，使用者可以為模型提供來自其程式碼庫的更多上下文，以使各代更相關。它還有助於除錯較大程式碼庫中的場景，在這種情況下，掌握與具體問題相關的所有程式碼對於開發人員來說可能具有挑戰性。當開發人員面臨除錯大量程式碼時，他們可以將整個程式碼長度傳遞到模型中。

Meta 還微調了 Code Llama 的兩個附加版本： Code Llama – Python 和 Code Llama – Instruct 。

Code Llama – Python 是 Code Llama 的語言專用變體，在 Python 程式碼的 100B token 上進一步微調。
Code Llama – Instruct 是 Code Llama 的指令微調和對齊版本。指令調整繼續訓練過程，但目標不同。該模型接受「自然語言指令」輸入和預期輸出。這使得它能夠更好地理解人們對提示的期望。我們建議在使用 Code Llama 進行程式碼生成時使用 Code Llama – Instruct 版本，因為 Code Llama – Instruct 已經過微調，可以用自然語言生成有用且安全的答案。

但是不建議使用 Code Llama 或 Code Llama – Python 執行一般自然語言任務，因為這兩個模型都不是為遵循自然語言指令而設計的。 Code Llama 專門用於特定於程式碼的任務，不適合作為其他任務的基礎模型。

Code Llama 的效能如何？

HumanEval 和 Mostly Basic Python 程式設計 (MBPP) 是兩個常用編碼能力測試基準 —— HumanEval 用於測試模型根據文件字串完成程式碼的能力，MBPP 用於測試模型根據描述編寫程式碼的能力。

根據這兩個測試基準對 Code Llama 測試顯示，Code Llama 優於開源、特定程式碼的 Llama，並且優於 Llama 2 本身。例如，Code Llama 34B 在 HumanEval 上得分為 53.7%，在 MBPP 上得分為 56.2%，超越了 ChatGPT，但在 HumanEval 上仍遜於 GPT-4。