Claude 3超越GPT-4！擅長推理、數(shù)學、編碼，教育變革比想象中來得更快

2024-03-05 10:22:46發(fā)布來源：多知網(wǎng) 作者：Penny

　　美國人工智能初創(chuàng)公司Anthropic 周一宣布，推出下一代 AI 模型 Claude 3。包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。這三種模型在推理、數(shù)學、編碼、多語言理解和視覺方面成績亮眼，樹立了新的行業(yè)標準。

　　Anthropic稱：“每個模型都顯示出在分析和預(yù)測、細致內(nèi)容創(chuàng)建、代碼生成以及西班牙語、日語和法語等非英語語言對話方面的增強能力。”

　　Anthropic稱，Opus在行業(yè)基準測試中表現(xiàn)優(yōu)于OpenAI的GPT-4和谷歌的Gemini Ultra，比如在推理、數(shù)學和編碼能力，接近人類的理解能力。

　　Claude 3是多模態(tài)大模型，提供復雜視覺功能，可以處理各種視覺格式，包括照片、圖表、圖形和技術(shù)圖表。

　　有網(wǎng)友評論，與Claude 3相比，GPT-4在編碼和數(shù)學方面就像是石器時代的舊技術(shù)。

　　Claude 3可以應(yīng)用于需要高度智能和復雜任務(wù)處理的場景，如企業(yè)自動化、復雜金融預(yù)測、研究和開發(fā)等。

　　亞馬遜云旗下的生成式AI服務(wù)Amazon Bedrock第一時間接入了Claude，服務(wù)于全球客戶，他們很快將使用 Claude 3 模型，以進一步推動快速創(chuàng)新。

　　亞馬遜云舉例，韓國的電信公司和無線運營商KT開發(fā)了一項名為AI Call Report 的服務(wù)，該服務(wù)可以改善家校互通。

　　具體來看，AI Call Report 使用Amazon Bedrock 上的Claude來實時記錄(在同意的情況下)、總結(jié)和翻譯教師、學生和家長之間的通話，從而改善教師能夠?qū)Ｗ⒂谂c學生和家庭的互動，并最大限度地減少以前的手動和費力的過程。該服務(wù)將于今年三月韓國新學年開始時在學校推出。

　　Perplexity AI是一家對話式人工智能公司，它在 Bedrock 上使用 Anthropic 的 Claude 2 來快速測試和部署對其一般問答功能的改進，提供聽起來更自然的答案，并構(gòu)建新功能。

　　Claude 3強在哪里？

　　Claude的模型家族：

　　Anthropic稱，Opus在人工智能系統(tǒng)的大多數(shù)常見評估基準上都優(yōu)于同行，包括本科水平專家知識 (MMLU)、研究生水平專家推理 (GPQA)、基礎(chǔ)數(shù)學 (GSM8K) 等。它在復雜任務(wù)上表現(xiàn)出接近人類水平的理解力和流暢性。

　　Claude 3 模型可以支持實時客戶聊天、自動完成和數(shù)據(jù)提取任務(wù)。

　　Claude 3 有200k的對話長度，相當于能夠單次處理超過15萬英文單詞，而GPT-4 Turbo的上下文窗口為128k，約9.6萬個英文單詞。

　　Haiku相應(yīng)速度快，它可以在不到三秒的時間內(nèi)閱讀 arXiv 上包含圖表和圖形的信息和數(shù)據(jù)密集的研究論文(約 10k 代幣)。未來正式發(fā)布有望進一步提高性能。

　　Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍，且智能水平更高，它擅長執(zhí)行需要快速響應(yīng)的任務(wù)，例如知識檢索或銷售自動化;Opus 的速度與 Claude 2 和 2.1 相似，但智能水平更高。

　　Opus和Sonnet周一已經(jīng)向159個國家和地區(qū)開放，而Haiku將在未來幾周內(nèi)推出。

　　視覺能力突出

　　Claude 3 擅長復雜視覺功能，他們可以處理各種視覺格式，包括照片、圖表、圖形和技術(shù)圖表。比如一些客戶的知識庫各種格式排版，例如 PDF、流程圖或演示幻燈片。

　　值得注意的是，Claude 3不生成圖像；但它允許用戶上傳圖像和其他文檔進行分析。Claude 3能夠“認”出來圖里的是什么東西，直接描述，回答用戶的問題，這和GPT-4l類似。

　　更高的準確性

　　大模型的幻覺問題一直是行業(yè)難題之一。

　　Anthropic將答案分為正確答案、錯誤答案(或幻覺)和承認不確定性，如果不知道，模型表示它不知道答案，而不是提供不正確的信息。

　　Anthropic提到，與 Claude 2.1 相比，Opus 在這些具有挑戰(zhàn)性的開放式問題上的準確性(或正確答案)提高了一倍，同時也減少了錯誤答案的水平。

　　除了產(chǎn)生更值得信賴的回復之外，未來，Anthropic還將在 Claude 3 模型中啟用引用，以便他們可以指向參考材料中的精確句子來驗證他們的答案。

　　從OpenAI離開，走了不同的道路

　　Anthropic創(chuàng)始人Daniela Amodei和Dario Amodei均是OpenAI前高層，后者曾是OpenAI的研究副總裁，他們當初離開OpenAI是不滿依附于微軟，他們于2021年創(chuàng)立該公司，目標是開發(fā)與OpenAI競爭的生成式人工智能模型。該公司也是OpenAI之外最受關(guān)注的人工智能公司。

　　在過去的一年時間里，Anthropic完成了五筆不同的融資交易，總額約為73億美元，該公司在去年12月底估值達到了184億美元，投資者包括谷歌、Salesforce和亞馬遜等。

　　Claude與ChatGPT從一開始就走了不同的道路。

　　在模型訓練上，Claude與ChatGPT雖然都是靠強化學習(RL)來訓練偏好模型，并進行后續(xù)微調(diào)。

　　但是，在訓練方法上，Claude又與ChatGPT略有不同，ChatGPT采用人類反饋強化學習(RLHF)，Claude采用的原發(fā)人工智能方法，是基于偏好模型而非人工反饋來進行訓練的，因此，這種方法又被稱為“AI反饋強化學習”，即RLAIF。

　　底層的不同，造成了 Claude與ChatGPT有不同的體驗。

商學院

Open Talk

Claude 3超越GPT-4！擅長推理、數(shù)學、編碼，教育變革比想象中來得更快

相關(guān)閱讀

商學院

Open Talk

Claude 3超越GPT-4！擅長推理、數(shù)學、編碼，教育變革比想象中來得更快

相關(guān)閱讀

Claude 3超越GPT-4！擅長推理、數(shù)學、編碼，教育變革比想象中來得更快