Claude與ChatGPT從一開始就走了不同的道路。

Claude 3超越GPT-4!擅長推理、數(shù)學、編碼,教育變革比想象中來得更快

2024-03-05 10:22:46發(fā)布     來源:多知網(wǎng)    作者:Penny  

  美國人工智能初創(chuàng)公司Anthropic 周一宣布,推出下一代 AI 模型 Claude 3。包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。這三種模型在推理、數(shù)學、編碼、多語言理解和視覺方面成績亮眼,樹立了新的行業(yè)標準。

  Anthropic稱:“每個模型都顯示出在分析和預測、細致內(nèi)容創(chuàng)建、代碼生成以及西班牙語、日語和法語等非英語語言對話方面的增強能力。”

  Anthropic稱,Opus在行業(yè)基準測試中表現(xiàn)優(yōu)于OpenAI的GPT-4和谷歌的Gemini Ultra,比如在推理、數(shù)學和編碼能力,接近人類的理解能力。

  Claude 3是多模態(tài)大模型,提供復雜視覺功能,可以處理各種視覺格式,包括照片、圖表、圖形和技術圖表。

  有網(wǎng)友評論,與Claude 3相比,GPT-4在編碼和數(shù)學方面就像是石器時代的舊技術。

  Claude 3可以應用于需要高度智能和復雜任務處理的場景,如企業(yè)自動化、復雜金融預測、研究和開發(fā)等。

  亞馬遜云旗下的生成式AI服務Amazon Bedrock第一時間接入了Claude,服務于全球客戶,他們很快將使用 Claude 3 模型,以進一步推動快速創(chuàng)新。

  亞馬遜云舉例,韓國的電信公司和無線運營商KT開發(fā)了一項名為AI Call Report 的服務,該服務可以改善家?;ネā?/strong>

  具體來看,AI Call Report 使用Amazon Bedrock 上的Claude來實時記錄(在同意的情況下)、總結和翻譯教師、學生和家長之間的通話,從而改善教師能夠?qū)W⒂谂c學生和家庭的互動,并最大限度地減少以前的手動和費力的過程。該服務將于今年三月韓國新學年開始時在學校推出。

  Perplexity AI是一家對話式人工智能公司,它在 Bedrock 上使用 Anthropic 的 Claude 2 來快速測試和部署對其一般問答功能的改進,提供聽起來更自然的答案,并構建新功能。

  Claude 3強在哪里?

  Claude的模型家族:

  image.png

 

  Anthropic稱,Opus在人工智能系統(tǒng)的大多數(shù)常見評估基準上都優(yōu)于同行,包括本科水平專家知識 (MMLU)、研究生水平專家推理 (GPQA)、基礎數(shù)學 (GSM8K) 等。它在復雜任務上表現(xiàn)出接近人類水平的理解力和流暢性。

  111.png

 

  Claude 3 模型可以支持實時客戶聊天、自動完成和數(shù)據(jù)提取任務。

  Claude 3 有200k的對話長度,相當于能夠單次處理超過15萬英文單詞,而GPT-4 Turbo的上下文窗口為128k,約9.6萬個英文單詞。

  Haiku相應速度快,它可以在不到三秒的時間內(nèi)閱讀 arXiv 上包含圖表和圖形的信息和數(shù)據(jù)密集的研究論文(約 10k 代幣)。未來正式發(fā)布有望進一步提高性能。

  Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高,它擅長執(zhí)行需要快速響應的任務,例如知識檢索或銷售自動化;Opus 的速度與 Claude 2 和 2.1 相似,但智能水平更高。

  Opus和Sonnet周一已經(jīng)向159個國家和地區(qū)開放,而Haiku將在未來幾周內(nèi)推出。

  視覺能力突出

  Claude 3 擅長復雜視覺功能,他們可以處理各種視覺格式,包括照片、圖表、圖形和技術圖表。比如一些客戶的知識庫各種格式排版,例如 PDF、流程圖或演示幻燈片。

  值得注意的是,Claude 3不生成圖像;但它允許用戶上傳圖像和其他文檔進行分析。Claude 3能夠“認”出來圖里的是什么東西,直接描述,回答用戶的問題,這和GPT-4l類似。

  更高的準確性

  大模型的幻覺問題一直是行業(yè)難題之一。

  Anthropic將答案分為正確答案、錯誤答案(或幻覺)和承認不確定性,如果不知道,模型表示它不知道答案,而不是提供不正確的信息。

  Anthropic提到,與 Claude 2.1 相比,Opus 在這些具有挑戰(zhàn)性的開放式問題上的準確性(或正確答案)提高了一倍,同時也減少了錯誤答案的水平。

  除了產(chǎn)生更值得信賴的回復之外,未來,Anthropic還將在 Claude 3 模型中啟用引用,以便他們可以指向參考材料中的精確句子來驗證他們的答案。

  從OpenAI離開,走了不同的道路

  Anthropic創(chuàng)始人Daniela Amodei和Dario Amodei均是OpenAI前高層,后者曾是OpenAI的研究副總裁,他們當初離開OpenAI是不滿依附于微軟,他們于2021年創(chuàng)立該公司,目標是開發(fā)與OpenAI競爭的生成式人工智能模型。該公司也是OpenAI之外最受關注的人工智能公司。

  在過去的一年時間里,Anthropic完成了五筆不同的融資交易,總額約為73億美元,該公司在去年12月底估值達到了184億美元,投資者包括谷歌、Salesforce和亞馬遜等。

  Claude與ChatGPT從一開始就走了不同的道路。

  在模型訓練上,Claude與ChatGPT雖然都是靠強化學習(RL)來訓練偏好模型,并進行后續(xù)微調(diào)。

  但是,在訓練方法上,Claude又與ChatGPT略有不同,ChatGPT采用人類反饋強化學習(RLHF),Claude采用的原發(fā)人工智能方法,是基于偏好模型而非人工反饋來進行訓練的,因此,這種方法又被稱為“AI反饋強化學習”,即RLAIF。

  底層的不同,造成了 Claude與ChatGPT有不同的體驗。