亚洲欧美在线人成|亚洲国产日韩欧美综合久久|亚洲国产精品综合久久网络|精品福利日韩欧美综合天天网

    <strike id="msocu"><fieldset id="msocu"></fieldset></strike>
  • <th id="msocu"></th>
    <table id="msocu"></table>
  • <button id="msocu"><dd id="msocu"></dd></button><option id="msocu"><dd id="msocu"></dd></option>
  • <wbr id="msocu"></wbr>
  • <pre id="msocu"></pre>
    您當(dāng)前的位置 :創(chuàng)業(yè) >
    解決傳統(tǒng)架構(gòu)記憶瓶頸 MiniMax發(fā)布新一代模型
    2025-01-16 10:47:16   來源:新京報(bào)  分享 分享到搜狐微博 分享到網(wǎng)易微博

    1月15日,“AI六小虎”之一的MiniMax發(fā)布并開源了新一代01系列模型,包含基礎(chǔ)語言大模型MiniMax-Text-01和視覺多模態(tài)大模型MiniMax-VL-01。該系列模型使用多項(xiàng)突破性創(chuàng)新,以大規(guī)模應(yīng)用線性注意力機(jī)制打破了Transformer傳統(tǒng)架構(gòu)的記憶瓶頸。

    未來,AI智能體有望成為最重要的產(chǎn)品形態(tài),由于智能體處理的任務(wù)變得越來越復(fù)雜,涉及的數(shù)據(jù)量也越來越大,單個(gè)智能體的記憶以及多個(gè)智能體協(xié)作間的上下文都會變得越來越長。因此,長上下文能力與多模態(tài)處理能力的提升至關(guān)重要。

    技術(shù)上,MiniMax-01系列模型首次將線性注意力機(jī)制擴(kuò)展到商用模型的級別,受益于此次架構(gòu)創(chuàng)新,該系列模型在處理長輸入的時(shí)候具有非常高的效率,接近線性復(fù)雜度。從規(guī)模效應(yīng)、結(jié)構(gòu)設(shè)計(jì)、訓(xùn)練優(yōu)化和推理優(yōu)化等層面綜合考慮,MiniMax選擇模型參數(shù)量為4560億,其中每次激活459億,能夠高效處理400萬token的上下文,將有效替代Transformer傳統(tǒng)架構(gòu)并開啟超長文本輸入時(shí)代。相較于Gemini等一眾全球頂級模型,MiniMax-01隨著輸入長度變長,性能衰減最慢。

    值得注意的是,MiniMax還開源了Text-01模型、VL-01模型的完整權(quán)重,以便于更多開發(fā)者做有價(jià)值、突破性的研究。MiniMax方面表示,“我們認(rèn)為這有可能啟發(fā)更多長上下文的研究和應(yīng)用,從而更快促進(jìn)Agent時(shí)代的到來,二是開源也能促使我們努力做更多創(chuàng)新,更高質(zhì)量地開展后續(xù)的模型研發(fā)工作。”

    關(guān)鍵詞:


    [責(zé)任編輯:ruirui]





    關(guān)于我們| 客服中心| 廣告服務(wù)| 建站服務(wù)| 聯(lián)系我們
     

    中國焦點(diǎn)信息網(wǎng) 版權(quán)所有 滬ICP備2022005074號-20,未經(jīng)授權(quán),請勿轉(zhuǎn)載或建立鏡像,違者依法必究。