操欧美大逼-操榴视频-操操网址-不卡一区二区在线观看-亚洲人成在线中文字幕-亚洲人成在线免费观看

首頁 > 汽車技巧 > 汽車技巧 > OpenAI 發布 o1-mini : 更經濟高效的推理模型 | LibreOffice 24.8.1 發布

OpenAI 發布 o1-mini : 更經濟高效的推理模型 | LibreOffice 24.8.1 發布

發布時間:2024-09-16 16:27:04來源: 13041198719

OpenAI 發布 o1-mini:更經濟高效的推理模型

OpenAI 推出 o1-mini,一款專注于 STEM 領域的經濟高效推理模型。o1-mini 在數學和編碼方面表現出色,接近 OpenAI o1 的水平,同時成本更低,速度更快。

一、o1-mini 簡介

  • OpenAI o1-mini 是一款專注于 STEM 領域的經濟高效推理模型,尤其擅長數學和編碼。
  • o1-mini 在 AIME 和 Codeforces 等評估基準測試中接近 OpenAI o1 的性能。
  • o1-mini 比 OpenAI o1-preview 便宜 80%,并且延遲更低,速率限制更高。

二、o1-mini 的優勢

  • STEM 領域推理能力強 :o1-mini 經過專門優化,在 STEM 領域表現出色,尤其在數學和編碼方面。
  • 成本效益高 :o1-mini 比大型語言模型更小,因此運行成本更低,更適合實際應用。
  • 速度更快 :o1-mini 的響應速度比大型語言模型更快,例如在單詞推理問題上比 GPT-4o 快 3-5 倍。

三、o1-mini 的性能表現

領域

基準測試

o1-mini

o1-preview

o1

GPT-4o

數學

AIME

70.0%

44.6%

74.4%

-

編碼

Codeforces Elo

1650

1258

1673

-

STEM

GPQA (科學)

更高

更低

-

更低

STEM

MATH-500

更高

-

-

更低

 

MMLU

-

-

-

更高

  • o1-mini 在 AIME 數學競賽中取得了 70.0% 的成績,與 o1 (74.4%) 相當,并優于 o1-preview (44.6%)。
  • o1-mini 在 Codeforces 編碼競賽中獲得了 1650 Elo 的評分,與 o1 (1673) 相當,并高于 o1-preview (1258)。
  • 在一些需要推理能力的學術基準測試中,例如 GPQA (科學) 和 MATH-500,o1-mini 的表現優于 GPT-4o。
  • 在人類偏好評估中,o1-mini 在需要推理能力的領域優于 GPT-4o,但在語言類領域則不如 GPT-4o。

四、o1-mini 的安全性

  • o1-mini 采用與 o1-preview 相同的對齊和安全技術進行訓練。
  • 在內部版本的 StrongREJECT 數據集上,o1-mini 的越獄魯棒性比 GPT-4o 高 59%。

指標

GPT-4o

o1-mini

對有害提示的拒絕率(標準)

0.99

0.99

對有害提示的安全完成率(挑戰:越獄和邊緣案例)

0.714

0.932

對良性邊緣案例的合規性(“不過度拒絕”)

0.91

0.923

Goodness@0.1 StrongREJECT 越獄評估

0.22

0.83

人工來源的越獄評估

0.77

0.95

五、o1-mini 的局限性

  • o1-mini 在非 STEM 主題(如日期、傳記和冷知識)方面的知識儲備有限。

六、未來展望

  • OpenAI 將在未來版本中改進 o1-mini 在非 STEM 領域的知識儲備。
  • OpenAI 還將嘗試將 o1-mini 擴展到其他模態和 STEM 以外的專業領域。

OpenAI o1-mini 是一款專注于 STEM 領域的經濟高效推理模型,在數學和編碼方面表現出色。o1-mini 比大型語言模型更經濟、更快,是需要推理能力但對世界知識要求不高的應用的理想選擇。

來源:

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

 

LibreOffice 24.8.1 發布,注重隱私保護的辦公套件

2024 年 9 月 12 日 – LibreOffice 24.8.1 發布! 這是 LibreOffice 24.8 系列的第一個次要版本 ,適用于 Windows(Intel、AMD 和 ARM)、macOS(Apple 和 Intel)和 Linux。

主要特點

  • 注重隱私: LibreOffice 24.8 系列專為注重隱私的辦公套件用戶而優化,他們希望完全控制自己共享的信息。LibreOffice 確保用戶能夠決定是否以及與誰共享他們創建的內容。
  • 功能豐富: LibreOffice 提供了一系列界面選項,以適應不同的用戶習慣,從傳統到現代,并通過優化桌 面上的可用空間,最大限度地利用不同的屏幕尺寸,只需點擊一兩次即可實現最多的功能。
  • 完全互操作性: LibreOffice 基于 LibreOffice 技術引擎,可提供更好的用戶體驗,并生成基于兩種可用 ISO 標準的相同且完全可互操作的文檔:開放文檔格式 (ODT、ODS 和 ODP) 和專有的 Microsoft OOXML (DOCX、XLSX 和 PPTX)。
  • 企業級支持: TDF 強烈推薦生態系統合作伙伴提供的 LibreOffice Enterprise 系列應用程序,適用于桌面、移動和云,具有廣泛的專用增值功能和其他優勢,例如 SLA。

汽車技巧更多>>

Gartner預測:2025年電動汽車出貨量將增長 17% 奇瑞風云A9即將盲訂:超5米混動四驅中大型車 加拿大電動汽車退稅計劃提前終止,資金耗盡促車企自補 騰勢Z9GT第1萬輛正式交付:最快交付破萬的新能源豪華轎車 委員談AI+教育,“不怕學生用得多,怕他們不會用” 運動與生活早已密不可分,他是身體力行的“體育人” 春運開啟,昆明長水機場應對即將到來的出入境客流高峰 深圳二手房交易量重新站上6萬套關口,樓市新政后連現5個“日光盤” 點燃數字引擎,加大場景創新,蘇州工行打造數字人民幣生態體系新篇章 他從上海到西藏定日,希望一點點平息孩子們心中的“余震” 比亞迪唐L插混版的全新升級,如何重新定義家用SUV? 小米YU7純電SUV來襲,3040萬價位能否引領新潮流? 堅守駕駛樂趣 進階數字智能 寶馬集團以堅實市場表現邁向新世代 阿斯頓·馬丁Vantage Roadster來襲,6.8秒敞篷開合,性能與顏值并存! 換裝新發動機并增加ABS,新大洲本田NS125LA升級 多項功能升級 長安啟源E07迎1.1版本OTA升級 比亞迪夏入局MPV,GL8、塞納、夢想家等曾經的優勢車型該如何應對 敞篷開/關只要6.8s?兄弟們先看看!沒準今年就開上了! 2025年溫州市財稅會計學校招聘公告 2025年杭州市第三人民醫院招聘工作人員公告 2025年江蘇鑫財國有資產運營有限公司招聘工作人員公告 2025年辰溪縣潭灣鎮潭灣社區關于招聘城鎮公益性崗位的公告(1人) 2025年玉林市福綿區農業機械化服務中心招聘見習生的公告(2人) 2025年貴港市覃塘區財政信息中心就業見習人員招募公告(2人) 2025年東莞市樟木頭實業控股集團有限公司招聘工程師的公告(1人) 2025年湛江市坡頭區社會保險基金管理局面向社會招聘編外工作人員公告(1人) 16年前“未完待續”的話劇《鹿鼎記》,有了全新版本 踏上幸福回家路!2025年春運今日開啟 時間淘洗經典,湖南文藝出版社“原創之春”走過二十周年 東南亞旅游降溫:游客“虧錢”退訂泰國旅游產品,春節期間上海往返曼谷機票降價近四成
主站蜘蛛池模板: 亚洲区精品久久一区二区三区 | 欧美成人精品第一区首页 | 日韩精品中文字幕视频一区 | 亚洲综合一区二区 | 色午夜视频 | 亚洲一区二区三区精品国产 | 四虎影视在线看 | 在线看片你懂的 | 俄罗斯精品18videosex性 | 美女www片免费 | 国产国语毛片 | 久久精品国产精品亚洲20 | 日韩欧美一区二区不卡看片 | a视频在线观看 | 日本最猛黑人xxxx猛交 | 亚洲国产第一区二区香蕉 | 2021国内精品久久久久影院 | 色综合天天综合网看在线影院 | 欧美天天干 | 91精品国产免费青青碰在线观看 | 国产一级特黄毛片 | 在线播放成人毛片免费视 | 午夜免费视频观看 | 四虎www成人影院 | 国产视频网站在线 | 久久综合激情 | 最新中文字幕免费视频 | 亚洲一区二区三区免费观看 | 香蕉网站99视频丝瓜视频 | 久久精品国产精品亚洲20 | 国产精品麻豆一区二区三区 | 99久久综合给久久精品 | 黄wwww| 亚拍精品一区二区三区 | 床上毛片 | 91免费福利 | 中文字幕 日韩在线 | 久久99国产亚洲高清观看韩国 | 国产成人高清一区二区私人 | 欧美日韩国产成人综合在线影院 | 欧美精品一区视频 |