首页
智能设备
数据安全
绿色科技
栏目分类

绿色科技

你的位置:未来探索网 > 绿色科技 > 翁荔,掌管OpenAI安全的北大学友,刚刚现身B站线下演讲

翁荔,掌管OpenAI安全的北大学友,刚刚现身B站线下演讲

发布日期:2024-11-30 06:31    点击次数:177

翁荔,掌管OpenAI安全的北大学友,刚刚现身B站线下演讲

衡宇 发自 半夜向阳

量子位 | 公众号 QbitAI

OpenAI推敲副总裁(安全)翁荔(Lilian Weng),现身国内!

还初度在国内大型行径步地公征战表AI主题演讲。

先肤浅先容一下,翁荔是OpenAI华东说念主科学家、ChatGPT的孝顺者之一。

北大毕业后,翁荔在2018年加入OpenAI,自后在GPT-4形势中主要参与预历练、强化学习&对都、模子安全等方面的劳动。

最著名的Agent公式也由她建议,即:Agent=大模子+顾忌+主动蓄意+器具使用。

在今晚的2024Bilibili超等科学晚行径上,翁荔站在舞台上,以《AI安全与“培养”之说念》为主题进行了演讲共享。

演讲并不十分高深,主要以科普向为主,但深入浅出,先容了AI安全联系各样问题。

她暗示:

AI的安全不单是是推敲者的职守,它需要每一个东说念主的参与。

(以下是翁荔演讲全文,在不改造其应许的基础上略有删减。)

翁荔演讲全文

今天先与全球商量一个既深远又真谛真谛的话题,「AI 安全」,以及「咱们怎样像培养下一代一样,莳植出明智又安全的东说念主工智能」。

ChatGPT横空出世以来,AI时期如同搭乘了高速列车,赶紧浸透并影响着咱们。

AI每天都在变化,需要咱们尽心指挥、教师,确保是更好的服务于东说念主类,同期确保安全。

一个既安全又智能的AI,无异于将为咱们的生涯带来诸多裨益。

试想,一个洞悉你生涯风气的智能家居系统,能凭证你的需求自动调养室内温度、光泽;或是一个时刻关注你健康状态的AI助手,能为你提领提供量身定制的健康AI。

这不仅能权贵普及咱们的生涯质料,还能开辟新的作事领域,普及劳动成果。

关联词,这一切缔造在AI安全的基础之上。

正如自动驾驶时期一样,它能极地面普及生涯便利性,关联词一朝出错,后果可能不胜设计。

跟着AI应用日益智化与自主化,怎样确保AI的行径合适东说念主类价值不雅,确切作念到以东说念主为本,成为了AI 安全与对都推敲等中枢议题。

东说念主类在成长过程中会络续学习特殊,但也会际遇成长的烦懑。

通常的,AI可能因为偏见而变得短促,也可能因为起义性攻击而被坏心质疑,AI安全和对都推敲智力使AI成长过程愈加告成。

让咱们以健康领域为例。

好多疾病推敲的数据常常以男性的群体为主,这可能导致AI在处理女性的健康问题时风险评估不准确。

此外,数据自身也有可能存在偏见。

比如有推敲标明,女性腹黑病症状更容易被归结故意焦等格局问题,而变成会诊遗漏。

因此,咱们需要通过对AI安全和对都推敲来减少偏见。

AI 学习的基础是数据,数据是它的食品。

要想让AI变得明智可靠,咱们必须确保它养分平衡,也等于提供它各种、全面、正确的数据,匡助它大概正确地谐和这个复杂的宇宙,并减少偏差。

在使用东说念主类象征的数据时,咱们不错依赖于群体聪惠,也等于吞并个数据点被多东说念主标注。

故真谛的是, 1907年的一篇当然科学杂志中的著作,作家跟踪了一场年度博览会上的一个真谛真谛的有奖竞猜。

博览会上,东说念主们选出一头肥牛,让全球来预想牛的分量,最接近真实数据的东说念主将得到大额的奖金。

作家发现,「最中间值」常常是最接近真实数据。

这个数揣度值也被称为the voice of the people。

在这篇近120年前的科学著作中,作家归来说念:“我以为这个结果比东说念主们预期的更能诠释民主判断确凿度。”

这亦然最早提到群体聪惠怎样发生作用的科学文献。

而至于怎样把高质料标注的数据给AI,则基于东说念主类反映的强化学习(RLHF)起到了要害作用。

在了解RLHF之前,咱们快速了解一下什么是强化学习(RL)。

强化学习是一种机器学习枢纽,它主要通过赏罚机制来让模子学会完成任务,而不是依靠顺利告诉模子怎样去作念这件任务。

联想一下,就好像你历练小狗,若是小狗作念对了一个动作,比如坐下,你就给他一块骨头饼干;作念错了就不给奖励。

这样,小狗就会因为想吃到更多的饼干而学会怎样正确地坐下。

同理,AI也在这种赏罚机制中学习,通过络续的尝试并得到反映,找到最好的服务战略。

一个早期的推敲标明,强化学习能利用小数东说念主类反映,快速有用地教育智能体作念复杂的动作,学会怎样后空翻。

通常的枢纽也不错用于历练诳言语模子(LLM)。

当咱们看到针对吞并问题的不同AI恢复时,咱们不错告诉模子哪一个恢复更好、更正确、更合适东说念主类价值不雅,这样咱们就像家长教师孩子一样,调养AI的学习过程。

此外,咱们还不错使用模子自身动作AI输出质料的评分者。

比如在Antropic发表的《Constitutional AI》中,模子就通过对我方行径的我评价进行阅兵;或者在对都强化学习中,咱们不错制定止境珍摄的行径礼貌来告诉AI,何时拒却用户的苦求,怎样抒发同理心等等。

然后咱们在强化学习的奖励机制中,止境精确地赐与相应的评分奖励。

这个过程中,一个愈加强盛的AI有智商更精确地判断它是否纳降了东说念主类的价值不雅和行径准则。

强化学习时期就像一把钥匙,匡助咱们掀开AI高质料学习和发展的大门。

在培养AI更懂咱们的过程中,平庸东说念主也能施展遑急的作用。

在文档写稿上,咱们不错继承两个小妙技。

最初,设定珍摄的配景和变装想想,像导演为演员准备脚本一样让AI在丰富的情境中,捕捉咱们的意图。

其次,经心挑选要害词,构建逻辑崭新的文档结构,使文档既好意思不雅又实用。

在视频音乐制作领域,咱们不错通过使用专科术语来指挥AI,比如黄金分割构图或和弦进行,将创意袭击为现实。

同期,别忘了情感的插足,因为这是赋予作品灵魂要害词。

简而言之,通过精细的指导和情感的融入,咱们不错匡助AI创作出既丰富又宽裕感染力的作品。

在《西纪行》中,孙悟空有紧箍咒驾御行径,咱们应该给AI模子也戴上了紧箍咒,也等于教育 AI 安全基本准和说念德法度,让其效用行径法度,以东说念主类利益为先,成为咱们贴心的伙伴,而不是冰冷的机器。

让AI学习基本原则和说念德准则,不错使模子在濒临复杂问题时行使推理得出正确的论断。

比如在OpenAI最近发表的Open-o1-preview模子中,咱们通过想维链(CoT)推理加强了模子的可靠性,使得模子不错更好地违犯逃狱攻击。

膨大性推敲(scalable oversight)在AI对都推敲中也止境遑急。

跟着AI模子扩大,需要谄谀自动化器具和东说念主类监督有用的行径,确保它朝着正确的地方发展。

在一组公开推敲中,咱们用监督学习历练话语模子对网络文本撮要进行品评,比如提供“这个撮要止境准确”,或者“这个撮要遗落重心”。

比较对照组,咱们发现存AI匡助的标注员比莫得匡助的能多找出撮要中约50%的问题,并且大批参考了模子提供的实验。

总之,给AI设定法度并进行有用监督,不错普及它对东说念主们的匡助。

AI的安全不单是是推敲者的职守,它需要每一个东说念主的参与。

以B站为例,这个充满活力的社区麇集了繁密AI可爱者、创作家,咱们在这里共享方便、推敲问题,以致监督AI的发达,共同影响着 AI 的成长。

咱们每个东说念主都应该成为AI的全球长。

AI 时期是一把双刃剑,它带来的便利和挑战并行,咱们的参与至关遑急。

让咱们联袂培养出一个既明智又厚爱的AI伙伴。

感谢全球的凝听,但愿今天的共享激勉全球对AI安全的善良敬爱,也感谢B站直播这个平台。

让咱们共同为AI的异日孝顺力量,谢谢。

OpenAI备受争议的安全之路

关联词,OpenAI在安全这个地方的前进,却一直备受争议。

上周,一则“OpenAI闭幕AGI谋略团队”的音信传遍全球。

起源是AGI Readiness团队厚爱东说念主Miles Brundage晓示下野。

他暗示,已在OpenAI完成统统劳动,在外部劳动将产生更大的影响。

异日他主义在OpenAI以外连接从事该领域推敲劳动,并但愿减少偏见。

这不是OpenAI安全方面离开的唯独一个遑急东说念主物。

本年上半年,OpenAI谄谀独创东说念主、首席科学家Ilya Sutskever下野,他指挥的“超等对都团队”立地闭幕。

该团队成就于2023年7月,OpenAI给了它一个劳动:

用20%的算力,在异日4年内处分截至超等智能AI的中枢时期挑战。

Ilya是这样解释我方离开OpenAI的原因的:

制造比东说念主类更明智的机器自身等于一项危境的职业。

OpenAI代表全东说念主类肩负遏制大的职守。

但在当年几年里,安全文化和进程还是让位于闪亮的居品。

武断离开的还有“超等对都”团队谄谀厚爱东说念主、安全主宰Jan Leike——他最终采用跳槽到OpenAI最强竞对、Claude背后团队Anthropic,连接超等对都劳动。

下野后,Leike对外爆料,最近几年OpenAI还是不吝里面文化,把“招引眼球的居品”放在安全准则之前。

现时,翁荔无疑是是最前沿AI实验室的安全总厚爱东说念主了。

OpenAI的安全之路,又将走向何方?

— 完 —

量子位 QbitAI · 头条号签约

关注咱们,第一时辰获知前沿科技动态