久久国产精品98,色综合国产精品视频,国产亚洲成AⅤ人片在线奶水,久久伊人中文字幕

<small id="uehxv"></small>
    <td id="uehxv"></td>

      <small id="uehxv"></small>

    1. 中國電商物流網(wǎng)-電子商務與物流行業(yè)融合媒體!電子商務物流行業(yè)門戶網(wǎng)站!
      快遞網(wǎng)點 郵編查詢 行政區(qū)劃 高鐵時刻 高鐵票價 高鐵車次
      貿(mào)易資訊
      免費注冊 登錄
      中國電商物流網(wǎng)
      企 業(yè)
      產(chǎn) 品
      商 務

      龔克:讓生成式人工智能成為人類的好幫手

      來源:中國網(wǎng)  發(fā)布時間:2023-9-25 9:33

        9月19日,2023世界公眾科學素質(zhì)促進大會在北京首鋼園開幕。本屆大會將持續(xù)2天,安排17個大會報告和8個專題論壇。20日上午舉行的大會專題論壇“促進公眾理解人工智能”上,中國電子學會副理事長、世界工程組織聯(lián)合會前任主席,中國新一代人工智能發(fā)展研究室執(zhí)行院長,南開大學原教授龔克了題為《讓生成式人工智能成為人類的好幫手》的主旨演講,以下為演講內(nèi)容:

        我們知道人工智能發(fā)展到去年的11月30號,發(fā)生了一個比較重要的事情,ChatGPT的推出,在不到一周的時間里達到了100萬用戶,不到兩個月的時間達到1億用戶。ChatGPT最初出現(xiàn)的時候,給人們帶來的超乎意想好的體驗,使得大家對這件事產(chǎn)生了好的困惑,盛贊者有之,擔憂者有之,不屑者也有之。剛才王娟談到的,一批名人主張把它先停下來,因為它可能對我們會有威脅。那么對于生成式的AI,到底成熟不成熟,能不能用?風險在哪里?是做事的幫手還是作弊的槍手?是應該按下加速鍵還是按下暫停鍵,對它到底怎么看?這些我想談談我自己的看法,不對的地方請大家指正。

        首先我們來看一個事實,生成式的人工智能它已經(jīng)來了,我們從這邊看到我昨天問文心一言科學素質(zhì)是什么意思?科學素質(zhì)與科學普及什么關系?還是挺靠譜的一個回答。那邊是美國有關部門做的一個統(tǒng)計,分別按照不同的區(qū)域,比如亞太地區(qū),我們看到常規(guī)性使用人工智能的,包括在工作中使用,在工作之余使用,在工作和工作之余都使用這三類人加在一起超過41%,同樣在北美也超過41%,如果加上偶爾使用就更大了。從不同的行業(yè)來看,金融部門用得最多,技術(shù)、媒體也是用得最多的,等等,男性比女性要用得更多一些。年輕人81年以后出生的年輕人也用得非常多。在任何時候都用的是5%,在工作上用的22%,工作以外24%,加起來超過一半的使用。而且這個是在迅速的發(fā)展之中,這是基本的事實。不是說你一些人主張停下來就可以停下來。

        從趨勢上來看,從人類嘔心瀝血到男耕女織,從馬車到汽車到火車,從人工的生產(chǎn)線到自動化的生產(chǎn)線,從算盤到手搖的計算機,到大型計算機,所有技術(shù)進步,沒聽說過有人反對,其他的都有人反對,蒸汽機出現(xiàn)的時候工人們?nèi)ピ野l(fā)明者的家,但是都打磨技術(shù)的進步。我們知道現(xiàn)在人類創(chuàng)造工具正在從體力到腦力幫助我們?nèi)祟?我們從體力來講,我們最早為什么要有鐵鍬?是因為它比我們手強。所以我們?nèi)祟愑米约簞?chuàng)造的工具超越我們?nèi)祟愖陨淼哪芰?這不是現(xiàn)在才有的事,歷來就是這樣,但是過去主要是替代我們的體力勞動,增強拓展人類能力。今天我們必須認識到,信息革命就是拓展我們腦力,如果不愿意拓展的話,不是跟人工智能作對,是跟整個信息化作對,F(xiàn)在實際上人工智能幫助我們從低級的腦力勞動解放出來,從這個意義上去看,我們應該擁抱生產(chǎn)力的進步。

        第一個問題,什么是生成式人工智能?這個生成式人工智能是相對于判別式的人工智能而言的,我們最早接觸人工智能,圖像識別,這是貓還是狗,是做判別的。人工智能跟判別不同,是生成的,可以根據(jù)自然語言繪畫中的提示或者提問來自動生成出一個答案,和搜索不一樣,搜索是利用關鍵詞把簡單的網(wǎng)頁推給你,它是在這些網(wǎng)頁訓練的基礎上來生成一個新的內(nèi)容。生成內(nèi)容可以用人類思維的所有符號來呈現(xiàn),可以用自然語言文本來呈現(xiàn),可以用圖像來呈現(xiàn),可以用視頻,可以用音樂,可以用軟件的代碼,這就是我們現(xiàn)在說的所謂人工通用智能的概念,所謂通用指的不是一種形式而是多種形式的,F(xiàn)在人家叫通用人工智能,我自己翻譯應該認為人工通用智能,F(xiàn)在我們中文翻譯成了GAI,人工放在前頭是強調(diào)人工的重要,所有這些東西是人工制造的。

        我們現(xiàn)在僅在中國,到昨天為止的統(tǒng)計148種已經(jīng)公開了的各種生成式的大模型,這是比較典型的一些?焖俚漠a(chǎn)品迭代給我們提供了知識產(chǎn)品的半成品,這個概念非常重要,不是直接給我們提出最終的知識產(chǎn)品,我們使用者盡量明白,如果讓它寫文章的話,它給我們提供了一個初稿。要在這個稿子上經(jīng)過反復地加工和引導,才能形成最終產(chǎn)品。如果我們簡單地把它當作終產(chǎn)品,依賴它的話,不是它的錯,是使用者的錯。

        我們現(xiàn)在做一個例子,昨天剛剛結(jié)束的在天津舉辦的全國的職業(yè)技能大賽,我讓它介紹一下職業(yè)技能大賽,請介紹一下第二屆職業(yè)技能大賽。答:是人力資源和社會保障部主辦的,天津市人民政府承辦的職業(yè)技能大賽,是中國歷史上規(guī)模最大、項目最多等等等等?闯鰜砀杏X怎么樣?很通順,也挺靠譜。仔細看一看,有錯。四類職業(yè)分類是六類,這是基本事實錯誤。而且六類里面有兩大賽道,一個是世界的選拔賽,一個是中國的精品賽,這六類是對世界選拔賽的,而且這里列舉四類,有兩類沒列舉的,恰恰是今年特別突出的兩類,創(chuàng)意與時尚、信息與通訊。說它欠佳,叫最受歡迎的十大絕技等等。這些反映出,如果我們仔細推敲的話,我們就需要在半成品的基礎上指出它的錯誤,告訴它不是四類它會改成六類,你列出各類,它會給你列出來,所以你會引導它補充信息,迭代改進,最后幫你形成很好的介紹。

        下面這個問題它到底是怎么工作的?為什么從半成品我們可以一步步引導它?大體上來分,第一步是解題,就是解你提問的題是什么意思。把提示語里面的詞語分成小的token,根據(jù)以前所訓練的模型里頭,看你這些詞語的模式和它訓練的模式跟哪些詞語同時出現(xiàn)的概率特別高,它把同時出現(xiàn)的那些東西做成它可能的答案,它估計在上下文里概率最高的時候下一個詞應該是什么詞,這樣編出一個答案來。在這個基礎上它把這套詞語轉(zhuǎn)換成可讀的文本,如果你要的是畫,它根據(jù)你的意思畫出來。或者你還可以進一步提示它,工筆畫的,或者是寫意的,都可以按照你的提問的提示來給你轉(zhuǎn)換成一個可讀的文本,這個文本不限于文本。然后要做一件事,就是過濾,對可讀的文本經(jīng)過一個護欄內(nèi)容過濾,叫作價值對齊,比如說你現(xiàn)在讓它造一個關于某人的謠言,是不可以的。它一看造謠這事不干,它會告訴你,我是一個人工智能工具,我不可能從事不實信息之類的,這叫價值過濾。

        我們還要做一個迭代,迭代以上部分,替換掉一些詞的時候,看它的概率是不是能夠提高,如果概率提高的話就會把這個詞替換過來,直至最后的響應完成。最后是潤色,比如在答案的開頭加上當然,是的,對不起,這樣人類常用的詞,讓你聽起來可讀性更強、更自然。這就是它基本的生成過程,但這里最重要的步驟在于它把提示詞以及跟提示詞相關的概率識別出來,找到哪些是問,哪些是可能的答,反復地做這個,這是它非常關鍵的一步。

        所以這里頭就變成了一個提示工程非常重要的一個工程,正確提示,引導它給出你所需要的正確回答。這是非常重要的一步。你現(xiàn)在去找招聘的網(wǎng)站,包括微軟招聘,這個變成新的工作,你甚至可以請將來提示師按照你的意圖幫你去做這樣的工作,這就是生成式人工智能它的提示和結(jié)果的非常密切的關系,因為它是根據(jù)你提示的那些token去判斷你的概念模式,然后用輸出和你的輸入求得聯(lián)合概率最高,這樣生成的結(jié)論,所以你提示的內(nèi)容比較豐富,用語比較準確是非常重要的。并不是簡單地隨便一問,它就能得到一個好的答案。

        其實我們說到生成式人工智能,這不是今天才有的,從上個世紀50年代就有拿計算機編歌,就有讓它做翻譯,經(jīng)過這么多年的發(fā)展從小規(guī)模的專家知識,到淺層次的機器學習到深度的機器學習到大模型,我們突然發(fā)現(xiàn)只有在大模型的時候,人工智能的能力發(fā)生了一次突變,這次突變很多人叫作涌現(xiàn),至于為什么說涌現(xiàn),現(xiàn)在還沒有說那么清楚,但是我們確定看到了確實是大模型造成這樣的結(jié)果,這個模型參數(shù)的突變發(fā)生在哪里?我們這里看到,從ChatGPT3到1750億參數(shù)和以前相比,大幅度提升。我們現(xiàn)在常用的ChatGPT就是在ChatGPT3.5的基礎上出來的,今年的3月底OpenAI又發(fā)布了ChatGPT4,據(jù)說它比這個又提高了100倍,達到了100萬的量級。我們在網(wǎng)上做了一個搜索,這個是我們看到從ChatGPT1是1.2億的參數(shù),用了40T的數(shù)據(jù)來進行訓練。到ChatGPT2,15億的參數(shù),還是40T的訓練數(shù)據(jù)。但是到了ChatGPT3,突然漲成了1750億的參數(shù)和萬億量級的數(shù)據(jù)來進行訓練。這是一個突變。我們從3到4,又是一個突變。數(shù)據(jù)量的大突變來自這里。為什么要用這么大的數(shù)?模擬的是一個腦,我們?nèi)斯さ纳窠?jīng)網(wǎng)絡,我們每一個小圓圈是一個神經(jīng)元,每一條線是一個突觸,把這些神經(jīng)元給連接起來,在這個連接過程中,每一個神經(jīng)元所做的功能都是一樣的,連接后面一個神經(jīng)元得到所有前面神經(jīng)元給它的輸出變成輸入,這個輸入是一個加和,但是加權(quán)的加和,權(quán)是不知道的,我們訓練決定這個權(quán)重,我們用已知圖、文本來進行訓練,決定權(quán)重。如果我們知道一個一元二次方程的通解,我們知道通解上有幾個參數(shù),我們用試根法,用幾個數(shù)據(jù)試,結(jié)果對了以后就把參數(shù)定下來,我們知道任意復雜的參數(shù)可以用復列,可以展成多項函數(shù),我們知道所有的函數(shù),我們不知道系數(shù),我們用序列的辦法是可以把所有的信息量給訓練出來的。我用這個作為一個不太準確的類比來看,我們用大量的已知的輸入和輸出,來訓練這個模型的時候可以決定訓練所有的參數(shù),人工智能在工作的時候,并不需要再像計算機一樣到存儲器里面存儲記憶,它像我們大腦一樣,所有的知識都存儲在這些參數(shù)上面。所以參數(shù)的大小是非常重要的。

        訓練出這么多的參數(shù)就需要非常高的數(shù)據(jù),我們用10的9次方Byte做一個數(shù)據(jù),我們實際上不僅要看到參數(shù)大,要訓練這些參數(shù)的數(shù)據(jù)更大,所以大數(shù)據(jù)的數(shù)據(jù)依賴性是非常嚴重的,而這些數(shù)據(jù)所需要的算力也是不得了,據(jù)報道ChatGPT3的訓練用了1200萬美元,不是公司公布的,網(wǎng)上報的。ChatGPT4比ChatGPT3大了100倍,數(shù)據(jù)量和參數(shù)量都明顯提高了,會用多少錢?可想而知,是非常貴的。所以我們現(xiàn)在就需要非常大的算力,這里展示的是彭城實驗室的彭城云腦,是我們國家第一個百億億級的,18次方的算力平臺,使用的是華為芯片,是中國自主的算力平臺,世界上也是比較重要的。像文心一言最早大模型都是在這里面訓練出來的。沒有這樣的算力,沒有這樣的數(shù)據(jù)是出不來這樣的大模型的。

        為什么它一定要大呢?我們來看,因為我們要仿照人腦,我們知道比較小的做腦科學研究的是果蠅,有25萬神經(jīng)元,1000萬突觸。而我們?nèi)祟愑?60億神經(jīng)元,有150萬億的突觸連接這些神經(jīng)元。我們?nèi)祟惖挠洃浽谶@些突觸里面,所以我們現(xiàn)在神經(jīng)元網(wǎng)絡就是靠這些東西。

        我們來看從獼猴、恒河猴,這是猩猩、黑猩猩到人類,突觸和神經(jīng)元越來越多,這就是我們說為什么要大,小了是不行的,是記不住這么多知識,也不能形成這種邏輯的。但是光靠大也是不行的。我們看這個。非洲大象,比人類多得多,但不比人類聰明,所以僅僅靠參數(shù)多并不能解決所有的問題。

        從ChatGPT里面,我們從tokeneization等等,有一系列的技術(shù),這些技術(shù)不是今天才有的,大約在2018年就出現(xiàn)的,但是這些技術(shù)組合在一起出現(xiàn)ChatGPT3是綜合的應用,這里特別要提到一下word embedding,它是怎么懂這個word,比如說一個蘋果樹,它并不知道什么是蘋果樹,它是把它變成一個矢量,這個矢量有好幾位,多元的一個矢量,每一位表達,比如說它是動物還是植物,它是人造物還是自然物,是長在樹上的植物,還是地底下的植物,每一個01代表它的性質(zhì),這時候它就會把樹和花,在多維矢量比較靠近的東西聚焦在一類,會把狗、貓、鼠變成一類,把跳躍、跑步等動作變成一類,這些實際上是所謂的語義表達,我們知道語義表達首先要多維,另外語義是多義的,比如我們講英文bank,是河岸還是銀行?看上下文,上下文越長含義越準確,這就需要大數(shù)據(jù),需要非常長的token,這就是我們今天遇到的一些問題。所以你用比較長的提問,容易讓它理解你到底問什么樣的東西。所有這些,越長的句子越能夠幫助它把握正確的含義。

        最后我們還要給它做一個輸出過濾,這些技術(shù)都不僅僅靠大獲得的,還有一個非常重要的,就是人工反饋,我跟人工智能講一個問題,我可以反饋你說得不對,好像是六類,他馬上會告訴你,確實是六類,你讓它再重寫等等,它會越來越準確。人類反饋可以把人類的知識和價值觀輸入到里面,這是非常重要的進步。

        我們還需要關注,現(xiàn)在有了預訓練大模型以后,我們?nèi)斯ぶ悄艿墓ぷ鞑皇菑臄?shù)據(jù)開始來訓練模型,我們可以已經(jīng)開放的訓練好的預訓練大模型開始,再利用自己標準的數(shù)據(jù),包括我們的知識,來做模型的微調(diào),這樣一來我們整個預訓練的模型將會變成智能社會的一種基礎設施,變成公共服務,這樣就降低了我們?nèi)斯ぶ悄軕玫拈T檻。因為大模型需要大量的數(shù)據(jù),需要大量的算力,這不是小公司能夠有的。但是我們小公司有我們特定服務的特定數(shù)據(jù),我們有特定的標準和知識,在這個基礎上使得我們智能化的速度將會加快。

        還有一個認識是特別重要的,剛才我們談到的,生成式的內(nèi)容是基于概率來的,它理解了輸入的概率組成了一個句子是輸出,輸入和輸出聯(lián)合分布最高的就是它選擇的那個結(jié)果,所以是基于概率的,那么好,既然是基于概率的不可能100%正確的。比如讓它寫清華校歌第一段,它編了一個,胡編了一個,F(xiàn)在已經(jīng)有改進,這是我大概一個月之前做的。因為這些詞,你比如說百年、清華、學子、書香、校園,確實跟清華有關系,它把它組合起來挺高,這是基于的概率,如果我們給它更多的輸入,比如1931年寫詞的,可能會更好。

        我們要使用生成式人工智能作為它的使用者是需要一定的能力和素質(zhì)的,剛才顧雁峰在致辭中講到的人工智能的素質(zhì)是我們當前社會科學素質(zhì)一個方面。我們首先要做事實的審視,我們要做邏輯的審視,做倫理的實事,做美學的審視,才能把這個工具用好。

        我們的問題就是,既然出錯,那么它的風險是什么?這是OpenAI說的,不是我們說的。盡管ChatGPT4在今年5月份,功能強大,但是它有類似于早期ChatGPT模型的局限性。最重要的是它仍然不是完全可靠的,它會產(chǎn)生幻覺,并出現(xiàn)推理錯誤。在使用語言模型輸出時,尤其在高風險的上下文中應格外小心地使用精確的協(xié)議程序,比如人工審查、以額外的上下文作用基礎來進行審視,或者完成避免高風險下的應用。舉個例子,你比如讓它寫一個主題教育的總結(jié),它不給你寫。最后給你過濾掉。

        所以要和特定場合相匹配,這個就告訴我們,對它是不可完全信任的,它給我們提供的是一個半成品,我們需要掌握必要的知識和能力,去完成它最終的結(jié)果。

        這里是它的技術(shù)瓶頸,分辨率不夠高,對數(shù)據(jù)的依賴,泛化的能力,等等。從社會角度來講,人們擔心它產(chǎn)生內(nèi)容是否符合我們?nèi)祟悆r值觀,公平、包容、平等、保護我們的隱私,不泄露企業(yè)國家個人的機密,而且不至于引起更大的發(fā)展差距。我們知道如果說我們過去發(fā)展的差距來講,是兩類造成的,一類是資源的差距,一類是能力的差距,現(xiàn)在隨著太陽能相對比較均勻的資源,更多體現(xiàn)在能力的差距,數(shù)據(jù)能力體現(xiàn)在濫用,比如造謠。怎么辦?深度創(chuàng)新、完善治理。這里包括要夯實它的科學知識,實現(xiàn)算法的可解釋。實現(xiàn)它的風險可預測,可評估。第二是還要加強隱私的計算,讓數(shù)據(jù)安全地流動。第三要發(fā)展類腦計算,來減少數(shù)據(jù)的依賴。最后要實現(xiàn)數(shù)據(jù)+知識雙驅(qū)動的人工智能,現(xiàn)在我們基本上是一個數(shù)據(jù)驅(qū)動的人工智能,通過數(shù)據(jù)和知識來嵌入人類的價值觀,最后我們要完善技術(shù)標準,讓這些技術(shù)標準不僅僅寫在紙上,而且是可檢驗,可認證的。

        從治理上來講,我們要貫徹UNESCO提出來人工智能倫理建議,實施以倫理為基礎的治理,這是非常重要的理念。我們治理的基礎在守住人類的倫理共同的價值觀,我們改革創(chuàng)新的精神來實現(xiàn)有利于人工智能生產(chǎn)力發(fā)展的促進式的治理。我們知道人工智能是新的生產(chǎn)力,新的生產(chǎn)力要有新的生產(chǎn)關系跟它相匹配。我們要發(fā)展基于風險分類的治理,比如說李開復講,我們讓它去先寫小說,寫科幻故事,害處也不是很大。如果讓它寫政府工作報告,讓它做十五五規(guī)劃,那應該會出很大的錯。我們要發(fā)展針對使用者、開發(fā)者、服務者、管理者的全員治理,這是我們非常重要的觀點。我們研究院提出來的。我們現(xiàn)在對生成式人工智能不僅對它的模型,訓練的數(shù)據(jù)要做規(guī)范,我們對它使用者也需要基本的規(guī)范。我們要發(fā)展人工智能國際合作。這里面簡單展示一下,UNESCO關于人工智能的四個環(huán)節(jié),第一個原則是符合你的目的就夠了,不是要為了技術(shù)而要技術(shù)。特別提出來了認識和素養(yǎng),認識和素養(yǎng)是使用者的認識和素養(yǎng),而不是人工智能工具的認識和素養(yǎng)。

        最后我們得出一些結(jié)論,這個生產(chǎn)力已經(jīng)來了,怕沒有用的,主動訓練、駕而馭之,F(xiàn)在我們非常重要的,這種使用人工智能的能力是我們這個時代應有的能力應有的素質(zhì)。

        第二條,我們不能阻擋它的發(fā)展,但是我們可以引導它的發(fā)展,F(xiàn)在要為人工智能立心,使之為人類服務。

        第三要推動人工智能的深度創(chuàng)新,特別是要在有效、安全、可信,光說些道德條款是沒有用的,道德信條是重要的,但這些信條是要通過技術(shù)手段落地的。所以當前我們要推動生成式人工智能從聊天到變成產(chǎn)品,向這個方向發(fā)展,以上是我初步的想法。

      Copyright © 2012-2025 sd56.net.cn All Rights Reserved 中國電商物流網(wǎng) 版權(quán)所有