文章來自于公眾號:數(shù)字化深度思考者
近期Deepseek爆??,一時之間,似乎人人都在談Al,周末再次作個簡單易懂的大模型和Al科普。

近期很多用Deep seek R1生產(chǎn)word或PPT的例子,其實未有Al之時,WPS本身就提供有海量參考模板,內(nèi)容生成會使人們變懶,懶惰亦是人之天性,尤其是大學(xué)畢業(yè)論文,以中國大部分大學(xué)的尿性和脫離社會實踐,本科四年大部分學(xué)生的論文都相當雷同,再Al生成,批量造假,就很不好了。
現(xiàn)在全網(wǎng)都在討論Deep seek R1的文生內(nèi)容,先不談技術(shù)實現(xiàn),換個思路,它可以看一個升級版的智能搜索+內(nèi)容生成,比如你不是lT專業(yè),完全不懂大模型,那可以用搜索引擎搜出一堆關(guān)于大模型的網(wǎng)頁,然后自己審核和篩選下相關(guān)內(nèi)容組織一篇文章,現(xiàn)在deep seek等Al工具將搜索和寫文章合并在一起,效率是高了,但你還得審核吧,哦,現(xiàn)在不審核了,直接copy and paste,交差了事!????
騰訊混元開源↓
Deep seek帶了個好頭,近期騰訊開源,百度開源

機器學(xué)習(xí)
傳統(tǒng)的AI機器學(xué)習(xí),是統(tǒng)計學(xué)上的概念,比如 邏輯回歸(LR),支持向量機(SVM),決策樹模型,機器學(xué)習(xí)是人工智能的一個重要子領(lǐng)域,側(cè)重于利用數(shù)據(jù)和統(tǒng)計方法讓計算機系統(tǒng)自動學(xué)習(xí)和改進。
深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)
深度學(xué)習(xí)通常和神經(jīng)網(wǎng)絡(luò)放在一起,兩者既有聯(lián)系又有區(qū)別!深度學(xué)習(xí)泛指深度神經(jīng)網(wǎng)絡(luò),意思就是深度的神經(jīng)網(wǎng)絡(luò),是多層的神經(jīng)網(wǎng)絡(luò),而不是傳統(tǒng)的單層或兩層。與其說深度學(xué)習(xí)是機器學(xué)習(xí)的一種,不如說是一種進化。
有人說現(xiàn)在機器學(xué)習(xí)與深度學(xué)習(xí)的區(qū)分已經(jīng)不明顯了,深度學(xué)習(xí)也用到機器學(xué)習(xí)的算法模型。深度學(xué)習(xí),在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,有了更多的層級,以前傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),一般有2-3層,而深度學(xué)習(xí),可以有更多層,至于能有多少層,需要根據(jù)實際的業(yè)務(wù)而定。
在深度學(xué)習(xí)中,梯度消失和梯度爆炸是訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)時常見的兩大問題,它們會嚴重影響網(wǎng)絡(luò)的訓(xùn)練過程和性能。
梯度消失(Vanishing Gradient)
梯度消失是指在深層神經(jīng)網(wǎng)絡(luò)的反向傳播過程中,梯度值隨著層數(shù)的增加而迅速減小,最終趨近于零。這會導(dǎo)致靠近輸入層的權(quán)重更新變得非常緩慢,甚至幾乎不更新,從而阻止網(wǎng)絡(luò)從輸入數(shù)據(jù)中學(xué)習(xí)有效的特征表示。
梯度爆炸(Exploding Gradient)
梯度爆炸是指在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時,反向傳播過程中,梯度的值變得異常大,導(dǎo)致參數(shù)更新過大,甚至出現(xiàn)溢出的現(xiàn)象。這個問題會導(dǎo)致網(wǎng)絡(luò)的訓(xùn)練變得不穩(wěn)定,甚至無法收斂。
TensorFlow 和 PyTorch 是目前最流行的深度學(xué)習(xí)框架,TensorFlow 和 PyTorch 都非常適合用于開發(fā)和訓(xùn)練 Transformer 模型。
不深入細講,非lT專業(yè)開始聽不懂了!
(三)、大模型概念和分類
大模型(Large Models,LM):大模型通常指的是具有大量參數(shù)的機器學(xué)習(xí)模型特別是深度學(xué)習(xí)模型。
大模型的特點是參數(shù)數(shù)量巨大,通常在百萬到數(shù)十億級別;能夠處理和理解大量的數(shù)據(jù);通常具有較高的泛化能力,能夠處理未見過的新數(shù)據(jù),數(shù)據(jù)、訓(xùn)練(如人的學(xué)習(xí)過程)、模型關(guān)系!
大模型分類
(1).大模型按輸入數(shù)據(jù)類型分為語言大模型(其代表為LLM)、視覺大模型(CV )和多模態(tài)大模型;
(2).大模型按應(yīng)用領(lǐng)域分為通用大模型(L0)、行業(yè)大模型(L1)和垂直大模型(L2)。
科普完畢,如果想更深入了解,就是算法,再進一步就是開發(fā)工具和編程語言實現(xiàn),術(shù)業(yè)有專攻,非lT專業(yè)人士沒有必要去學(xué)習(xí)!
最后Al、機器學(xué)習(xí)(含深度學(xué)習(xí))、AlGC生成式Al(含大語言模型LLM)的關(guān)系如下圖!
