原創:楊繼紅
來源:AI黑馬
圖片來源:由無界AI生成
AI黑馬導讀👉
“AI就是新石器時代的弓箭。”AI形成的學習能力取決於參數的規模。 GPT-2大約有15億個參數,而GPT-3最大的模型有1 750億個參數,上漲了兩個數量級。根據媒體猜測但還未被證實的消息,GPT-4的參數可能達到100萬億規模。
本文主要探討:新時代交互型AI平台的能力與建設、機遇與挑戰。有別於一些傳統觀點認為人工智能建設主要就是硬件建設,中央廣播電視總台視聽新媒體中心副主任楊繼紅從“人”的角度出發,強調“人”也就是用戶,才是決戰人工智能這場戰役中的戰略性資源。她認為,“軟技術”才是科技創新的彎道超車、換道超車的“黃金賽道”。牢牢把握“用戶使用場景”這一破局“勝負手”。
淺談交互型AI平台的硬實力與軟實力
01前言唯一不變的是變化
創新永遠不停歇,新技術不斷湧現,AI驅動下的技術創新正在深刻地改變著我們的生活和工作方式。
如果說電腦、網絡、互聯網的普及,是計算機帶來的變革浪潮,那麼AI的大兵壓境則更加強大、更加全面。傳統的行業和職業正在受到人工智能技術的衝擊和顛覆,許多傳統崗位正在被取代,需要不斷學習和適應新技術和新模式。
當AI在本篇文章中,我嘗試提出一個全新視角同大家一起審視新時代交互型AI平台的能力與建設、機遇與挑戰。有別於一些傳統觀點認為人工智能建設主要就是硬件建設,我嘗試站在更高的維度上用硬實力與軟實力來解構日新月異的人工智能能力,從“人”的角度出發,強調“人”也就是用戶,才是決戰人工智能這場戰役中的戰略性資源。
02交互型AI平台的“硬實力”和“軟實力”
1.交互性AI中的硬實力
1.1 以CPU/GPU為代表的計算機硬件
計算機硬件是AI的基礎。首先,計算機硬件直接決定了AI處理複雜計算任務的能力。處理大量數據、進行深度學習算法的計算和訓練等,需要擁有足夠強大的計算能力,CPU/GPU的性能直接決定了AI的計算速度和效率。其次,CPU/GPU作為硬件設備需要支持AI軟件運行環境。 AI涉及到大量的數據處理和計算任務,需要特殊軟件環境來支持運行。此外,計算機硬件還需要具備較高的可擴展性和可編程性。 AI應用場景廣泛,需要針對不同的場景和應用提供不同的AI解決方案。只有計算機硬件具備較高的可擴展性,才能快速實現資源的動態分配和擴容。最後,計算機硬件還需要具備可編程性,以便開發人員能夠快速優化算法和解決方案。下圖為AI系統平台基礎硬件組成與功能:
2.“軟實力”是交互型AI的壓艙石
2.1 知識圖譜塑造AI基本盤
AI的知識圖譜是一個結構化的知識庫,它包含了廣泛的領域知識,用於支持人工智能係統的學習和推理。知識圖譜由實體(如人物、地點、事件等)和它們之間的關係構成。它可以包括各種類型的知識,包括定義、屬性、類別、關聯等。
知識圖譜的構建和使用是AI技術的重要組成部分。它可以幫助AI系統獲取、組織和存儲各種領域的知識和語義信息,提高AI系統的認知能力和智能化程度。知識圖譜可以應用於自然語言處理、推薦系統、問答系統、信息檢索等多個方面。
舉一些大家熟悉的例子,谷歌知識圖譜、百度百科、以及維基百科等都是知識圖譜。
2.2 算法水平驅動能力升級
2.2.1 算法的重要性
算法是實現AI各項任務的重要手段。算法的設計和改進也是推動AI發展和進步的關鍵。算法的重要性體現在以下三個方面:
① 影響模型的準確性和效率:不同的算法會影響到模型的準確性和計算效率。選擇合適的算法可以提高模型的準確性並減少運算時間。
② 滿足不同的需求和場景:不同的場景和應用有不同的需求,需要選擇不同的算法來滿足。
③ 提供決策支持:根據不同的問題和數據,算法可以提供決策支持,並對數據進行有效的分析和預測。
2.2.2 常見算法
AI用到的算法有很多,以適配不同的應用場景和需求。常見的有機器學習算法、深度學習算法、自然語言處理算法、推薦算法等四大類。
① 機器學習算法:
(1)監督式學習算法:如線性回歸、邏輯回歸、支持向量機、決策樹、隨機森林等。
(2)非監督式學習算法:如K-Means聚類、層次聚類、Expectation–Maximization算法等。
② 深度學習算法:
(1)成交量積神經網絡(CNN):主要應用於圖像處理和計算機視覺任務。
(2)循環神經網絡(RNN):主要應用於自然語言處理和語音處理等序列化任務。
(3)生成對抗網絡(GAN):主要應用於生成圖像、文本等任務。
(4)變換器網絡(Transformer):主要應用於機器翻譯、文本摘要等任務。
③ 自然語言處理算法:
(1)關鍵詞提取:如TF-IDF算法、TextRank算法等。
(2)命名實體識別:如條件隨機場模型等。
(3)句法分析算法:如規則模型、轉移模型等。
(4)情感分析算法:如詞典模型、機器學習模型等。
④ 推薦算法:
(1)基於內容推薦:如TF-IDF算法、LDA算法等。
(2)基於協同過濾推薦:如UserCF、ItemCF、LFM算法等。
(3)深度學習推薦:如DeepFM、Wide&Deep、DIN、BERT4Rec等。
算法是人工智能實現各類任務的基石。隨著技術的不斷發展和創新,新的AI算法也在不斷湧現。提升AI能力的關鍵,在於為合適的場景挑選匹配合適的算法。從這一點上講,人工智能的關鍵仍然在人工設計。
2.3 訓練場景影響進化速率
2.3.1 訓練的重要性
訓練是使AI模型學習並獲取知識和技能的過程,因此對於人工智能至關重要。
① 提高模型準確性:通過合理的數據集選擇和足夠的訓練次數,AI模型可以逐步學習數據中的規律和特徵,從而提高模型的準確性和精度。
② 支持模型的泛化能力:訓練使模型具有泛化能力,即能夠處理在訓練集以外的新數據樣本,並在其它情況下發揮作用。
③ 增進模型的魯棒性:訓練可以使AI模型對於一些噪聲數據、偽造數據和乾擾數據具有更好的處理能力和魯棒性。
④ 對AI模型進行更新和迭代:通過訓練,AI模型可以不斷更新和改進,以滿足實際應用需求。
⑤ 改善模型的可解釋性:AI數據模型的可解釋性在許多領域中非常重要。通過訓練,可以提高模型的可解釋性和透明度,使其更易於理解和使用。
2.3.2 訓練場景影響進化速率
設定與選擇訓練場景對於AI模型的性能和表現至關重要,直接決定了模型的質量和可用性。需要在訓練過程中對數據進行預處理、選擇合適的算法、優化算法超參數、控制欠擬合和過擬合等進行優化,從而使得AI模型訓練出來的結果更加精準和可靠。這些最重要的做都本質上依靠人工參與,也體現出“人”是最核心戰略資源的地位。
① 監督式學習場景:通過給模型提供labeled 的數據集,指示該數據屬於哪一類別或目標值等。
② 非監督式學習場景:訓練數據集沒有特定的標籤或目標值,模型需要根據數據集的統計特徵,自行發現數據中的規律和特徵,以此來對數據處理和分類。
③ 半監督式學習場景:包含標記和未標記的數據,模型需要學會如何將這些未標記的數據分類。
④ 強化學習場景:模型不斷與環境交互,在每一個時刻對環境進行觀察和交互,並基於該反饋信息調整模型的策略。
⑤ 自然語言處理場景:訓練數據集一般是大量的文本數據,模型需要學會如何理解文本數據以及文本之間的關係。
⑥ 計算機視覺場景:訓練數據集通常是圖像或視頻數據,模型需要學會如何理解和處理這些圖像數據以實現目標檢測、圖像識別等任務。
03“用戶使用場景”是總量稀缺的戰略資源
1.有限的用戶,無限的數據
目前通過擴展計算機硬件和擴充數據庫來提高人工智能產品的準確性和智能化水平有一定的限制和局限性。一方面,擴建計算機硬件和擴充數據庫需要大量的人力、財力和時間等投入,且隨著系統規模的不斷擴大,對資源的需求會越來越大。另一方面,目前人工智能領域的技術發展還面臨著許多不確定因素,如算法的有效性、自我學習的效果等。這些因素都會影響人工智能產品的發展空間。
相對於無限的數據,對於用戶資源的爭奪則是一場此消彼長的零和博弈。如果一款人工智能產品擁有大量用戶和高頻率使用,就可以通過對用戶使用數據的監控和分析來實現人工智能產品的智能化升級,不斷完善產品體系,增加使用價值。
更多的用戶,締造更先進的平台;更先進的平台,打造更優秀的體驗;更優秀的體驗,吸引更多的用戶。
未來不同意識形態下AI平台的能力差異,根本上是由用戶數量和使用頻次的差異決定的。要獲得更多用戶和頻繁的使用頻次,就要在產品用戶界面、功能、服務質量、市場推廣等方面進行持續改進和優化,不斷滿足用戶需求和提高用戶體驗,贏得用戶的信任和忠誠度。
2.“馬太效應”蠶食鯨吞
馬太效應是指在一定條件下,對優秀的人才持續加以扶持,從而導致人才之間的差距越來越大的現象。
在人工智能發展的過程中,往往是先進技術或先進企業更容易獲得首批用戶和市場份額,從而會有更多的投資和更好的收益。這種現象會進一步加強行業的領先地位。
另一方面,AI技術的發展也需要大量的專業人才。領先企業和平台由資源可以持續投入更多資金和資源取得人才優勢,從而讓後發企業徹底失去追趕能力。
最重要的是,領先平台會提供更好的用戶體驗,目前AI to C市場馬太效應已經凸顯。從用戶心理來看,習慣使用一種AI產品的用戶在切換到別的同類型產品時需要重新學習和適應,需要消耗大量時間和精力。從數據規模來看,大量的用戶數據的增持對產品的使用效果和分析意義重大,留存用戶數據是建立這類產品的關鍵,新產品具有先天劣勢。 AI系統天生的“飛輪效應”,進一步放大了“馬太效應”在用戶體驗上的呈現。
04結語
一個有趣的說法:AI就是新石器時代的弓箭。
AI形成的學習能力取決於參數的規模。根據學界經驗,深度神經網絡的學習能力和模型的參數規模呈正相關,也就是模型參數越多學習能力越強。 GPT-2大約有15億個參數,而GPT-3最大的模型有1 750億個參數,上漲了兩個數量級。根據媒體猜測但還未被證實的消息,GPT-4的參數可能達到100萬億規模。
業內有專家認為,硬科技都是為“軟技術”發展提供關鍵零部件和硬件接口,圍繞“軟技術”供應鏈的需求進行創新。 “軟技術”才是科技創新的彎道超車、換道超車的“黃金賽道”。
央視頻已經摸索出了一套行之有效的組合拳:首先將用戶需求提煉為助醫、助農、助美、助學等一系列AI賦能方向,再通過模糊搜索語義匹配吊起總台海量媒資,構建各應用場景上的高頻使用模型,形成知識庫、算法等“軟實力”的自組織自學習,倒逼GPU算力、CDN帶寬等硬實力建設。牢牢把握“用戶使用場景”這一破局“勝負手”。
令人振奮的是,目前來看GPT的技術方向已經明確,不存在難以逾越的技術障礙。我們拿出中國人最擅長的“長期主義”精神,可以把這只“新石器時代”的弓箭射得最準最遠。
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載