產品經理想做 AI 產品要懂哪些基本名詞?這篇整理我過往參與 AI 自傳生成時,和 NLP 工程師有討論到的概念,AI 應用目前還尚未普及,未來我會再陸續整理不同功能或產業需要知道的 AI 基礎知識。
誰適合看這篇文章?
✔ 對產品經理、產品企劃、產品策略、產品規劃有興趣的朋友
概念階段
⠀⠀
1. 自然語言處理(NLP, Natural Language Processing)
- NLP 是理解、解釋和生成人類語言的技術。例如當使用者提供履歷時,NLP 技術能夠識別關鍵文字,如工作經歷、教育背景、技能等,並能理解理解斷詞、分析句子,並轉成自然流暢的自傳。
2. 機器學習(Machine Learning)
- 機器學習是一種使系統能夠自動從數據中學習並改進性能的技術,例如要讓 AI 判斷圖片是貓還是狗,會透過「特徵擷取 Feature Extraction」,由人類先提供臉型、耳朵等基本動物特徵,將資料輸入模型中,讓機器分析大量資料後,進而精準識別出我們想要的答案。
3. 深度學習(Deep Learning)
- 深度學習是一種基於人工神經網絡的機器學習技術,不須透過人工提供特徵,就能夠藉由大量數據來進行特徵擷取,例如 Facebook 可以在使用者還沒在照片 tag 好友之前,就自動顯示小方塊並指出好友。
⠀⠀
模型選擇
4. 大型語言模型(Large Language Model, LLM)
- 大型語言模型是一種深度學習模型,是指已經經過大量文本訓練,擁有識別、匯總、翻譯、預測、生成文字和其他內容的能力,目前已知的模型像是 ChatGPT(OpenAI)、Bard(Google)、Llama (Meta) 和 Bing Chat (Microsoft)。
5. GPT(Generative Pre-trained Transformer)
- GPT 是 Generative Pre-trained Transformer 的縮寫,一種基於 Transformer 架構的生成預訓練模型,Transformer 是 Google 在 2017 年提出的一個深度學習模型,GPT 正是基於這個基礎更進一步發展的模型,目的用於生成資料。
6. Token
- Token 是 NLP 中的基本單位,可以是單詞、字符或子詞,因為模型對於輸入和輸出的 Token 數有限制,例如 GPT3 模型的最大 Token 數為4097,但 Token 如何計算取決於各家廠商的標記化(Tokenization)法,幫助模型處理不同語言、詞彙表和格式。
- 一個 Token 並不是對應一個英文單字或一個中文字,像是 OpenAI 的Token 計算工具,hamburger 是拆成 ham、bur 和 ger 三個 Token,每1000 Token收費是 0.002 美元
7. 詞嵌入(Word Embedding)、詞向量(Word Vector)
- 詞嵌入是一種將詞語轉換為數值向量的技術,使其能夠被機器學習模型理解和處理,可以用於瞭解詞與詞之間關係,例如:「跑」與「走」、「英文的 Hello」與「法文的 Bonjour」等。
⠀⠀
模型訓練
8. 訓練數據(Training Data)
- 訓練數據是用於訓練機器學習模型的數據集,在 AI 自傳生成的過程中,需要準備大量的自傳樣本作為訓練數據,這些可以幫助模型學習如何生成高品質的自傳。
9. 超參數調整(Hyperparameter Tuning)
- 超參數調整是指選擇和優化模型參數的過程,以提升模型性能。超參數包括學習率、批次大小、層數等,它們對模型的訓練過程和最終性能有重要影響。
- 例如調整學習率可以控制模型的收斂速度,過高的學習率可能導致模型發散,而過低的學習率可能導致收斂過慢。
10. 過擬合(Overfitting)
- 過擬合是指模型在訓練數據上表現良好,但在新數據上表現不佳的現象。這通常是因為模型過度學習了訓練數據中的噪音和細節,導致其在新數據上的泛化能力下降。
- 在生成自傳的過程中,過擬合會導致生成的自傳過於特定,缺乏通用性。舉例來說,如果模型過度擬合某些特定的自傳樣本,可能會生成結構和語言風格過於一致的自傳,缺乏變化。
11. 正則化(Regularization)
- 正則化是一種防止模型過擬合的技術,通過在模型的損失函數中添加懲罰項來約束模型的複雜度。常見的正則化方法包括 L1 正則化和 L2 正則化。
- 在生成自傳的過程中,正則化技術能夠幫助模型避免過度擬合訓練數據,從而提高其在新數據上的泛化能力。舉例來說,通過添加 L2 正則化,可以抑制模型權重的過大變化,從而提高模型的穩定性。
⠀⠀
模型評估
12. 交叉驗證(Cross-Validation)
- 交叉驗證是一種評估模型性能的方法,通過將數據集劃分為多個子集進行測試,以更準確地評估模型的泛化能力。
- 在生成自傳的過程中,交叉驗證可以幫助評估模型在不同數據集上的性能,從而選擇最佳模型。舉例來說,K 折交叉驗證將數據集分為 K 個子集,並進行 K 次訓練和測試,每次使用不同的子集作為測試集,其餘的作為訓練集。
13. 準確率(Accuracy)
- 準確率是衡量模型預測正確樣本數佔總樣本數的比例,是評估模型性能的基本指標之一。
- 在生成自傳的過程中,準確率可以用來評估模型生成文本的正確性和自然度。舉例來說,當模型生成的自傳中,正確描述了用戶的工作經歷和技能,這表明模型具有較高的準確率。
⠀⠀
總結
非 AI 背景的產品經理如何跨到做 AI 產品是我最近在研究的題目,除了要先了解基本知識外,還需要確認要走「AI 模型」還是「AI 應用」,以我過往背景有參與過「AI 應用」,但仍覺得自己對於一些基本名詞不太熟悉,因此未來也會陸續整理文章,讓想踏入 AI 產業的產品經理可以參考。
如對這系列文章有興趣可以再觀看:
非常謝謝你的閱讀!上述單純以我的職場生活來整理,未能涵蓋所有案例。
如果文章有一點啟發或幫助,可以留言或來信讓我知道 👏
.撰寫於:2024/07/21 (日)