產品經理要懂哪些 AI 名詞，以 AI 自傳生成為例｜EP54

產品經理想做 AI 產品要懂哪些基本名詞？這篇整理我過往參與 AI 自傳生成時，和 NLP 工程師有討論到的概念，AI 應用目前還尚未普及，未來我會再陸續整理不同功能或產業需要知道的 AI 基礎知識。

誰適合看這篇文章？
✔ 對產品經理、產品企劃、產品策略、產品規劃有興趣的朋友

概念階段

⠀⠀

1. 自然語言處理（NLP, Natural Language Processing）

NLP 是理解、解釋和生成人類語言的技術。例如當使用者提供履歷時，NLP 技術能夠識別關鍵文字，如工作經歷、教育背景、技能等，並能理解理解斷詞、分析句子，並轉成自然流暢的自傳。

2. 機器學習（Machine Learning）

機器學習是一種使系統能夠自動從數據中學習並改進性能的技術，例如要讓 AI 判斷圖片是貓還是狗，會透過「特徵擷取 Feature Extraction」，由人類先提供臉型、耳朵等基本動物特徵，將資料輸入模型中，讓機器分析大量資料後，進而精準識別出我們想要的答案。

3. 深度學習（Deep Learning）

深度學習是一種基於人工神經網絡的機器學習技術，不須透過人工提供特徵，就能夠藉由大量數據來進行特徵擷取，例如 Facebook 可以在使用者還沒在照片 tag 好友之前，就自動顯示小方塊並指出好友。

⠀⠀

模型選擇

4. 大型語言模型（Large Language Model, LLM）

大型語言模型是一種深度學習模型，是指已經經過大量文本訓練，擁有識別、匯總、翻譯、預測、生成文字和其他內容的能力，目前已知的模型像是 ChatGPT（OpenAI）、Bard（Google）、Llama (Meta) 和 Bing Chat （Microsoft）。

5. GPT（Generative Pre-trained Transformer）

GPT 是 Generative Pre-trained Transformer 的縮寫，一種基於 Transformer 架構的生成預訓練模型，Transformer 是 Google 在 2017 年提出的一個深度學習模型，GPT 正是基於這個基礎更進一步發展的模型，目的用於生成資料。

6. Token

Token 是 NLP 中的基本單位，可以是單詞、字符或子詞，因為模型對於輸入和輸出的 Token 數有限制，例如 GPT3 模型的最大 Token 數為4097，但 Token 如何計算取決於各家廠商的標記化（Tokenization）法，幫助模型處理不同語言、詞彙表和格式。
一個 Token 並不是對應一個英文單字或一個中文字，像是 OpenAI 的Token 計算工具，hamburger 是拆成 ham、bur 和 ger 三個 Token，每1000 Token收費是 0.002 美元

7. 詞嵌入（Word Embedding）、詞向量(Word Vector)

詞嵌入是一種將詞語轉換為數值向量的技術，使其能夠被機器學習模型理解和處理，可以用於瞭解詞與詞之間關係，例如：「跑」與「走」、「英文的 Hello」與「法文的 Bonjour」等。

⠀⠀

模型訓練

8. 訓練數據（Training Data）

訓練數據是用於訓練機器學習模型的數據集，在 AI 自傳生成的過程中，需要準備大量的自傳樣本作為訓練數據，這些可以幫助模型學習如何生成高品質的自傳。

9. 超參數調整（Hyperparameter Tuning）

超參數調整是指選擇和優化模型參數的過程，以提升模型性能。超參數包括學習率、批次大小、層數等，它們對模型的訓練過程和最終性能有重要影響。
例如調整學習率可以控制模型的收斂速度，過高的學習率可能導致模型發散，而過低的學習率可能導致收斂過慢。

10. 過擬合（Overfitting）

過擬合是指模型在訓練數據上表現良好，但在新數據上表現不佳的現象。這通常是因為模型過度學習了訓練數據中的噪音和細節，導致其在新數據上的泛化能力下降。
在生成自傳的過程中，過擬合會導致生成的自傳過於特定，缺乏通用性。舉例來說，如果模型過度擬合某些特定的自傳樣本，可能會生成結構和語言風格過於一致的自傳，缺乏變化。

11. 正則化（Regularization）

正則化是一種防止模型過擬合的技術，通過在模型的損失函數中添加懲罰項來約束模型的複雜度。常見的正則化方法包括 L1 正則化和 L2 正則化。
在生成自傳的過程中，正則化技術能夠幫助模型避免過度擬合訓練數據，從而提高其在新數據上的泛化能力。舉例來說，通過添加 L2 正則化，可以抑制模型權重的過大變化，從而提高模型的穩定性。

⠀⠀

模型評估

12. 交叉驗證（Cross-Validation）

交叉驗證是一種評估模型性能的方法，通過將數據集劃分為多個子集進行測試，以更準確地評估模型的泛化能力。
在生成自傳的過程中，交叉驗證可以幫助評估模型在不同數據集上的性能，從而選擇最佳模型。舉例來說，K 折交叉驗證將數據集分為 K 個子集，並進行 K 次訓練和測試，每次使用不同的子集作為測試集，其餘的作為訓練集。

13. 準確率（Accuracy）

準確率是衡量模型預測正確樣本數佔總樣本數的比例，是評估模型性能的基本指標之一。
在生成自傳的過程中，準確率可以用來評估模型生成文本的正確性和自然度。舉例來說，當模型生成的自傳中，正確描述了用戶的工作經歷和技能，這表明模型具有較高的準確率。

⠀⠀

總結

非 AI 背景的產品經理如何跨到做 AI 產品是我最近在研究的題目，除了要先了解基本知識外，還需要確認要走「AI 模型」還是「AI 應用」，以我過往背景有參與過「AI 應用」，但仍覺得自己對於一些基本名詞不太熟悉，因此未來也會陸續整理文章，讓想踏入 AI 產業的產品經理可以參考。

如對這系列文章有興趣可以再觀看：

非常謝謝你的閱讀！上述單純以我的職場生活來整理，未能涵蓋所有案例。

如果文章有一點啟發或幫助，可以留言或來信讓我知道 👏
．撰寫於：2024/07/21 (日)

概念階段

模型選擇

模型訓練

模型評估

總結

相關文章

如何應用 AI Agent 進行履歷審核和面試 ｜EP74

訂閱型產品的數據下降？PM 面試案例拆解｜EP73

如何設計 AI 生成商品敘述 — 產品規劃要注意的細節｜EP72

如何應用 AI Agent 進行履歷審核和面試｜EP74