Python - PNLP
Python中文自然語言NLP深度學習與大型語言LLM專家課程
Chinese Natural Language NLP Deep Learning and Large Language LLM
- 時數:28小時
- 費用:NT$ 24,000
- 點數:6.0
選擇查詢分區開課時間
地點 | 班號 | 日期 | 時間 | 預約 |
---|---|---|---|---|
台北 | 253521 班 | 2025/03/24 ~ 2025/03/27 每週一二三四 | 09:00~17:00 | 預約 |
台北 | 253523 班 | 2025/04/12 ~ 2025/04/20 每週六日 | 09:00~17:00 | 預約 |
台北 | 253522 班 | 2025/06/16 ~ 2025/06/19 每週一二三四 | 09:00~17:00 | 預約 |
高雄 | 253521ZK 班 | 2025/03/24 ~ 2025/03/27 每週一二三四 | 09:00~17:00 | 預約 Live |
目前查無開課時段
詳細開課時間請洽詢業務
新竹、台中、高雄如有上課需求,請參考台北開課日期,洽當地服務人員依需求加開遠距開課日期
教材
課程目標
本課程的主要目標是深入探索AI人工智慧在中文自然語言處理領域的廣泛應用。深入研究 NLP 技術在社群媒體語料和消費者行為分析中的應用,不僅僅涵蓋聲量分析,如按讚、留言和分享,還包括更進一步的方法。善用爬蟲技術從媒體平台,如Meta(Facebook)和Instagram,收集具有評分的留言,建立訓練集,專注於理解消費者真實的想法和意見,並將其應用於消費者數據平臺(CDP)上的自動化標籤,進行受眾趨勢和喜好的分析,以制定精準的市場策略。
此外,課程包括中文情感分析的相關內容,包括文字資料的清洗和儲存,以及使用 Python 進行預處理、正規化和去除停用詞等技術。你將學習如何發現新詞、進行詞性標記,並使用機器學習和深度學習技術,如遞歸神經網絡(RNN)、XGBoost和樸素貝葉斯演算法,實現情感分類、文章分類和分群模型。最後,我們將進行遷移學習,調優模型參數並優化性能,再將模型部署為 API,以RESTful 方式存取 API 進行語言模型的預測。
課程的第三部分將介紹大型語言模型(LLM)的開發和應用。我們將動手微調(Fine-tuning)企業專屬的 OpenAI 模型,建立 OpenAI Assistants API 助手,提供知識問答功能,並構建 OpenAI GPTs,以提供對內和對外資料的串接機制。除了動手呼叫 OpenAI 與 Google Gemini 之外,我們還將研究 LlaMA 2 和 Mistrial 模型的微調訓練。最後,我們將使用RAG(Retrieval-Augmented Generation)來擴增知識,並整合 LangChain 和 LlamaIndex,實現站在巨人肩膀上的大語言模型能力。課程將完成將大語言模型轉換為對 CPU 友善 的 GGUF 格式,並實作離線私有化的 LLM 架構部署。
適合對象
- 高階軟體開發工程師
- 大數據相關研發人員或資料科學家
- 統計/數值分析研究人員
- 中文自然語言處理專家
- 大型語言模型微調專家
- 大型語言模型 RAG 架構專家
預備知識
- 熟悉Python程式語言撰寫能力,建議先修習恆逸資訊的「Python程式設計」以及「Python與機器學習深度學習-使用Keras與TensorFlow」相關課程。
- 了解結構化和非結構化資料庫結構,具有基本的資料庫知識,包括MySQL和MongoDB等。這將有助於您在應用中處理和管理巨量文字資料。
- 若能預先具備機器學習(Machine Learning)理論基礎知識,將有助於更深入理解語言模型的運作原理和應用。
因為這在中文自然語言模型訓練中會用到上述的基礎知識,本堂課也將從這些基礎上開始。
課程內容
1.AI的下一世代:ChatGPT 的崛起與自然語言處理 (NLP) 基礎
● 自然語言處理 (NLP) 的核心概念:自然語言理解 (NLU) 與自然語言生成 (NLG)
● 解析 ChatGPT 與大型語言模型 (LLM) 的架構與運作原理
● AI Agents 在 NLP 應用中的角色:動態應對複雜任務的智能代理
2.文字資料採集與前處理
● Python 爬蟲 (Web Crawling) 與 Scrapy 框架:實作高效能數據擷取
● MongoDB 非結構化資料庫:建構 NLP 文字儲存與檢索系統
● 巨量資料集收集與清理:從社群媒體 (Facebook/Instagram) 爬取留言,實作自動化資料清洗與標註
3.機器學習 (ML) 速成:NLP 核心算法
● 決策樹 (Decision Tree) 與隨機森林 (Random Forest) 在 NLP 領域的應用
● 梯度下降 (Gradient Descent) 的最佳化策略,提升模型訓練效率
4.機率生成模型與分類模型
● 貝氏分類 (Bayesian Classification) 在中文語意分析的應用場景
● HMM(隱馬爾可夫模型)與 Transformer 在語意建模上的對比
5.關聯詞彙與語言建模 (Tokenization & Embedding)
● 中文分詞技術:Ckip、Jieba、Transformers 在 NLP 領域的應用
● 語意向量化技術:Word2Vec、Doc2Vec 與預訓練 Transformer 模型的比較
● 思維鏈推理 (CoT) 在語義關聯推導的應用
6.文章分類與語意理解
● 詞袋模型 (Bag of Words) 與 TF-IDF 特徵工程
● Naive Bayes 分類器與 XGBoost 在文本分類的實戰應用
7.情感分析 (Sentiment Analysis) 與細粒度文本分類
● Fine-tuning HuggingFace 預訓練模型,解析中文長短句的情感傾向
● 使用 Google Play Store 評論數據,訓練基於 Keras/TensorFlow 的 RNN 情感分析模型
● 結合 AI Agents,提升情感分析系統的適應性與自動標註精度
8.中文姓名與暱稱的性別預測建模
● 訓練中英文姓名性別分類模型,應用於個性化行銷與身份識別
● 建構 NLP 索引與標籤查找機制,提升模型準確度
9.自然語言處理應用案例分析
● 部署中文姓名預測 API,提供地端預測服務
● 廣告投放最佳化:自然語言文章分類在標籤投放中的應用
● 品牌輿情監測:Facebook/Instagram 留言探針,實現品牌危機即時預警
● 社群數據分析:PTT 熱門新聞摘要與語意關聯分析
● 思維鏈推理 (CoT) 在文本理解與推理分析的實戰應用
10.微調 (Fine-tuning) ChatGPT 及 LLM,打造產業專屬 AI 助手
● 通用人工智慧 (AGI) 與 LLM 的未來發展趨勢
● 企業專屬 LLM 微調:構建自有領域知識庫,提高模型專業性
● 合併 QLoRA Adapter 接續遷移式學習 (Transfer Learning) 實作
● 微調 OpenAI 模型,構建知識庫助手,建構企業內部知識管理(KM)能力
11.延伸大型語言模型 (LLM) 知識擴增 (RAG) 與 AI Agents 應用
● 融合知識檢索 (RAG) 與 OpenAI 生成技術,提升 LLM 回應準確度
● 提示詞工程 (Prompt Engineering):運用 LangChain 與 LlamaIndex 進行高效檢索與生成
● AI Agents 在 NLP 領域的應用:智能化任務分配與動態回應生成
● 防止 AI 幻覺 (Hallucination):LLM 的事實查核技術 (Fact-checking)
● 地端 SLM 部署 (GGUF):高效能本地化模型運行與推理加速
學會技能
- 運用Python爬蟲爬取文章作為訓練資料集的能力
- 使用深度學習快速為文章自動打上標籤Tagging模型
- 遞歸神經網路(RNN)、詞袋模型(Bag of Words)、TF-IDF詞頻分類法、Naive Bayes分類器、XGBoost分類器
- 為企業提供自然語言社群快速分類新聞與產業消息分類的應用
- 訓練情感分析模型,升級企業於客戶服務文字背後的情緒正負面
- 建立企業自然語言AI處理中心,從辭彙找到最近關聯到的新聞關聯字詞
- 滿足企業社群聆聽(Social Listening)中文處理,視覺化智慧化文字雲
- 為企業外部消費者收集使用者Facebook暱稱、Instagram姓名,預測性別,了解目標消費者樣貌輪廓
- 設計與部署自然語言應用訓練好的模型為APIs,透過程式化溝通直接使用model模型
- 管理與更版自然語言語料、模型,不間斷重複訓練,掌握中文分類、標籤、情感、關聯的全方面解決方案
- 探究業界自然語言於品牌、競品理解大眾語意,推薦決策與品牌操作策略
- 掌握深度學習在自然語言處理的應用,善用pre-trained model與Transformers進行遷移式學習
- 微調(Fine-tuned)企業專屬的 OpenAI 模型
- 建立 OpenAI Assistants API 助手提供知識問答
- 建構 GPTs 提供對內與對外的串接機制
- 探討 LlaMA 2、Mistrial 模型的微調訓練
- 使用 RAG(Retrieval-Augmented Generation) 擴增知識
- 整合 LangChain、LlamaIndex 套件與向量資料庫 (Vector Database)
- 將大語言模型轉為對 CPU 友善的 GGUF 格式
- 完成部署離線私有化的 LLM 部署
備註事項
課程優惠方案:
學生優惠價:參加校園IT職涯學習護照方案,享有5折優惠價NT$12,000元
相關連結
台北恆逸教育訓練中心
- 02-25149191
- 02-25149292
- 台北市松山區復興北路99號14樓
新竹恆逸教育訓練中心
- 03-5723322
- 03-5745738
- 新竹市光復路二段295號3樓之2
台中恆逸教育訓練中心
- 04-23297722
- 04-23102000
- 台中市西區臺灣大道二段309號2樓
高雄恆逸教育訓練中心
- 07-5361199
- 07-5361698
- 高雄市苓雅區新光路38號4樓之1