2025年7月17日 星期四

2025 07 17 左永安 顧問/講師/委員/宮主/秘書長/永續長/執行長/理事長 永續管理師 AI企畫師 AI 管理顧問師 AI 應用規劃師 AI資料處理的核心流程包含以下四個關鍵步驟: 資料收集 (Data Collection) 資料清理 (Data Cleaning) 資料分析 (Data Analysis) 資料呈現 (Data Presentation)監督學習 (Supervised Learning): 基於 標籤數據 訓練模型,用於 預測(回歸)或 分類(如邏輯回歸、神經網路)。 無監督學習 (Unsupervised Learning): 在 無標籤數據上 發現模式,如k-means聚類(分組相似客戶)或 主成分分析(PCA)。

 

2025 07 17 左永安 顧問/講師/委員/宮主/秘書長/永續長/執行長/理事長 永續管理師 AI企畫師 AI 管理顧問師 AI 應用規劃師 AI資料處理的核心流程包含以下四個關鍵步驟: 資料收集 (Data Collection) 資料清理 (Data Cleaning) 資料分析 (Data Analysis) 資料呈現 (Data Presentation)監督學習 (Supervised Learning): 基於 標籤數據 訓練模型,用於 預測(回歸)或 分類(如邏輯回歸、神經網路)。 無監督學習 (Unsupervised Learning): 在 無標籤數據上 發現模式,如k-means聚類(分組相似客戶)或 主成分分析(PCA)。

AI資料處理的核心流程包含以下四個關鍵步驟: 資料收集 (Data Collection)

資料清理 (Data Cleaning)

資料分析 (Data Analysis)

資料呈現 (Data Presentation)


探索式資料分析 (EDA)

探索式資料分析 (EDA) 是一套包含 資 料 視 覺 化 統計知識

技術的 數據分析方法主要目的是 從各個面向 探索數據

找出 解決問題 的 線索 並進一步 確認問題 解決方法


數據標準化與歸一化:

標準化 (Standardization):

將數據調整為 零均值 單位方差(Z-Score)

適用於 對距離 敏感 的算法。

歸一化 (Normalization):

將數據 縮放至固定範圍(通常為[0,1]),適用於 神經網絡


處理類別數據:
標籤編碼 (Label Encoding):

每個 類別 映射 數字,適用於 有序類別

獨熱編碼 (One-Hot Encoding):

每個 類別 轉換 二進位向量,適用於 無序類別

特徵工程 (Feature Engineering):
特徵選擇:選擇 對 預測 最有影響的 變數(如卡方檢驗、相關性分析)。
特徵創建:從 現有數據 創建 新特徵,以提升模型表現(如 從日期 生成 星期幾)。
特徵縮放與轉換:對數據 進行變換(如對數轉換),使其更適合模型。

Reddit討論串的普遍共識是,特徵工程 預處理 是高度領域相關的,

預處理根據你是在做電腦視覺、自然語言處理、金融時間序列

還是通用數據科學,差異非常、非常大。」,

並沒有一個「萬能公式是每次都有效的」。


監督學習 (Supervised Learning):

基於 標籤數據 訓練模型,用於 預測(回歸)

分類(如邏輯回歸、神經網路)。

無監督學習 (Unsupervised Learning):

無標籤數據上 發現模式,如k-means聚類(分組相似客戶)或

主成分分析(PCA)

沒有留言:

張貼留言