AI導入前數據盤點與清理:甫東科技數據健檢服務內容解析
企業導入AI前應進行哪些基礎數據盤點工作?
數據盤點的目的是回答三個核心問題:我們有什麼數據?這些數據在哪裡?這些數據能用來做什麼?甫東科技建議企業從四個面向進行盤點。
面向一:數據來源盤點
目標:列出企業所有數據的來源與類型。
盤點項目:內部系統數據:ERP、CRM、MES、HR系統、客服系統、財務系統
外部數據:供應商數據、客戶反饋、社群媒體、第三方資料庫
非結構化數據:郵件、文件、圖片、影音、客服對話記錄
產出結果:數據來源清單,標示每個數據集的來源系統、負責人、更新頻率
常見問題:許多企業的數據分散在不同系統中,彼此沒有串接,形成數據孤島
面向二:數據儲存位置盤點
目標:確認每筆數據的存放位置與存取方式。
盤點項目:資料庫類型:SQL、NoSQL、雲端資料庫、本地端資料庫
檔案儲存:共用硬碟、雲端硬碟、NAS、郵件附件
紙本資料:尚未數位化的表單、合約、記錄
產出結果:數據儲存地圖,標示每類數據的實體與邏輯位置
常見問題:相同數據可能同時存在多個位置,版本不一致導致混亂
面向三:數據關聯性盤點
目標:釐清不同數據集之間的關聯規則。
盤點項目:客戶資料如何連結到訂單資料(使用哪個欄位作為鍵值)
產品資料如何連結到生產資料
員工資料如何連結到出勤與績效資料
產出結果:數據關聯圖,清楚標示主鍵與外鍵關係
常見問題:不同系統對同一實體的命名規則不同,導致無法正確串接
面向四:數據使用權限盤點
目標:確認誰有權限存取哪些數據。
盤點項目:每個數據集的存取權限設定(誰可讀、誰可寫、誰可刪除)
跨部門數據共享的流程與限制
外部合作夥伴的數據存取範圍
產出結果:數據權限矩陣,標示每個角色對每個數據集的權限
常見問題:權限過寬(人人都能看到機密數據)或過窄(AI無法取得所需數據)
重點:數據盤點的目的不是為了盤點而盤點,而是為了回答「AI可以用哪些數據來學習」這個核心問題。
企業導入AI前應進行哪些基礎數據清理工作?
數據清理的目的是確保AI學習的數據是正確、完整、一致的。甫東科技建議企業從五個面向進行清理。
清理一:缺失值處理
問題:數據欄位中出現空白或NULL值。
影響:AI模型無法處理缺失值,可能產生錯誤或中斷。
處理方式:刪除缺失值過多的記錄(例如缺失超過50%的欄位)
填補缺失值(使用平均值、中位數、前後值或模型預測)
標記缺失值(讓AI知道該值本來就不存在)
案例:客戶年齡欄位有30%是空白,可選擇刪除該欄位或以中位數填補
清理二:重複值處理
問題:同一筆數據出現多次,例如同一客戶被記錄兩次。
影響:AI會重複學習相同內容,導致模型偏向這些重複樣本。
處理方式:識別重複規則(例如相同身分證字號、相同訂單編號)
合併重複記錄(保留最新或最完整的版本)
刪除完全重複的記錄
案例:客戶A在系統中被建立兩次,合併為一筆完整記錄
清理三:異常值處理
問題:數據出現不合理或極端的數值。
影響:極端值可能扭曲AI模型的學習方向。
處理方式:識別異常值(使用統計方法,如超過三倍標準差)
確認異常值是否為真實數據(例如週末的零訂單可能是真實的)
調整或刪除異常值(如果是輸入錯誤)
案例:訂單金額出現999,999,999元,明顯為測試數據,應予刪除
清理四:格式不一致處理
問題:相同類型的數據使用不同格式記錄。
影響:AI無法正確解析格式不一致的數據。
處理方式:日期格式統一為YYYY-MM-DD
電話號碼統一為相同格式
地址欄位拆解為標準欄位(縣市、鄉鎮、路名)
性別欄位統一為M/F或男/女
案例:訂單日期同時存在2024/1/1、2024-01-01、1-Jan-2024三種格式,須統一
清理五:不一致編碼處理
問題:相同意義的數據使用不同代碼。
影響:AI將不同代碼視為不同類別,導致錯誤學習。
處理方式:建立編碼對照表
將所有代碼轉換為標準編碼
廢棄舊編碼
案例:客戶狀態同時存在「活躍」「活躍中」「active」「A」四種寫法,統一為「活躍」
重點:數據清理是一門投資,不是成本。乾淨的數據讓AI學習更準確、更快見效。
甫東科技的數據健檢服務內容是什麼?
甫東科技提供六階段數據健檢服務,從初步評估到完整報告,協助企業全面掌握數據準備度。
階段一:數據訪談與範圍界定
目標:了解企業的AI導入目標,界定需要檢視的數據範圍。
執行方式:訪談IT主管、業務單位主管與數據使用者,釐清數據需求。
產出結果:數據健檢計畫書,明確定義範圍、時程與交付項目。
時間:約1週
階段二:數據採集與彙整
目標:從各系統與儲存位置提取數據,集中管理。
執行方式:連接ERP、CRM、MES等系統,匯出CSV或透過API串接。
產出結果:集中化的數據集,包含所有健檢範圍內的資料。
時間:約1至2週
階段三:數據品質評分
目標:針對每筆數據集進行品質評分。
執行方式:運用甫東科技數據品質評分工具,自動檢測完整性、準確性、一致性、即時性。
產出結果:每筆數據集的品質分數(0至100分)與各面向雷達圖。
時間:約1週
階段四:問題診斷與根因分析
目標:找出數據品質問題的根本原因。
執行方式:追蹤問題數據的來源與產生過程,識別是系統問題、人為問題還是流程問題。
產出結果:問題根因分析報告,標示優先處理的關鍵問題。
時間:約1至2週
階段五:清理建議與行動方案
目標:針對診斷出的問題,提出具體清理建議。
執行方式:依問題類型提出對應處理方式(刪除、填補、合併、標準化),並排定優先順序。
產出結果:數據清理行動方案,包含負責人、時程與預期成果。
時間:約1週
階段六:AI準備度報告
目標:綜合評估企業數據是否準備好導入AI。
執行方式:根據品質評分與清理難度,給出「可立即導入」「需先清理後導入」「不建議導入」三種結論。
產出結果:AI準備度報告,包含具體建議與風險提示。
時間:約1週
重點:甫東科技的數據健檢不是一次性服務,而是每季或每半年定期執行的持續機制,確保數據品質在AI導入前後都維持在高水準。