更新時間: 2018/05/17

資料處理方面相關問題

Q.

Q1: Customer_Profile裡的EDU_CODE裡數字各自代表的教育程度?
Q2: web_trainingSet檔案裡的網址欄位裡的網址大部分都是無效的網址,請問是正常現象嗎?
Q3: 所有table中的遺失值是代表什麼意思?
Q4: 請問顧客瀏覽紀錄是如何收集的?瀏覽紀錄是包含瀏覽玉山網頁外的網站嗎?什麼是網頁編碼?
Q5: 訓練集/測試集:五個指定標籤分別代表的意思?是依據什麼準則做成這些標籤?網頁標題是只有玉山的網頁還是也有包含玉山以外的網站?
Q6: 想請教訓練模型的變數只能利用 "PAGENAME" 此欄位嗎?或是可以加入 "PAGE" 這欄位進行訓練。
Q7: 在資料處理中遇到PAGENAME(網頁標題)缺漏及亂碼等問題該如何處理?
Q8: 現在提供的資料中,只有給網址去跑建立官網標籤的模型,請問在比賽時會提供怎樣的資料呢?
Q9: 決賽當天的模型評比input與output的內容分別是什麼? 
Q10: 請問標籤預測模型的結果是依據什麼排序?

A.

A1: 1博士;2碩士;3學士;4專科;5高中高職;6其他
A2: 由於網頁會因活動時間而上下架,網址失效屬正常現象,但不影響建模。可從未失效之網頁了解有各標籤之網頁特性。
A3: 基本屬性(例如教育程度、子女數)如果為遺失值,表示顧客當時並無留下此資料;如果為產品相關的欄位,遺失值表示無此產品。
A4: 瀏覽行為僅限於玉山官網,網頁編碼為資料庫流水編,用於資料串接,無特別意義。
A5: 網頁僅包含玉山官網,標籤定義如字面意思,外匯則表示該網頁與外匯服務相關,資金需求/無擔保標籤則表示此網頁與無擔保貸款有關,詳細名詞可上網查詢。
      標籤產生之規則為本次建模題目,請同學發揮資料分析之精神自行發掘。

A6: 同學可自行發揮,利用目前的資料進行標籤預測。
A7: 分析非結構化資料最大的挑戰就是資料常常不是很乾淨、很整齊,因此本次比賽模擬真實資料,希望同學可以發揮資料處理之技能,
      讓同學在比賽中體驗實際企業分析資料時所面臨的問題。因此同學可自行依照資料清理的技術整理資料,並無統一的方式。

A8: 決賽當天會提供Pagename等資訊讓大家進行預測。
A9: input為網頁標題,output為指定的五個標籤,會與Training Data給予的資訊一致。
A10: F1-Score