※ 本文轉寄自 ptt.cc, 文章原始頁面
看板Soft_Job
標題

[討論] 關於 Dcard ML 實習作業

時間
最新2023-05-27 13:44:00
留言49則留言,14人參與討論
推噓13 ( 14134 )
看到下面有篇大神有討論到這次 Dcard ML 實習作業,因為沒有收到團隊的具體反饋 想和大家討論作業的狀況 題目是用結構資料,包含標題、看板資訊以及1-6小時的愛心數和評論數等等 來預測發文後 24 小時的愛心數 因為當時是期中,我只大概花了五天約二十個小時來做 我的作法大致如下 首先先用 XGBoost LightGBM 把量化資料做出 baseline 但沒辦法處理最重要的標題資訊 所以就直接拿 Huggingface BERT 來做 直接把資料餵進去的訓練是無法收斂的 後來也嘗試一些 Emsemble 和 training tricks 但也都沒辦法收斂,甚至達不到 baseline 的效果 認為是資料量的問題 到這邊沒什麼特別想法就直接寫報告了 我一直都主要是做 CV ,碩論跑去做 3D 對 NLP 非常不熟悉,不知道是否有漏掉關鍵操作 想請同有拿到作業的大神指點 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.171.131.209 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1683998999.A.DBB.html

Re: 回文串

1349
> [討論] 關於 Dcard ML 實習作業
Soft_Job05/14 01:29

49 則留言

changecandy, 1F
你用BERT做了什麼以及什麼東西無法收斂?
任務如文中所述,是迴歸問題,目標是文章發文後24小時的愛心數 因為有中文標題,故直覺想到就是 BERT,將中文標題 tokenize 後 連同其他 feature 一同 concatenate,送入BERT直接 end2end 訓練出愛心數

Tommnny, 2F
這邊跪等神人分享 我們實驗室沒有人上
不知道實驗室內有沒有其他效果比較好的解法?

Bujo, 3F
這個案例建議使用LSTM序列
謝謝提供思路,但LSTM的話要如何考慮中文標題? 一樣使用word2vec或tokenizer嗎?

cilovwx, 4F
雖然我也沒上,但我自己還有另外萃取出判斷個版跟標題是

cilovwx, 5F
否有分類之類的feature,這兩項做關聯度分析,相關性也

cilovwx, 6F
不低
謝謝,確實我幾乎沒有做 feature engineering 是否方便請教後續是用什麼方法回歸出愛心數?

DrTech, 7F
你這樣 concatenate bert出來的維度那麼大,變成嚴重主導

DrTech, 8F
預測結果。但實際上

DrTech, 9F
但標題實際上根本不太會影響愛心與評論數。光看這點,就覺

DrTech, 10F
得你沒有從最基本的業務理解business understanding來解了

DrTech, 11F

DrTech, 12F
對了,資料量有多打? 資料量少,用複雜的模型根本沒用。

DrTech, 13F
資料量少的話,例如少於幾萬筆,對標題做任何處理可能都沒

DrTech, 14F
太大意義。

DrTech, 15F
這題,愛心數,評論數的特徵,相較於標題,標題絕對是雜訊

DrTech, 16F

DrTech, 17F
HuggingFace tokenizer出來的標題維度很大的,只會讓標題

DrTech, 18F
雜訊主導一切。當然沒辦法收斂,很正常。

DrTech, 19F
資料量確實是問題。但人是否會根據標題就評論或點愛心,是

DrTech, 20F
你優先需要思考到的。
謝謝DrTech大的回復,tokenizer出來的embeddings我是有再downsampling的 當時也有考慮到這件事情,我也測試過downsample到4 - 16或其他一些奇淫巧技 也有對tokenizer做regularization等等,但對訓練幫助都不大 至於標題是否影響愛心數,確實實際上不一定 但該資料集提供的特徵數很少,其餘大多都是scalar 相信他們一定希望受試者去分析標題,當然處理整個標題可能不是個好辦法 1-6小時愛心數與24小時愛心數的相關性非常高 故我也在BERT之中嘗試建立使用這些高相關feature的MLP迴歸模型 以及和 XGBoost LightGBM 的 Ensemble 但對訓練並無明顯益處 我在寫這份測驗的時候,並不覺得量化結果會多好,因為僅有約五萬筆資料(文章) 而同時也要展現工程能力,譬如我用 Pytorch-lightning 架構整個 training, monitoring, evaluation pipeline 實作上的能力可能會區分我與其他一部分的面試者 但結果看來可能是有大神直接幹出很好的模型和訓練結果 後續評分項如解題思路、報告呈現和實作能力都沒有被考量了 才很好奇進入面試的大神是怎麼得出很好的預測方法的 感謝您的回覆
※ 編輯: Sixigma (118.171.131.209 臺灣), 05/14/2023 16:03:47

cilovwx, 21F
我自己對於標題的作法是單純直接用snownlp去做sentiment

cilovwx, 22F
polarity 而已,因為我自己認為標題其實只是吸引大家點

cilovwx, 23F
進去的機率,但按愛心的數量跟內容比較有相關。我的model

cilovwx, 24F
部分,我記得我一開始用xgboost效果不是很好,所以我後

cilovwx, 25F
來改用SVR跟一個我自己建的NN模型。但是我那時候也在準

cilovwx, 26F
備其他事情,所以好像也沒有fine-tuned 得很好

hsuchengmath, 27F
遇到這種 一定是先做基本的統計分析啊,先看 24小

hsuchengmath, 28F
時愛心數的分佈,然後分成 多愛心數 和 少愛心數的

hsuchengmath, 29F
,然後看哪些特徵 是有用的,最後才建模啊,別在直

hsuchengmath, 30F
接套膜了,不會進步的xdd

DrTech, 31F
謝謝你,長文那麼仔細回應互動喔

changecandy, 32F
直接使用BERT做預測的確是個挑戰,原因有很多就不展

changecandy, 33F
開了,但你可以考慮換個用法,例如把BERT基於文字所

changecandy, 34F
預測的分數當成你主要預測模型的其中一項特徵,這樣

changecandy, 35F
也算是引入文字資訊了。

Matz, 36F
去鴻海第一年150沒問題

abc21086999, 37F
煩不煩哪裡都有鴻海

email81227, 38F
好奇用哪個BERT Pre-Training的版本?

nistik84114, 39F
中文如果沒在你用的bert的tokenizer裡會直接被忽略

nistik84114, 40F
喔 確認一下

gamania0258, 41F
話一堆時間寫作業還不給回饋 這間很像挺看得起自己的

gamania0258, 42F
lul 只能說 沒上是好事

T160, 43F
我做法跟h大說的差不多XD 也是至少花了20小時以上時間搞這pr

T160, 44F
oject 結果就一封罐頭感謝函 好歹也給個排名吧真的很沒誠意-

T160, 45F
_-

hia261321, 46F
根據之前看同學打比賽 我猜可能有人自己去抓dcard的額

hia261321, 47F
外資料來訓練 資料量比一般人多很多的情況下隨便丟個

hia261321, 48F
模型都贏大家

aacs0130, 49F
推hsuchengmath跟DrTech

Sixigma 作者的近期文章

Re: [新聞] 美監管機構調查:特斯拉自駕系統存在「
好了啦 cost down 星人 都 2024 年了還不承認純視覺不足以滿足自駕功能 明明所有的電腦視覺的論文和資料集和 benchmark 無論在 3D Object Detection 或是 Planning 都是融合方案屌打 前者有用
Re: [新聞] 台股慘到破紀錄 收盤重挫774.08點 創史上
: 台積電法說會未釋出利多,即使台積電強調今年自身營運健康成長,營收年增21%至26%的 : 目標不變,並看好AI的營收貢獻比提升,但台積電法說會下修今年全球半導體、全球晶圓 : 代工,以及全球車用市場等三大領域的展望,震撼市場。 : 加上
[新聞] 台積電獲拜登政府「116億美元補助」! 
原文標題: 台積電獲拜登政府「116億美元補助」!將在亞利桑那州蓋第三廠 原文連結: https://www.ettoday.net/news/20240408/2715562.htm 發布時間: 2024年04月08日 17:28 記者署
Re: [新聞] 謝金河指蘋果好日子不多了 全因庫克
我不同意蘋果估值過低,基本上它面臨的問題和特斯拉簡直一模一樣 投資人覺得特斯拉不應該只是一間電動車公司,就像蘋果也不應該只是手機公司 特斯拉深陷中國價格戰泥潦,蘋果又何嘗不是 華為這兩年突然崛起,可能是多年鉅額補貼發揮效果 從問界到麒麟 9
Re: [標的] 特斯拉 多
看了仰望 u8 後覺得現在跟中國車廠拚自駕技術是很不划算的 仰望 u8 那個根本是小測繪車等級的用料 3 LIDAR, 5 mmwave radars, 14 sonar radars, 16 camera 雖然我們無從得知他各項裝置的精度
Re: [新聞] 日媒揭中GDP造假 籲投資人快逃
我是真的好奇,可能總經知識貧乏 一個依靠推動內需和基礎建設、依靠大開槓桿推動經濟成長的國家 在內債大增、投資信心不足 以及股債房匯全部崩跌 (資產崩盤,高槓桿最怕) 導致通貨緊縮(消費信心不足) 的同時 出口總額不增不減 GDP 成長 5.
更多 Sixigma 作者的文章...