※ 本文轉寄自 ptt.cc, 文章原始頁面

看板Soft_Job

作者Sixigma (六西格瑪)

標題

[討論] 關於 Dcard ML 實習作業

時間2023-05-14 09:29:57

最新2023-05-27 13:44:00

留言49則留言，14人參與討論

推噓13 ( 14推1噓34→ )

回文2則回文

看到下面有篇大神有討論到這次 Dcard ML 實習作業，因為沒有收到團隊的具體反饋想和大家討論作業的狀況題目是用結構資料，包含標題、看板資訊以及1-6小時的愛心數和評論數等等來預測發文後 24 小時的愛心數因為當時是期中，我只大概花了五天約二十個小時來做我的作法大致如下首先先用 XGBoost LightGBM 把量化資料做出 baseline 但沒辦法處理最重要的標題資訊所以就直接拿 Huggingface BERT 來做直接把資料餵進去的訓練是無法收斂的後來也嘗試一些 Emsemble 和 training tricks 但也都沒辦法收斂，甚至達不到 baseline 的效果認為是資料量的問題到這邊沒什麼特別想法就直接寫報告了我一直都主要是做 CV ，碩論跑去做 3D 對 NLP 非常不熟悉，不知道是否有漏掉關鍵操作想請同有拿到作業的大神指點謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.171.131.209 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1683998999.A.DBB.html

DCard

Re: 回文串

1349

> [討論] 關於 Dcard ML 實習作業

Soft_Job05/14 01:29

739

Re: [討論] 關於 Dcard ML 實習作業

Soft_Job05/15 21:35

49 則留言

推

changecandy05/14 03:05, 1F

你用BERT做了什麼以及什麼東西無法收斂？

        任務如文中所述，是迴歸問題，目標是文章發文後24小時的愛心數
        因為有中文標題，故直覺想到就是 BERT，將中文標題 tokenize 後
        連同其他 feature 一同 concatenate，送入BERT直接 end2end 訓練出愛心數

推

Tommnny05/14 10:49, 2F

這邊跪等神人分享我們實驗室沒有人上

        不知道實驗室內有沒有其他效果比較好的解法？

推

Bujo05/14 12:01, 3F

這個案例建議使用LSTM序列

        謝謝提供思路，但LSTM的話要如何考慮中文標題？
        一樣使用word2vec或tokenizer嗎？

推

cilovwx05/14 13:05, 4F

雖然我也沒上，但我自己還有另外萃取出判斷個版跟標題是

→

cilovwx05/14 13:05, 5F

否有分類之類的feature，這兩項做關聯度分析，相關性也

→

cilovwx05/14 13:05, 6F

不低

        謝謝，確實我幾乎沒有做 feature engineering
        是否方便請教後續是用什麼方法回歸出愛心數？

推

DrTech05/14 14:36, 7F

你這樣 concatenate bert出來的維度那麼大，變成嚴重主導

→

DrTech05/14 14:36, 8F

預測結果。但實際上

→

DrTech05/14 14:38, 9F

但標題實際上根本不太會影響愛心與評論數。光看這點，就覺

→

DrTech05/14 14:38, 10F

得你沒有從最基本的業務理解business understanding來解了

→

DrTech05/14 14:38, 11F

。

→

DrTech05/14 14:41, 12F

對了，資料量有多打？資料量少，用複雜的模型根本沒用。

→

DrTech05/14 14:46, 13F

資料量少的話，例如少於幾萬筆，對標題做任何處理可能都沒

→

DrTech05/14 14:46, 14F

太大意義。

→

DrTech05/14 14:48, 15F

這題，愛心數，評論數的特徵，相較於標題，標題絕對是雜訊

→

DrTech05/14 14:48, 16F

。

→

DrTech05/14 14:51, 17F

HuggingFace tokenizer出來的標題維度很大的，只會讓標題

→

DrTech05/14 14:51, 18F

雜訊主導一切。當然沒辦法收斂，很正常。

→

DrTech05/14 14:58, 19F

資料量確實是問題。但人是否會根據標題就評論或點愛心，是

→

DrTech05/14 14:58, 20F

你優先需要思考到的。

        謝謝DrTech大的回復，tokenizer出來的embeddings我是有再downsampling的
        當時也有考慮到這件事情，我也測試過downsample到4 - 16或其他一些奇淫巧技
        也有對tokenizer做regularization等等，但對訓練幫助都不大
        至於標題是否影響愛心數，確實實際上不一定
        但該資料集提供的特徵數很少，其餘大多都是scalar
        相信他們一定希望受試者去分析標題，當然處理整個標題可能不是個好辦法
        1-6小時愛心數與24小時愛心數的相關性非常高
        故我也在BERT之中嘗試建立使用這些高相關feature的MLP迴歸模型
        以及和 XGBoost LightGBM 的 Ensemble
        但對訓練並無明顯益處

        我在寫這份測驗的時候，並不覺得量化結果會多好，因為僅有約五萬筆資料(文章)
        而同時也要展現工程能力，譬如我用 Pytorch-lightning 架構整個
        training, monitoring, evaluation pipeline
        實作上的能力可能會區分我與其他一部分的面試者
        但結果看來可能是有大神直接幹出很好的模型和訓練結果
        後續評分項如解題思路、報告呈現和實作能力都沒有被考量了
        才很好奇進入面試的大神是怎麼得出很好的預測方法的
        感謝您的回覆

※ 編輯: Sixigma (118.171.131.209 臺灣), 05/14/2023 16:03:47

推

cilovwx05/14 16:44, 21F

我自己對於標題的作法是單純直接用snownlp去做sentiment

→

cilovwx05/14 16:44, 22F

polarity 而已，因為我自己認為標題其實只是吸引大家點

→

cilovwx05/14 16:44, 23F

進去的機率，但按愛心的數量跟內容比較有相關。我的model

→

cilovwx05/14 16:44, 24F

部分，我記得我一開始用xgboost效果不是很好，所以我後

→

cilovwx05/14 16:44, 25F

來改用SVR跟一個我自己建的NN模型。但是我那時候也在準

→

cilovwx05/14 16:44, 26F

備其他事情，所以好像也沒有fine-tuned 得很好

推

hsuchengmath05/14 17:01, 27F

遇到這種一定是先做基本的統計分析啊，先看 24小

→

hsuchengmath05/14 17:01, 28F

時愛心數的分佈，然後分成多愛心數和少愛心數的

→

hsuchengmath05/14 17:01, 29F

，然後看哪些特徵是有用的，最後才建模啊，別在直

→

hsuchengmath05/14 17:01, 30F

接套膜了，不會進步的xdd

推

DrTech05/14 17:54, 31F

謝謝你，長文那麼仔細回應互動喔

→

changecandy05/14 18:43, 32F

直接使用BERT做預測的確是個挑戰，原因有很多就不展

→

changecandy05/14 18:43, 33F

開了，但你可以考慮換個用法，例如把BERT基於文字所

→

changecandy05/14 18:43, 34F

預測的分數當成你主要預測模型的其中一項特徵，這樣

→

changecandy05/14 18:43, 35F

也算是引入文字資訊了。

噓

Matz05/14 21:13, 36F

去鴻海第一年150沒問題

推

abc2108699905/14 23:37, 37F

煩不煩哪裡都有鴻海

推

email8122705/15 03:09, 38F

好奇用哪個BERT Pre-Training的版本？

推

nistik8411405/15 06:11, 39F

中文如果沒在你用的bert的tokenizer裡會直接被忽略

→

nistik8411405/15 06:11, 40F

喔確認一下

→

gamania025805/15 16:04, 41F

話一堆時間寫作業還不給回饋這間很像挺看得起自己的

→

gamania025805/15 16:04, 42F

lul 只能說沒上是好事

推

T16005/15 22:35, 43F

我做法跟h大說的差不多XD 也是至少花了20小時以上時間搞這pr

→

T16005/15 22:35, 44F

oject 結果就一封罐頭感謝函好歹也給個排名吧真的很沒誠意-

→

T16005/15 22:35, 45F

推

hia26132105/16 09:42, 46F

根據之前看同學打比賽我猜可能有人自己去抓dcard的額

→

hia26132105/16 09:42, 47F

外資料來訓練資料量比一般人多很多的情況下隨便丟個

→

hia26132105/16 09:42, 48F

模型都贏大家

推

aacs013005/27 13:44, 49F

推hsuchengmath跟DrTech

Sixigma 作者的近期文章

26Stock

[新聞] 馬斯克長一堆「闌尾」！特斯拉竟成Lumina

34Stock

Re: [新聞] 美監管機構調查：特斯拉自駕系統存在「

好了啦 cost down 星人都 2024 年了還不承認純視覺不足以滿足自駕功能明明所有的電腦視覺的論文和資料集和 benchmark 無論在 3D Object Detection 或是 Planning 都是融合方案屌打前者有用

17Stock

Re: [新聞] 內卷激化理想汽車罕見降價

12Stock

Re: [新聞] 台股慘到破紀錄收盤重挫774.08點創史上

: 台積電法說會未釋出利多，即使台積電強調今年自身營運健康成長，營收年增21%至26%的 : 目標不變，並看好AI的營收貢獻比提升，但台積電法說會下修今年全球半導體、全球晶圓 : 代工，以及全球車用市場等三大領域的展望，震撼市場。 : 加上

90Stock

[新聞] 台積電獲拜登政府「116億美元補助」！　

原文標題：台積電獲拜登政府「116億美元補助」！將在亞利桑那州蓋第三廠原文連結： https://www.ettoday.net/news/20240408/2715562.htm 發布時間： 2024年04月08日 17:28 記者署

19Stock

Re: [新聞] 謝金河指蘋果好日子不多了全因庫克

我不同意蘋果估值過低，基本上它面臨的問題和特斯拉簡直一模一樣投資人覺得特斯拉不應該只是一間電動車公司，就像蘋果也不應該只是手機公司特斯拉深陷中國價格戰泥潦，蘋果又何嘗不是華為這兩年突然崛起，可能是多年鉅額補貼發揮效果從問界到麒麟 9

48Stock

Re: [請益] 為什麼這波韓國股市沒有跟著創新高

17Stock

[新聞] 飛機意外頻傳吹哨者猝死波音淪落至標普

15Stock

Re: [標的] 特斯拉多

看了仰望 u8 後覺得現在跟中國車廠拚自駕技術是很不划算的仰望 u8 那個根本是小測繪車等級的用料 3 LIDAR, 5 mmwave radars, 14 sonar radars, 16 camera 雖然我們無從得知他各項裝置的精度

33Stock

Re: [新聞] 日媒揭中GDP造假籲投資人快逃

我是真的好奇，可能總經知識貧乏一個依靠推動內需和基礎建設、依靠大開槓桿推動經濟成長的國家在內債大增、投資信心不足以及股債房匯全部崩跌（資產崩盤，高槓桿最怕）導致通貨緊縮（消費信心不足）的同時出口總額不增不減 GDP 成長 5.

更多 Sixigma 作者的文章...