※ 本文轉寄自 ptt.cc, 文章原始頁面

標題

Re: [討論] 關於 Dcard ML 實習作業

時間2023-05-15 21:35:24

最新2023-05-21 13:50:00

留言39則留言，7人參與討論

推噓7 ( 8推1噓30→ )

: 題目是用結構資料，包含標題、看板資訊以及1-6小時的愛心數和評論數等等 : 來預測發文後 24 小時的愛心數來雲一下我可能會怎麼做如果假設我沒理解錯誤題目的話，應該基於給予的前六小時的資料，去預測未來24小時候的愛心數吧? 首先這題目我可能就不會考慮用NLP來做處理，主要是資料量可能不足再加上中文NLP來做除了麻煩外效果可能也不會太好想法是有了1~6小時的愛心數跟評論量，預測未來24小時的愛心數基本上標題文字的意義其實可能就不是那麼重大，有強烈特徵的可能只是一兩個關鍵字而且有了前六小時的數據，基本上不用標題也能夠推估未來的數字所以覺得這題比較難的是，你沒有6小時之後的資料，所以很難預估一個趨勢 (除非有給完整趨勢資料) 因此我會將看板資訊轉成單純數字的Label，或是可以取得與看版相關的人氣值正規化後做代替將標題做關鍵字提取，並且做文字雲把重複的強烈關鍵字與留言愛心數做對應，重新建一個特徵值接下來就有完整的特徵值資料，做一下特徵值的關聯性或是強度分析挑幾個覺得強烈的出來訓練一個模型即可(ML與DL都可以) (應該用LSTM效果比較好) 基本上能簡單做就不會想太複雜處理，單純一個想法也確定可不可行，供大家討論參考 -- 那片有座高塔哭著朝北方奔去的天空，是我此刻片尋不著的風景 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.166.82.176 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1684157729.A.940.html

DCard

Re: 回文串

1349

[討論] 關於 Dcard ML 實習作業

Soft_Job05/14 01:29

739

> Re: [討論] 關於 Dcard ML 實習作業

Soft_Job05/15 21:35

39 則留言

推

hsuchengmath05/16 07:55, 1F

為啥會沒有24小時後的資料，dcard文章不是一大堆，

→

hsuchengmath05/16 07:55, 2F

隨便爬都有啊

 我不知道他們題目有沒有說可以拿外部資料，只為了符合遊戲規則而已
如果是我理解這樣，這題目其實比較有點類似工業界的生命預估

推

oopFoo05/16 07:56, 3F

我也覺的是這個方向，但關鍵字應該也是重要，但關鍵字如何

→

oopFoo05/16 07:57, 4F

提取，應該是dl訓練出來的。我覺的這題關鍵是如何提取關鍵

→

oopFoo05/16 07:58, 5F

字，不然有6小時的資料應該很容易預測24小時的愛心數。

推

oopFoo05/16 08:02, 6F

而且給time series的資料，應該就是想用transformer

能簡單就比較不會想複雜用，雖然不確定考官想要的方向是什麼

→

DrTech05/16 11:10, 7F

5萬筆資料用transformer 去over-fitting？資料量那麼少，

→

DrTech05/16 11:10, 8F

模型用那麼複雜，效果好也是運氣

→

DrTech05/16 11:12, 9F

沒有對錯，純個人不同看法。

認同

※ 編輯: EvilSD (59.120.53.15 臺灣), 05/16/2023 12:23:10

推

ekids123405/16 12:27, 10F

transformer 一般來說要到哪個數量級才勉強及格 ?

如果在NLP感覺至少也要數十萬以上才夠用
但目前的題目是只要抓標題，文本量很少因此我猜五萬筆是足夠的
只是如果今天拿去測外部資料會不會準，就不知道了

推

oopFoo05/16 13:01, 11F

我猜現在所有人都在用bert/gpt，找intern應該也是想要延續

→

oopFoo05/16 13:01, 12F

公司正在做的，transformer也許不是最適合這題，但可能是

→

oopFoo05/16 13:03, 13F

dcard想找的人。只是盲猜，提出來聊聊。面試，考題，機運

→

oopFoo05/16 13:03, 14F

蠻重要的。

推

oopFoo05/16 13:12, 15F

這種"標題"對"星星"的decoder應該很簡易訓練，反正資料少

的確考量考官想看的差異度會很大，有些考官喜歡看新東西新技術，有些考官喜歡實用性

→

h92003205/16 13:38, 16F

用BOW就夠了吧

真是懷念XD 但依我原先的想法用BOW應該就是最直接的了

※ 編輯: EvilSD (59.120.53.15 臺灣), 05/16/2023 14:01:23

推

penniless05/17 13:58, 17F

挑一個預訓練的中文模型，五萬條fine tune transformer

→

penniless05/17 13:58, 18F

很夠了... 2023了沒人在train from scratch

噓

brucetu05/18 00:00, 19F

你在講什麼自己改題目? 還沒發文哪來的前六小時?

→

DrTech05/18 00:05, 20F

用transformer，尤其是直接標題放進去train就是準備 over-

→

DrTech05/18 00:05, 21F

fitting啊，ML基本常識。 BERT Embedding+ 下游小模型，我

→

DrTech05/18 00:05, 22F

還覺得稍微有點ML常識。

→

DrTech05/18 00:06, 23F

這吳恩達的deep learning或各種ML經典教科書都有寫吧。資

→

DrTech05/18 00:06, 24F

料量少要用小模型。

→

DrTech05/18 00:10, 25F

或者把 transformer或BERT的layer抽掉幾層成為較小模型也

→

DrTech05/18 00:10, 26F

可。用小模型是為了降低模型的Variance，這基本常識吧。

→

DrTech05/18 00:12, 27F

這就是為什麼原PO用XGBoost LightGBM ，反而效果可能好

推

oopFoo05/18 08:49, 28F

這就是很詭異的地方，現在用LLMs，用少少的data fine tune

→

oopFoo05/18 08:50, 29F

效果奇異的好。也許LLMs裡的"知識"夠多，adaptation效果

→

oopFoo05/18 08:52, 30F

奇佳。在twitter上看到一些專研NLP的學者有點垂頭喪氣，說

→

oopFoo05/18 08:52, 31F

以後不用研究了

→

brucetu05/18 20:04, 32F

這也不是今年才這樣沒人在from scratch了

→

DrTech05/21 13:46, 33F

你們都來亂的吧，你去看各種task排行榜，paperwithcode排

→

DrTech05/21 13:46, 34F

行榜，有哪個top-3 solution是LLM+fine-tune?完全沒有。

→

DrTech05/21 13:46, 35F

身為工程人員，講科學證據吧。不要靠幻想感受。

→

DrTech05/21 13:48, 36F

而且LLM跑一個完整預測結果，正常機器，要數秒。用怎麼可

→

DrTech05/21 13:48, 37F

能上正常有流量的產品。

→

DrTech05/21 13:50, 38F

效果好要講科學證據啦，公開資料集測一下，不要靠猜測或個

→

DrTech05/21 13:50, 39F

人感受。

EvilSD 作者的近期文章

13Soft_Job

Re: [請益] 留坡或者回台

更多 EvilSD 作者的文章...