※ 本文轉寄自 ptt.cc, 文章原始頁面
標題

[討論] VGG16和adam

時間
最新2023-05-06 16:56:00
留言28則留言,5人參與討論
推噓5 ( 5023 )
ctrl + y 可以刪除一整行,請將不需要的內容刪除 文章分類提示: - 問題: 當你想要問問題時,請使用這個類別。 - 討論: 當你自己已經有答案,但是也想聽聽版友意見時。 - 情報: 當你看到消息時,請使用這個類別。 根據板規規定,做適當的轉換,以及摘錄重要文意。 - 心得: 當你自己想要分享經驗時,請使用這個類別。 [關鍵字]:VGG [重點摘要]: 這是之前版上那篇驗證accuarcy完全沒變的回文,但是因為問題已經解決而且有新疑問所以發新文章並改用討論作為分類 主要想討論的問題是,VGG真的和ADAM處不好?我是在網上看到有人講這件事改用SGD後loss才有在明顯變動 他的說法是ADAM遇到VGG等參數大的模型就會失常,他還說是常識但我是第一次看到QAQ (板友chang1248w指這是錯誤資訊) 一方面我自己改成SGD後總算是能開始訓練,另一方面卻也看到有人用使用ADAM的VGG去做cifar10 我也有在猜這次的分類任務是二分法這點會不會也有影響 而這次訓練的資訊如下: pastebin:https://pastebin.com/H3MeGvht 模型:VGG16 目的:參照https://youtu.be/2xMLlm_VDJE,訓練出能區分究竟是不是pizza的神經網路
資料:food-101,其中pizza的部分請參考該影片以剃除被錯誤分進pizza資料集的圖片 這次我使用的是1000張pizza(刪除後不足的用自己寫的爬蟲抓圖片進來補) 而作為對照組的非pizza資料則從food-101的其他食物圖片中各選10張,總計1000張 結果:收斂過程對於valid資料集滿不穩定的,最終大概收在accuracy 81~82% 設定的收斂條件為當valid_loss不再下降5次時學習率*0.2,不再下降超過10次停止 loss: https://imgur.com/yBcU0G3
[討論] VGG16和adam
accuracy: https://imgur.com/e6w1xM4
[討論] VGG16和adam
precision: https://imgur.com/Xmd8fdA
[討論] VGG16和adam
-- https://i.imgur.com/h4Q0F04.jpg
[討論] VGG16和adam
9月23日 發生大事了 因為就在這天,加藤惠誕生了 https://i.imgur.com/H3RhXfJ.jpg
[討論] VGG16和adam
-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.77.97.142 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1682761290.A.175.html

28 則留言

※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 17:49:30

lycantrope, 1F
CrossEntropyLoss,output應該給digits不用取softmax
謝謝大大提供意見 試著照大大提供的資訊更改,雖然前幾個epoch裡loss有在下降,但是大概第4~5個epoch開始就一樣沒有再下降了 accuracy也是在50%左右變動 大大會這麼建議應該是因為pytorch的crossentropyloss會在內部做一次softmax的緣故吧 滿詭異的,剛剛試著用sgd但是取消softmax而直接用輸出來跑 一開始以為沒有變化,但後來發現準確率有微幅上升 30個epochs後accuracy從50%升到61%

st1009, 2F
我有用adam訓練resnet50並且成功,resnet內含有類似VGG的

st1009, 3F
架構,且參數遠大於VGG 有需要我可以分享相關程式
可以的話超感謝,請問也是用pytorch寫的嗎? resnet是用來解決梯度消失,正好可以拿來對照,也很好奇分類項目到底會不會影響梯度消失的程度 這幾天正在準備用整個food-101做分類訓練(101個分類)來比較結果 (準備aka把東西傳到google雲端,一個epoch跑20分鐘在自己電腦上有點吃不消,目前已經傳了第二天了)
※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 18:40:09

chang1248w, 4F
adam和大參數處不來純屬胡言亂語

chang1248w, 5F
你要傳資料建議zip之後上kaggle,然後用colab或者

chang1248w, 6F
kaggle notebook

chang1248w, 7F
分類項目比較會影響梯度的大概就imbalance label

chang1248w, 8F
導致各類梯度期望值不同

chang1248w, 9F
sgd欠調教所以上下限高,adam懶人但發起顛來挺可怕的

chang1248w, 10F
所以後來的論文都會上adam與sgd的比較

chang1248w, 11F
算是一種穩定而強的背書

chang1248w, 12F
adam有聽說的問題就LLM在batchsize大於128之後,收斂

chang1248w, 13F
速度沒啥差異,所以就有神仙提出了LAMB optimizer,

chang1248w, 14F
然後在他們新的資料中心用十秒從頭訓練了一遍

fragmentwing, 15F
感謝建議!!待會來試試看

fragmentwing, 16F
imbalance 的話雖然兩邊都是1000筆資料 可能是我bat

fragmentwing, 17F
ch太小造成的?

chang1248w, 18F
期望值一樣就沒問題

fragmentwing, 19F
既然是胡言亂語待會回來修個文加註免得誤導別人

chang1248w, 20F
stack flow下面有指正

chang1248w, 21F
看超過三年前的文章就要小心

fragmentwing, 22F
why doesn't the accuracy ……那篇沒錯吧 我倒是看

fragmentwing, 23F
到好幾個說改用sgd的建議但沒看到指正的評論 還是大

fragmentwing, 24F
大指的是要做weight initialization的事?
※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 21:26:43

st1009, 25F
其實我也很想說他胡言亂語,我家resnet101也是用adam這還

st1009, 26F
不夠大嗎,只是怕他說的大是ChatGPT之類的......

st1009, 27F
我的code不想公開,明天整理過,私信給你
謝謝大大,如果幾天後有找到真正的原因會再上來改文
※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 21:51:36
※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 22:32:50

iHaveAPen, 28F
你如果了解一下adam在幹嘛就知道處不來有多荒唐

fragmentwing 作者的近期文章

[問題] torch的backward是怎麼管理的?
考慮一個類似STN(Spatial Transform Network)搭配一個用上CNN層的Classfier的架構 只是STN這次是靠不同於Classifier,獨立的loss function去評價並產生loss餵給STN自己 這樣的
Re: [問題] 新手每次跑模型時都是CPU滿載
※ 引述《matrixx (matrix)》之銘言: : 各位前輩好 小弟是程式(機器學習)新手 : 我在用vs code 跑程式中的模型時都會非常卡 : 開了工作管理員才發現都是CPU滿載 : 想讓vs code用gpu幫忙跑模型 : 但
[問題] 圖片形變相關的模型?
如題 在想是不是有對同一地點航空照進行矯正的現成模型 比如說要研究地層下陷或地形變化 但又不能保證這次和上次拍的照片角度和光線一樣 所以在做比較前要先用之前的照片當基準做照片的修復 不知道有沒有這種模型 先謝謝各位先進了
更多 fragmentwing 作者的文章...