※ 本文轉寄自 ptt.cc, 文章原始頁面

標題

[討論] VGG16和adam

時間2023-04-29 17:41:21

最新2023-05-06 16:56:00

留言28則留言，5人參與討論

推噓5 ( 5推0噓23→ )

ctrl + y 可以刪除一整行，請將不需要的內容刪除文章分類提示: - 問題: 當你想要問問題時，請使用這個類別。 - 討論: 當你自己已經有答案，但是也想聽聽版友意見時。 - 情報: 當你看到消息時，請使用這個類別。根據板規規定，做適當的轉換，以及摘錄重要文意。 - 心得: 當你自己想要分享經驗時，請使用這個類別。 [關鍵字]:VGG [重點摘要]: 這是之前版上那篇驗證accuarcy完全沒變的回文，但是因為問題已經解決而且有新疑問所以發新文章並改用討論作為分類主要想討論的問題是，VGG真的和ADAM處不好?我是在網上看到有人講這件事改用SGD後loss才有在明顯變動他的說法是ADAM遇到VGG等參數大的模型就會失常，他還說是常識但我是第一次看到QAQ (板友chang1248w指這是錯誤資訊) 一方面我自己改成SGD後總算是能開始訓練，另一方面卻也看到有人用使用ADAM的VGG去做cifar10 我也有在猜這次的分類任務是二分法這點會不會也有影響而這次訓練的資訊如下: pastebin:https://pastebin.com/H3MeGvht 模型:VGG16 目的:參照https://youtu.be/2xMLlm_VDJE，訓練出能區分究竟是不是pizza的神經網路

資料:food-101，其中pizza的部分請參考該影片以剃除被錯誤分進pizza資料集的圖片這次我使用的是1000張pizza(刪除後不足的用自己寫的爬蟲抓圖片進來補) 而作為對照組的非pizza資料則從food-101的其他食物圖片中各選10張，總計1000張結果:收斂過程對於valid資料集滿不穩定的，最終大概收在accuracy 81~82% 設定的收斂條件為當valid_loss不再下降5次時學習率*0.2，不再下降超過10次停止 loss: https://imgur.com/yBcU0G3

accuracy: https://imgur.com/e6w1xM4

precision: https://imgur.com/Xmd8fdA

-- https://i.imgur.com/h4Q0F04.jpg

9月23日發生大事了因為就在這天，加藤惠誕生了 https://i.imgur.com/H3RhXfJ.jpg

-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.77.97.142 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1682761290.A.175.html

28 則留言

※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 17:49:30

→

lycantrope04/29 17:57, 1F

CrossEntropyLoss,output應該給digits不用取softmax

謝謝大大提供意見
試著照大大提供的資訊更改，雖然前幾個epoch裡loss有在下降，但是大概第4~5個epoch開始就一樣沒有再下降了
accuracy也是在50%左右變動

大大會這麼建議應該是因為pytorch的crossentropyloss會在內部做一次softmax的緣故吧

滿詭異的，剛剛試著用sgd但是取消softmax而直接用輸出來跑
一開始以為沒有變化，但後來發現準確率有微幅上升
30個epochs後accuracy從50%升到61%

推

st100904/29 18:15, 2F

我有用adam訓練resnet50並且成功，resnet內含有類似VGG的

推

st100904/29 18:16, 3F

架構，且參數遠大於VGG 有需要我可以分享相關程式

可以的話超感謝，請問也是用pytorch寫的嗎?

resnet是用來解決梯度消失，正好可以拿來對照，也很好奇分類項目到底會不會影響梯度消失的程度
這幾天正在準備用整個food-101做分類訓練(101個分類)來比較結果
(準備aka把東西傳到google雲端，一個epoch跑20分鐘在自己電腦上有點吃不消，目前已經傳了第二天了)

※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 18:40:09

→

chang1248w04/29 18:59, 4F

adam和大參數處不來純屬胡言亂語

→

chang1248w04/29 19:03, 5F

你要傳資料建議zip之後上kaggle，然後用colab或者

→

chang1248w04/29 19:03, 6F

kaggle notebook

→

chang1248w04/29 19:06, 7F

分類項目比較會影響梯度的大概就imbalance label

→

chang1248w04/29 19:07, 8F

導致各類梯度期望值不同

→

chang1248w04/29 19:12, 9F

sgd欠調教所以上下限高，adam懶人但發起顛來挺可怕的

→

chang1248w04/29 19:12, 10F

所以後來的論文都會上adam與sgd的比較

→

chang1248w04/29 19:12, 11F

算是一種穩定而強的背書

→

chang1248w04/29 19:17, 12F

adam有聽說的問題就LLM在batchsize大於128之後，收斂

→

chang1248w04/29 19:17, 13F

速度沒啥差異，所以就有神仙提出了LAMB optimizer，

→

chang1248w04/29 19:17, 14F

然後在他們新的資料中心用十秒從頭訓練了一遍

→

fragmentwing04/29 19:19, 15F

感謝建議!!待會來試試看

→

fragmentwing04/29 19:19, 16F

imbalance 的話雖然兩邊都是1000筆資料可能是我bat

→

fragmentwing04/29 19:19, 17F

ch太小造成的?

→

chang1248w04/29 19:24, 18F

期望值一樣就沒問題

→

fragmentwing04/29 19:24, 19F

既然是胡言亂語待會回來修個文加註免得誤導別人

→

chang1248w04/29 19:29, 20F

stack flow下面有指正

→

chang1248w04/29 19:29, 21F

看超過三年前的文章就要小心

→

fragmentwing04/29 20:22, 22F

why doesn't the accuracy ……那篇沒錯吧我倒是看

→

fragmentwing04/29 20:22, 23F

到好幾個說改用sgd的建議但沒看到指正的評論還是大

→

fragmentwing04/29 20:22, 24F

大指的是要做weight initialization的事?

※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 21:26:43

推

st100904/29 21:30, 25F

其實我也很想說他胡言亂語，我家resnet101也是用adam這還

推

st100904/29 21:30, 26F

不夠大嗎，只是怕他說的大是ChatGPT之類的......

→

st100904/29 21:31, 27F

我的code不想公開，明天整理過，私信給你

謝謝大大，如果幾天後有找到真正的原因會再上來改文

※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 21:51:36

※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 22:32:50

推

iHaveAPen05/06 16:56, 28F

你如果了解一下adam在幹嘛就知道處不來有多荒唐

fragmentwing 作者的近期文章

3DataScience

[問題] torch的backward是怎麼管理的？

考慮一個類似STN（Spatial Transform Network）搭配一個用上CNN層的Classfier的架構只是STN這次是靠不同於Classifier，獨立的loss function去評價並產生loss餵給STN自己這樣的

3DataScience

Re: [問題] 新手每次跑模型時都是CPU滿載

※ 引述《matrixx (matrix)》之銘言： : 各位前輩好小弟是程式（機器學習）新手 : 我在用vs code 跑程式中的模型時都會非常卡 : 開了工作管理員才發現都是CPU滿載 : 想讓vs code用gpu幫忙跑模型 : 但

3DataScience

[問題] 圖片形變相關的模型?

如題在想是不是有對同一地點航空照進行矯正的現成模型比如說要研究地層下陷或地形變化但又不能保證這次和上次拍的照片角度和光線一樣所以在做比較前要先用之前的照片當基準做照片的修復不知道有沒有這種模型先謝謝各位先進了

更多 fragmentwing 作者的文章...