北森瓦版 - Northwood Blog (Author : 北森八雲. Since July 10, 2006.)
AMD Confirms Ryzen Marginality Performance Issue Under Linux, TR and EPYC Clear(techPowerUp!)
AMD confirms Linux "performance marginality problem" on Ryzen(The Tech Report)

AMDのRyzenにおいてLinux環境で非常に高い負荷を連続的に与え続けたときにセグメントエラーが―起こる問題が、AMDから説明した。PhoronixのTest Suiteなどにより負荷をかけるとRyzenで複数のセグメンテーションエラーが―起きる。この問題は非常に高い負荷をかけると容易に起こるが、一方で通常のLinuxデスクトップのワークロードやベンチマークでは生じない。
 
またAMDはこの問題について、EPYCやまもなく登場予定のRyzen Threadripperでは生じないと説明している。この問題は初期のRyzenにおいてLinux環境下でのみ生じるとしている。AMDはWindows環境で同様のテストを行ったものの、このような問題は生じなかったという。

俗に言うRyzen SEGV問題に関する話題で、AMD公式から説明があったようです。まず抑えておきたいのはEPYCやまもなく登場予定のRyzen Threadripperでは起きないこと、もう1点はWindows環境では再現されなかったことがあります。Linuxで非常に高い負荷をかけ続けたときに生じるようですが、通常の使用では問題ないとも説明しています(ちらっと小耳に挟んだ程度であるが、微妙に再現性がないのがこの問題の頭の痛いとこであるとかなんとか。記事中でも特定のマザーボードとの組み合わせや、温度やその他のもんだいではないようだとしている)。


パソコン工房のお得なキャンペーン



コメント
この記事へのコメント
157267 
Linuxだけで起こる原因は明らかにされてないのか
良いマザーが出たらLinux鯖に回そうと思ってわざわざ1700買ったのにー
2017/08/09(Wed) 00:55 | URL | LGA774 #-[ 編集]
157270 
「羽化をかけると」
( 'Θ' ) ピヨピヨ
2017/08/09(Wed) 03:50 | URL | LGA774 #LkZag.iM[ 編集]
157271 
>>羽化
Ryzenが飛び立ちそうです
2017/08/09(Wed) 04:12 | URL | LGA774 #-[ 編集]
157272 
サーバ用途で使いたいならEPYCやTRを使えということなのか?
2chの検証スレによるとメモリタイミングを適切にして、uOP cacheを無効にすると問題は出ないみたい。
2017/08/09(Wed) 06:54 | URL | LGA774 #-[ 編集]
157275 
EPYCやRyzen Threadripperでは起きないと言ってるから
原因自体は特定出来てるのかな。
2017/08/09(Wed) 09:25 | URL | LGA774 #-[ 編集]
157277 
負荷かけて性能ダウンするのは許容できるけどSIGSEGVはまずいでしょ。。。
2017/08/09(Wed) 12:19 | URL | _ #-[ 編集]
157278 
問題が出た人はRMAで対応ってことみたいですね。交換品で問題が解消された人の報告が出始めました。
2017/08/09(Wed) 12:31 | URL | LGA774 #qsvP4ThM[ 編集]
157280 
結局AMDはSEGV問題が何が原因かをまだ特定しきれてなく
EPYCやThreadripperで試したら結果オーライで大丈夫でしたって話だよね?
つまり、他のとこでたまたま諸条件が揃ってしまいSEGVが起こらないとは言い切れないってことでしょ
AIの学習とかで数週間回して9割9分終わったとこでSEGVがでたり、演算結果が化けてるかもなんて可能性を考えると怖くてHPCには使えないな
2017/08/09(Wed) 14:55 | URL | LGA774 #nLnvUwLc[ 編集]
157283 
羽化をかけるとRyzenで
となっているので、負荷をかける に訂正お願いいたします。
2017/08/09(Wed) 22:14 | URL | LGA774 #-[ 編集]
157284 
※157280
今のところ問題が起きてるのはカーネルコンパイルのような小さなプロセスを大量生成&大量破棄するようなケースのみ。
機械学習のような一つのプロセスを長期間利用するようなケースでは問題が起きてない。

それに機械学習するときは数epochごとにsnapshot作るから0まで戻ることはないよ。
2017/08/09(Wed) 23:37 | URL | LGA774 #-[ 編集]
157285 
スラドにスレが立ちましたね。

http://goo.gl/4DhmjL
AMD、RyzenのSEGV問題を認める
2017/08/10(Thu) 01:09 | URL | LGA774 #qsvP4ThM[ 編集]
157286 
RMAで直るってことは、エラーチェック不良からくる製造欠陥なのかな
2017/08/10(Thu) 01:38 | URL | LGA774 #-[ 編集]
157287 
>157280
Linux環境で非常に高い負荷を連続的に与え続けたとき
だけって書いてあるでしょ
しかも結果オーライなんて書いてないし
2017/08/10(Thu) 06:21 | URL | LGA774 #-[ 編集]
157293 
AMD Communityでは製造過程の検品体制が改善されたんだろうってことで、そのロットを絞り込もうとしてるみたい

2chのは、断言を鵜呑みにしてる人がちらほらいるけど、そういう壊れ方をしてるハズレ石もあったみたいね、以上の意味はないよ
当座を凌ぐworkaroundとして試すのはいいかもしれんけど、結局RMAする方が早いはず
2017/08/10(Thu) 10:57 | URL | LGA774 #-[ 編集]
157297 
エラーになるのと性能が低下するのでは意味が全く違うからタイトル変えたほうがいいと思いますよ
誤解を招きます
2017/08/10(Thu) 18:18 | URL |   #-[ 編集]
157305 
結局、デザイン(設計)の問題(エラッタ)ではなくて、プロセス(製造)の問題(欠陥)という話になるのかな。

まあ特定条件で超高負荷をかけた時に、ノイズ等で問題が出てしまった、と考えれば、辻褄は合いそうだが。
2017/08/11(Fri) 05:38 | URL | LGA774 #-[ 編集]
157309 
>>157284
>>157287

Linux以外でも問題は報告されてます

https://www.techpowerup.com/forums/threads/amd-confirms-ryzen-marginality-performance-issue-under-linux-tr-and-epyc-clear.235923/#post-3706322

そもそもどこにerattaがあってこんな現象が起きるのか原因についてAMDは特定しきれてないのか未だに発表していない状況下で
「それに機械学習するときは数epochごとにsnapshot作るから0まで戻ることはない」と問題はここだと確定したかのような安易な発言ができたり

Linuxでkernelのbuildを繰返すと再現できるってのは
「AMDが認めた部分」って話であり
Windowsで再現しないってのはAMDが試した限りではって話であり
AMDがerattaを特定した上で原理上起こりえないとは説明してない

「Linux環境で非常に高い負荷を連続的に与え続けたときだけ」
とLinux環境以外での問題も報告されてるのにそう思い込めるのか
理解に苦しみます
2017/08/11(Fri) 11:10 | URL | 157280 #nLnvUwLc[ 編集]
157311 
>と問題はここだと確定したかのような
それはあんたが今までの苦労が台無しになるかもと取れる発言に対して
そんな事は無いよと言ってるだけ、すり替えないでよね
この問題は初期のRyzenにおいてLinux環境下でのみ生じるとしている
と言ってるのでそう判断するのは妥当だが
企業の声明と一ネットユーザーの発言何方を信用するというのか理解不能ですね
2017/08/11(Fri) 13:33 | URL | LGA774 #-[ 編集]
157312 
結局
>EPYCやThreadripperで試したら結果オーライで大丈夫でしたって話だよね?
のソースには何一つなってない訳だが
思い込みだけ
2017/08/11(Fri) 13:41 | URL | LGA774 #-[ 編集]
157314 
windowsでも同じ処理なら同様の問題を引き起こすはずなんだけどな
2017/08/11(Fri) 14:58 | URL | LGA774 #-[ 編集]
157315 
不良ロットを絞り込めたら、返品交換で対応できるな。
Threadripperで同じ問題が起こるかどうか気になる。
AMDが試したといっても、社内と全世界のユーザじゃ母体数が比較にならんし。
2017/08/11(Fri) 15:22 | URL | LGA774 #-[ 編集]
157319 
Ryzenの選別では見つからなくて、EPYCやThreadripperの選別では見つかるってことかな
多分Linux関係の選別が甘いんだろうね
2017/08/11(Fri) 18:14 | URL | LGA774 #-[ 編集]
157324 
設計上の問題というより製造上の問題の可能性が高いんだろう
人によっては朗報だろうし人によっては悲報だな
製造ロットの範囲を特定して無償交換すればAMDの株は上がる
製造元もある程度は被ってくれるだろうからたぶん何とかなるだろう
せっかく十年ぶりの反撃の狼煙を上げたのだからここは是非がんばって貰いたい

2017/08/11(Fri) 21:29 | URL | LGA774 #-[ 編集]
157326 
>>157311
157284で「それに機械学習するときは数epochごとにsnapshot作るから0まで戻ることはないよ。」といい切ってるじゃん見苦しい

>>157312
じゃ、なんでAMDは過去のerattaは全部説明してるのに、今回は報告から数ヶ月たってるのに未だにはっきりと原因を説明しないんだい?
2017/08/11(Fri) 21:51 | URL | LGA774 #nLnvUwLc[ 編集]
157329 
>>157285
ここで紹介されてるryzen-testをRyzen R7 1700で
Win10上のWindows Subsystem for Linuxで動かしてみたけど、
たしかに不定の場所でgccのmakeに失敗する。完走することもある。
まぁこれはWindows上のプログラムがコケてるとは言えないけど。
cygwinで試したほうが有益だったな。
2017/08/12(Sat) 03:14 | URL | LGA774 #-[ 編集]
157336 
>といい切ってるじゃん
それは>157311の何の否定にもなってない みっともない
>説明しないんだい?
説明しない事が特定出来てない事の確証になってない やり直し
2017/08/12(Sat) 17:07 | URL | LGA774 #-[ 編集]
コメントを投稿する(投稿されたコメントは承認後表示されます)
トラックバック
この記事のトラックバックURL
https://northwood.blog.fc2.com/tb.php/9051-38a87c93
この記事にトラックバックする(FC2ブログユーザー)
この記事へのトラックバック