2ちゃんねる スマホ用 ■掲示板に戻る■ 全部 1- 最新50    

■ このスレッドは過去ログ倉庫に格納されています

CPUアーキテクチャについて語れ 34

1 :Socket774:2017/03/08(水) 19:14:58.32 ID:DUF68hd2.net
540 名前:,,・´∀`・,,)っ-○○○[sage] 投稿日:2016/10/12(水) 21:45:48.40 ID:ijYX/87D [5/21]
Zenが高くないと買えない自分を正当化できないもんな
大丈夫だよ、8コア最上位でも3万円切るから
お前みたいな無職大貧民には大金だけどな

545 名前:,,・´∀`・,,)っ-○○○[sage] 投稿日:2016/10/12(水) 22:03:09.78 ID:ijYX/87D [8/21]
最上位で3万円切るって宣言した俺の発言ログとっとけよ

148 名前:,,・´∀`・,,)っ-○○○[] 投稿日:2016/11/14(月) 20:21:39.52 ID:0Q4rwlJ0 [5/9]
まあ、本当にBroadwellの性能超えたら32コアOpteronデュアル機組んでAMDを応援してやるよ

351 名前:,,・´∀`・,,)っ-○○○[sage] 投稿日:2017/01/10(火) 21:24:59.71 ID:deU+9WJv [4/7]
リアル春にはAMD冬の時代になるから今のうちに春を楽しんで置きたまえ


【前スレ】
CPUアーキテクチャについて語れ 33
http://potato.2ch.net/test/read.cgi/jisaku/1480216577/

2 :Socket774:2017/03/08(水) 20:47:00.59 ID:fbHuQwcp.net
x86が64bit化したときに、AMDがレジスタ数を増やさなかったせいで
x86の64bitの出来がいまいち

せめていまの4倍くらいに増やしてればよかったのに

3 :Socket774:2017/03/08(水) 21:26:16.09 ID:ljHj7BVO.net
翻訳スレ毎日チェックしていたら情弱だって叩かれずに済んだのに
本当バカだなw

4 :Socket774:2017/03/08(水) 21:39:31.27 ID:fLub3YGR.net
>>2
レジスタ増えてるぞw

レジスタ増やしすぎたインテルの64bitは破滅寸前

5 :Socket774:2017/03/08(水) 23:14:45.79 ID:ryvBcLhS.net
894 ,,・´∀`・,,)っ-○○○ sage 2017/03/07(火) 21:36:22.64 ID:ZzeNQbyGa
ゴミには耳の痛い話ですまんな
自重する気はない





自重し過ぎの糞コテ息してんの?

6 :Socket774:2017/03/09(木) 11:15:11.87 ID:sGdO8FaS.net
MSのはFPGA絡みか

7 :Socket774:2017/03/09(木) 11:35:48.41 ID:t3bBqLb0.net
団子スレにするのは馬鹿らしいのでネタ拾ってきた
http://pc.watch.impress.co.jp/docs/news/yajiuma/1048509.html

8 :Socket774:2017/03/09(木) 13:28:58.03 ID:aPRnDftx.net
MicrosoftがARMで動くデータセンターサーバーを導入
〜Qualcommのサーバー向けプロセッサ「Centriq 2400」を採用
http://pc.watch.impress.co.jp/docs/news/1048601.html

9 :Socket774:2017/03/09(木) 18:01:21.96 ID:hwqAHcJK.net
むしろレジスタ増やさず、64bit拡大するだけにして、SSE2以降余計なSIMDも足さず、
ひたすら既存のレジスタ・命令のOoO系を強化すれば良かっただけなのではないか
ZENの健闘、AVX512の無駄なトランジスタの塊を見て改めてそう思った次第

10 :Socket774:2017/03/09(木) 20:01:11.18 ID:uV6cDenf.net
ヒューレットパッカードは、PA-RISC→Itanium→ときたが、
次はいっそIntelからAMDに乗り換えたほうがよかったりして

AMDの上位CPUに高信頼・RAS機能詰め込んでそれ使うとか

11 :Socket774:2017/03/09(木) 20:05:53.96 ID:rIgHrhLG.net
512bit以上は汎用コアにはいらんよな

12 :Socket774:2017/03/09(木) 20:18:18.41 ID:aPRnDftx.net
Softbank to Sell 25% of ARM to Saudi-Backed Fund
Mubadala, an Abu Dhabi group, keen on ARM
http://www.eetimes.com/document.asp?doc_id=1331448

オイルマネーのファンドは半導体に積極的
Globalfoundriesとも親しくなるかな

13 :Socket774:2017/03/09(木) 21:17:43.48 ID:TXjiplfD.net
SSE2はみんなが恩恵を与れてると思うけどAVXってどうなの?

Skylakeの変更点はAVX512への対応が大きなウェイトを占めてそうだけど

14 :Socket774:2017/03/10(金) 02:02:59.27 ID:NbtzvzB9.net
SSE2を4個同時実行できるOoOで4命令長と、AVX512を1命令長、
OoOを4個実現するためのデコーダ・スケジューラ・演算器、AVX512のそれ、
果たしてどちらが結果的に良かったのだろうと考える、しかし後戻りはできない
新命令で一瞬でも性能ブーストする事がビジネス上必要なのは良くわかるし
だからなおさらAVX512が滑稽

15 :Socket774:2017/03/10(金) 02:48:32.47 ID:rasrpQnb.net
SIMDが128bitで十分に見えるのはユーザーがSSEに長年慣らされて来たからで、
AVX2が当たり前になれば256bitが適切なSIMDと考えられるようになるし、
AVX512の利用でさらなる性能向上をと考えるようになるんじゃないか。

16 :Socket774:2017/03/10(金) 02:57:55.65 ID:tHBMtcaI.net
SKLはSSE2もAVX2も3命令実行できるようになっとるよ

17 :Socket774:2017/03/10(金) 04:21:04.98 ID:EDkMNJXx.net
http://news.mynavi.jp/articles/2017/03/02/ryzen/003.html
> これに関してはCTOのMike Papermaster氏に直接聞いたのだが2つの答えが
> 返ってきた。1つ目は「AVX512命令を実装するのはコストが高すぎる(Load/
> Storeユニットだけでなく、L2以降の帯域も全部増やさないと効果的な性能を
> 出すのが難しく、これはダイエリアだけでなく消費電力などへのペナルティが
> 大きい)」からとのことで、最初から実装するつもりがないということだ。そうで
> あれば、Load/Storeは256bit/cycle×2があれば十分である。
>
> ちなみにもう1つは「数値演算を主体にするなら、AVXを強化しなくてもGPUを
> 使えばOKだから」とのことだ。

相変わらず大原の事実誤認が激しいが、AMDはAVX-512は積極的に対応
するつもりは無さそうだね。
ネイティブ256bit化はもしかしたらやるかもしれないけど。

どうでもいいけどこのCTO、筆記試験が得意そう

18 :,,・´∀`・,,)っ-○○○:2017/03/10(金) 08:41:51.45 ID:yxaJNoSB.net
>>13
Skylake-Xeonはキャッシュ構成の変更(L2の256KB→1MB)も含め
AVX-512と同時にやらなければならない拡張を前提としたバランス調整をやってるね

Sandy BridgeでもAVX実行のためにLoadユニットを倍増して帯域を拡張したことは従来命令の性能向上に幾分か寄与してる
Haswellはシャッフルやシフトを実行できるユニットが2→1ユニットに減った影響で性能が下がるものもあったが
Skylakeでは再度拡張してる

19 :,,・´∀`・,,)っ-○○○:2017/03/10(金) 08:51:28.49 ID:yxaJNoSB.net
>>16
Zenは256ビットFMAを1命令使うだけで4ポート使い切るからそういうことを言ってるんだろう
もちろん滑稽なのはこいつ


2基のFMAを計4つのFADD/FMULとして使うことはできないから、要するにレガシーSSEではZenの構成のほうがいいってことだろう。
でも艦これ需要でWindowsタブレットが売れたのと同じだと思うね
近い未来に弱い。今後SSEの需要は減る一方(ソフトがAVXに移行するか、クラウドに移行してクライアントソフトがx86である必要自体がなくなる)だ

20 : 【東電 82.9 %】 :2017/03/10(金) 08:57:49.19 ID:zZr5JxpI.net
いっそインテルがSSEとかCPUから取り除いてしまえば(AVXのみ)

21 :Socket774:2017/03/10(金) 09:12:32.89 ID:Zyx7F3QF.net
>>18-19
Naplesインターフェース
http://fudzilla.com/images/stories/2017/March/NaplesvsXeon2699.jpg
同一コア数で揃えたら2倍の性能がある
http://fudzilla.com/images/stories/2017/March/NaplesvsXeon2699D1.jpg
コア数MAX同士の比較では2.5倍の性能がある
http://fudzilla.com/images/stories/2017/March/NaplesvsXeon2699D2.jpg
とてつもなく重い処理ではintelが完走出来ない物でも楽々
http://fudzilla.com/images/stories/2017/March/NaplesvsXeon2699D3.jpg
CPUの天才が開発したZEN相手にインテルが勝てる訳が無いだろw

22 :Socket774:2017/03/10(金) 10:19:45.93 ID:Cb3Sjr5Y.net
AVXのみならRyzenにもワンチャンあるで
整数は128bitのままだからさ

23 :Socket774:2017/03/10(金) 11:01:04.65 ID:DLQ7K0Zc.net
整数も256bit、512bit、あるはずだけど

24 :Socket774:2017/03/10(金) 12:14:26.49 ID:rasrpQnb.net
というか、NEONユニットと大きく違う構成にできなかったのではないかね
K12がどうなってるかわからんからなんともいえないけど

25 :Socket774:2017/03/10(金) 15:47:58.74 ID:ctt1ffSr.net
AVXやAVX512は現時点でクロック下げないと動かないような状態になってるんだから、

簡単に付けられるSIMDではなくなってるのは確かでしょ。

短いSIMDなら周辺の制御ロジックと比べたら相対的に大したことないからオマケで付けてもいいだろうけど、

長すぎるSIMDはそれなりにリソース取るから実装しない選択もトレードオフとして有効になってくるんでは。

個人的には3GHz のスカラと512bit SIMDを同期して動かすのはやりすぎだと思うけどね。
もっとクロック下げて命令レイテンシも長めにとった長めのベクタユニットをスカラとは非同期でゆるゆる動かしたほうがよさそう。

26 :25:2017/03/10(金) 15:49:20.22 ID:ctt1ffSr.net
ごめん改行変になった…

27 :Socket774:2017/03/10(金) 17:54:49.69 ID:V6LGN7n9.net
クロックダウン動作はAVX2が効率悪い証拠
行き過ぎたSIMDなんて受け入れないよ

28 :Socket774:2017/03/10(金) 18:14:19.21 ID:EDkMNJXx.net
http://users.atw.hu/instlatx64/AuthenticAMD0800F11_K17_Zen_InstLatX64.txt
RyzenのFMA3のスループットが何故か高い
1610 FMA3 :VFMADD132SS xmm,xmm,xmm L: 1.39ns= 5.0c T: 0.07ns= 0.25c

29 :Socket774:2017/03/10(金) 18:38:55.26 ID:ctt1ffSr.net
これはさすがに計測ミスでしょ。
mulps より fmaps のほうが性能でるとかありえない。

30 :,,・´∀`・,,)っ-○○○:2017/03/10(金) 19:42:49.85 ID:VvkXCxM7.net
>>25
クロック1〜2割落とすだけで倍々なら十分ペイできるじゃん。逆にOoOによるコントロールフローのコストがそこまで大きい。
逆に消費電力あたりのコア数は3〜4割落とさないと倍増できないぞ
極端な話、クロック落ちるの嫌ならAVX-512の128ビットモードでプレディケーションや32レジスタを使うだけでもいいんよ?

64Bつまりキャッシュラインまるまる1エントリ分が1レジスタに収まるので実は512ビットが一番キリのいい幅だったり

31 :Socket774:2017/03/10(金) 19:58:48.78 ID:CreckWVQ.net
ARMとx86のコードが走る中国製の高性能MIPS64 CPU「龍芯3号」
http://pc.watch.impress.co.jp/docs/news/719645.html

MIPSなのにx86とARMアプリを高速に実行できる中国製CPU「龍芯」のカラクリ
http://pc.watch.impress.co.jp/docs/topic/feature/1048911.html

中国製CPU「龍芯3号 3A3000」を搭載したノートPC、間もなく登場か
http://pc.watch.impress.co.jp/docs/news/1048409.html

32 :Socket774:2017/03/10(金) 20:16:44.28 ID:ctt1ffSr.net
>>30
AVX512の対応コードはほとんどないのと比べると、スレッド対応したプログラムはそこそこあるし、
現実的にはAVX512のほうが効率いいとは言えないでしょ。
なんもしてなくても、レジスタファイルやバスは512bit分のトランジスタ割いてるわけだし。

そこにはトレードオフがあるはずだけど、
ベクタ長は長くなるほど使いづらくなるのとあわせてAVX512はあんまいいトレードオフとは思わないんだよね。

33 :,,・´∀`・,,)っ-○○○:2017/03/10(金) 20:33:45.37 ID:VvkXCxM7.net
>>32
TensorFlowはすでに512ビットで動いてるがAMDのGPUなんて温風吹き出す以外何の役にも立たないぞ

34 :,,・´∀`・,,)っ-○○○:2017/03/10(金) 20:38:48.64 ID:VvkXCxM7.net
モダンなx86は論理レジスタの数倍の物理レジスタがあってリネームで割り当てられてんのよ
論理レジスタが増えたことでLSUの利用頻度が減るならそれは省電力化に寄与するね。

35 :Socket774:2017/03/10(金) 20:41:04.26 ID:si753WFJ.net
インテルのiGPUの開発者1000人解雇したの知らなかったの?

36 :,,・´∀`・,,)っ-○○○:2017/03/10(金) 20:42:33.55 ID:VvkXCxM7.net
下位しか使われないときは上位レーンの電力供給を止めるんだし、256ビットないし512ビット備わってることでの電力効率のデメリットなんて基本ないでしょ
ついでにコアを増やせばそのぶんだけx86最大の熱源であるデコーダが増えるともいえる

37 :Socket774:2017/03/10(金) 20:43:47.37 ID:si753WFJ.net
早ければ年末にもiGPUにAMDが搭載される訳だが?

38 :Socket774:2017/03/10(金) 20:44:54.76 ID:wrtd3JO1.net
AMDはGPUの標準を取りに来てるんだろうね。

39 :,,・´∀`・,,)っ-○○○:2017/03/10(金) 20:48:10.47 ID:VvkXCxM7.net
VR界隈にもスパコンにも全く相手にされない標準ね

GameWorksがPS4に対応したことでFF14,15も多機種展開できるようになりPCでのRadeonを迂回したマルチ展開が行われてるの見るとソフト開発力の差を実感するね!

40 :Socket774:2017/03/10(金) 20:48:52.73 ID:BXBGa4Ry.net
>>36
なにいっても説得力ねーなおい

41 :Socket774:2017/03/10(金) 20:51:07.71 ID:V6LGN7n9.net
糞団子食えーホルァ!!( ゚Д゚)-●●●)Д`ミ))

42 :,,・´∀`・,,)っ-○○○:2017/03/10(金) 20:52:42.40 ID:VvkXCxM7.net
「必要な時に必要な分だけSIMDユニットを使う」というアプローチはVEGAでも採用されるはずだったが?
ブーメラン自分の頭に突き刺すのやめなよ

43 :Socket774:2017/03/10(金) 20:58:44.98 ID:Cb3Sjr5Y.net
>>30
倍々なら誰も文句は言わないわな
文字列が〜とかのGoogleデータセンターあたりでは倍々かもしれんが

44 :,,・´∀`・,,)っ-○○○:2017/03/10(金) 21:01:02.63 ID:VvkXCxM7.net
逆に考えればいい。AVXを使ってないときの電力の余力をクロックに費やせる、と。
逆にAMDはSIMDユニット積んだぶんだけ使ってないときも消費電力増えちゃうど素人だから見送ったんだろ

45 :,,・´∀`・,,)っ-○○○:2017/03/10(金) 21:01:55.61 ID:VvkXCxM7.net
ま、VEGAのアプローチが成功すればx86にも多少フィードバックされるかもしれないけどね

46 :Socket774:2017/03/10(金) 21:10:08.07 ID:ctt1ffSr.net
TensorFlowなんてサイクル単位のレイテンシいらないくてP100で十分な場合も多いでしょ。電力効率はそっちのほうがいい。
(て書くと団子さんならレイテンシが重要な一つの例を挙げてそれがさも全部のように拡大して解説してくれるにちがいない)

47 :Socket774:2017/03/10(金) 21:12:08.09 ID:rasrpQnb.net
PCでのGPU標準って、Intel、AMDがiGPUで採用したら
次は分家のAdrenoから殴り込み食らいそうな気がする

48 :,,・´∀`・,,)っ-○○○:2017/03/10(金) 21:19:15.22 ID:VvkXCxM7.net
もちろんいらないよ?
なんでRadeon対応は遅々として進まないんだ

49 :,,・´∀`・,,)っ-○○○:2017/03/10(金) 21:39:34.25 ID:VvkXCxM7.net
QualcommはGPU興味ねーだろ
Xilinxと組んだしヘテロはFPGAでやる
mbedを手がけるNXPも買収したことでIoTのプランも明確になった


AMD、IoTやってないよね?
AMDuinoでも出したらよくね?

50 :Socket774:2017/03/10(金) 21:50:51.26 ID:b2/EAEEq.net
スマホのエンタメがSnapdragon 835で加速、進化するDDFA。クアルコムの狙いを聞いた
http://av.watch.impress.co.jp/docs/topic/1048297.html

ワイのつこてる一眼カメラより動画記録性能高いわ
ワイのつこてる据え置き型DACより高音質規格対応しとるわ
ワイのつこてるPCモニタより表示ビット数高いわで
もうホント涙目ですよ!!

51 :,,・´∀`・,,)っ-○○○:2017/03/10(金) 22:07:59.00 ID:L/aTO2Ow.net
iPhone7にもなぜかFPGAが積まれてたりする
IoTにもFPGAに消極的な会社、AMD

52 :Socket774:2017/03/10(金) 23:27:47.73 ID:BXBGa4Ry.net
恥ずかしい発言コピペくるぞー

53 :Socket774:2017/03/10(金) 23:47:28.89 ID:GIAXvfR/.net
もし MMX Pentium (200MHz) が、4GHz で動いたらどのくらいの性能が見込めますか?

54 :Socket774:2017/03/10(金) 23:56:45.17 ID:bf3XxmZ7.net
AVX512は現状サーバー限定で一般向けは無効化されてる時点でお察しだろ
AVX2も、最大の利用先のH264のエンコでは無効化したRyzenの方が高性能という体たらく

そもそもAVX2すらロクに対応ソフトがないのに難易度が更に高いAVX512とか一体何処で採用されるのかね

55 :Socket774:2017/03/11(土) 00:00:04.40 ID:AyBFemdX.net
>>53
20倍くらい

56 :Socket774:2017/03/11(土) 00:39:05.94 ID:CqrgR0me.net
>>49
おいバカw
AMDがIOTやってないとしても
CPUでもGPUでもライセンス契約交わして積めるだろうw
intelにiGPU部門の開発者はもういないよ
なのでライバルのイマジネーションかAMDからかライセンス契約交わすしか出せないw
もうintelはAMDとライセンス契約したの知らんのかw
良かったじゃないかw
AMDのGPUは強いぞ、バルカンだかDX12だかこの先も最新の物を真っ先に取り入れてるしw
AMDにGPUの天才がいる限り他のGPU積むより良くなるに決まってんだろうw

57 :Socket774:2017/03/11(土) 00:47:57.59 ID:AyBFemdX.net
いやIoTに求められる条件を考えてみれば
ライセンス要求するにしてもAMDは魅力ないだろう。
それより一つ上のセグメント(高機能自販機とか?)なら
採用するケースもありそうだけど。

58 :Socket774:2017/03/11(土) 01:02:33.96 ID:CqrgR0me.net
>>57
翻訳スレの5に書いたけど
ARMのGPU積んだ会社は特許侵害でAMDに訴えられてる

問題の特許は統一シェーダ( '133)、並列パイプライングラフィックスシステム(' 506)、統一シェーダを使用するグラフィックス処理アーキテクチャ( '454)など現代グラフィックス処理の基本的な側面をカバーしています。
さらにこの訴訟では、GPUアーキテクチャを対象とした進行中の特許出願に統一シェイダー( '967)が記載されており
とまぁ、続きは翻訳スレ読め

翻訳スレ読んでない奴は情弱でバカにされるから
GPUの天才がATI時代にも数々の特許申請しとったんだな

59 :Socket774:2017/03/11(土) 01:15:58.22 ID:AyBFemdX.net
>>58
勝てるといいね

60 :Socket774:2017/03/11(土) 01:16:44.91 ID:eL/jfuLb.net
VulkanもDX12も対象ハードはDX11と大差ないんだけど
APIの仕組みが並列化しやすくなっただけ
低レベルといっても特定のアーキに依存する訳でもなければ、特定ハードのネイティブ命令を記述する訳でもない

DirectX 12のゲームがマルチコアに強いというのも大きな誤解の1つ。
API経由でGPUにデータと命令を流すのに全コアに数十パーセントもの負荷が掛かる訳ないのであまり関係ない

DX12に対応するような最新のゲームは、グラフィックAPIとは全く関係ないエンジン自体の機能が効率よくマルチスレッドに対応している場合がある、が正解なんだよな。

61 :Socket774:2017/03/11(土) 05:40:27.30 ID:eL/jfuLb.net
ちゅうかDX12における多コアを使ったフレームレート向上率なんて、x265におけるAVX2の方がマシと思えるくらい

ただゲームだと4コアでも大半のコアが遊んで事の方が多いからグラAPI絡みの処理を全コアに振れるのはボーナスのような物だけどね

でもDX12で多コアが大幅に有利になると期待してる人が居たらそんな幻想は捨てた方がいい
エンジンの基本機能のマルチスレッド対応が強化されるかどうかが問題

62 :,,・´∀`・,,)っ-○○○:2017/03/11(土) 06:58:56.51 ID:DtM+EoB3.net
>>57
WiMAX初期の例のJR案件は無駄にCore i5とか積んだけどあれも内蔵GPUですんでるし、Jouleなら4Kパネルでも十分だろ

たとえば人の動き認識ならRealSenseだけでIntelプラットフォーム使う価値あるがAMDにそんな技術はない

ま、責任者一人だけで開発してるわけじゃあるまいし、10万人の組織なら技術者くらい育てるよ
なんせAMD(ATI)から逃げてきたGPUエンジニアなら潤沢にいたはずだが

63 :,,・´∀`・,,)っ-○○○:2017/03/11(土) 07:10:57.25 ID:DtM+EoB3.net
>>61
あとあれ、DX12MathはAVX2が使えればAVX2を使うがスレッドは自動で起こしてはくれないはずだな
つかCreateThreadのオーバーヘッドだけで回転行列数万こなせるレベル
OpenMP4.0でマルチスレッドもSIMDもいけるけどゲームみたいなリアルタイム性の必要な処理はスレッドプール使うから相性悪すぎる

64 :Socket774:2017/03/11(土) 07:24:32.37 ID:xQmAFyZ4.net
>>62
育てるってどうやって?
いくら研究開発費を投じた所で常に時代遅れのiGPUしか作れなかったじゃん
天才育成カリキュラムでもやんの?
インテルに入った元AMDって誰だろ?
CPUもGPUもそれぞれ1人の天才が関わるだけで性能が大幅に変わるそんな世界だぞw
GPU開発者1000人解雇したってのも凄いけど

65 :,,・´∀`・,,)っ-○○○:2017/03/11(土) 07:38:33.80 ID:DtM+EoB3.net
つーかモバイル界隈だとPowerVRとかMaliのほうが圧倒的に強いからミリワットオーダーの電力制御に最適化してないGPUはお呼びでない
IntelがAndroid端末での実用に耐えたのは性能よりそっち方面な

66 :Socket774:2017/03/11(土) 07:49:57.18 ID:Yq3Winfl.net
>>63
マルチスレッドとSIMDは違うでしょ。
スレッドプールでも内部にループがあるなら、omp simdを使えばSIMDの効果は得られる。

67 :,,・´∀`・,,)っ-○○○:2017/03/11(土) 08:18:57.14 ID:DtM+EoB3.net
>>66
4.0でSIMD対応したよ
ほぼIntelがXeon Phiのためにねじ込んだようなもんだがコンパイラが対応してやればNEONでもAltiVecでも使える

相変わらずスレッドプールとは相性悪いよ

68 :Socket774:2017/03/11(土) 09:00:44.06 ID:eL/jfuLb.net
PowerVRはARMなんかと比べて既存コアのカスタムに関しての規定が緩いのか、Appleなんかはレジスタを16bit化してモバイルに最適化してるね

普通はモバイルGPUでも32bitレジスタでpacked 16-bit x 2のデータにSIMD演算をする形で半精度をサポートするけど、アップルの場合はネイティブが16bitで、精度が必要な箇所だけ単精度を使えって事になってる

元のPowerVRと違って16と32の型変換のコストがフリーなのでシェーダーコード内で変換コストを気にしないでガンガン混ぜられる。恐らく現状でモバイルでは最も高効率なんじゃないかな

69 :Socket774:2017/03/11(土) 10:30:47.35 ID:YQn82waV.net
AVX512なんて特化型命令使わせる程の研究用途ならphiクラスの局所的ターゲットなCPUを
Intelは提供してやればいい話

AMDはどちらかというと汎用性重視で無駄がないが
Intelは一部のハードウェアだけがんばってるのにその他の無駄な装備で全部高額にする
先が見えてる

70 :Socket774:2017/03/11(土) 12:21:15.91 ID:fqB5j7Wg.net
AVX512使ったらクロックダウンする、という現象をソフトウェア側も認識して使うの?
この型番はいくつクロックダウンする、この型番はいくつ、この型番はしない、とか

71 :Socket774:2017/03/11(土) 12:23:13.54 ID:LQ1Jq5po.net
>>54
x264てAVX2対応してんの?
PC watchのtmpgencの結果だと1800X、5960XどっちもAVX2有無で結果変わってないけど。

72 :Socket774:2017/03/11(土) 12:25:17.86 ID:fqB5j7Wg.net
そうじゃないと例えばLLVMがランタイムで自動ベクタライズしようとしても
どのSIMD命令使ったら最速になるかもう判断つかんくなっちゃうと思うんだけど

73 :Socket774:2017/03/11(土) 13:09:26.66 ID:6DMVnboG.net
>>70
AVX512を使う処理はそれ専用みたいなものだから
クロックダウンは気にせう使う、じゃないかな。

74 :Socket774:2017/03/11(土) 13:15:24.79 ID:8j21zmIQ.net
>>71
頑張って対応しているけど、既存のコードとあんまり差がでない
http://potato.2ch.net/test/read.cgi/jisaku/1460032466/134-135

75 :Socket774:2017/03/11(土) 13:18:50.61 ID:bgZCh1ff.net
>>71 見たとおりでしょ。オプションあるんだから対応してるけど、結果が伴わないって
ことは使用してる率や効果が軽微ってことでしょ。
結局、お題とそれに取り組むプログラマの腕次第では?

y-cruncher何かは絶大な効果出てるね。AVX無印のE5-2687W 8C Dualでも、AVX2の
i7-7700KのOCに負けちゃう。(AVX→AVX2以外の改善も含んでのことだと思うけど)
http://potato.2ch.net/test/read.cgi/jisaku/1435886327/
※このスレで色々試した人の結果見ると、メモリ2chのメインストリームはAVX512対応
 してもy-cruncherではメモリ帯域ネックになりそうな感じ。

76 :Socket774:2017/03/11(土) 13:25:54.20 ID:pCbYtL9I.net
y-cruncherがすごいのはOC限界見極め用途でPrime以上にハードル高いところ

77 :Socket774:2017/03/11(土) 13:28:25.20 ID:8j21zmIQ.net
>>75
y-cruncherはメモリ速度差明確に出るもんな
x264/x265はメモリ帯域半分に絞っても数%しか差が出ないのに

78 :Socket774:2017/03/11(土) 13:38:25.85 ID:fqB5j7Wg.net
いっそ処理開始前に全SIMD幅で自己簡易ベンチ入れるくらいじゃないといかんのでは
開発めんどくさくてもユーザーのめんどくささを取り払わないと

79 :Socket774:2017/03/11(土) 13:41:01.33 ID:fqB5j7Wg.net
それでも時間と共に温度上がって自動クロックダウンが通常仕様とかなろうものなら、
その度に簡易ベンチやり直してSIMD選択し直しとか入れなきゃとかキリが無いな

80 :MACオタ:2017/03/11(土) 14:05:49.21 ID:8JcX5wtx.net
>>76
>y-cruncherがすごいのはOC限界見極め用途でPrime以上にハードル高いところ

確かに y-cruncher を2日ほど回してもエラーを出さない計算機は数ヶ月続ける様な計算を問題なくこなすす。
それに、y-cruncher を動作検証用に使う様になってから、ECC エラーというものがそれなりの確率で実際に発生するということを知ったす。

81 :Socket774:2017/03/11(土) 14:32:49.88 ID:mpzKo+hk.net
ECCエラーっていっても、
宇宙線・放射線でビット反転することによるエラーと、
伝送・ノイズ・電源等の問題でビット反転することによるエラーの
両方あって、一般PCで問題になるのはおもに後者じゃね?

サーバとかじゃ前者が問題になるが

82 :Socket774:2017/03/11(土) 15:51:12.74 ID:bgZCh1ff.net
>>77 その点では、y-cruncherスレの今後の戦いは-EとXeonだね。最近のバージョンで
効率上がった(NUMAは特に)から、4秒切る人(Haswell-Eの強OCとか多コアXeon E5シ
ングルで)が出るんじゃないかと思ったけど、まだみたい。Skylake-Xなら行けそうな感じ。

83 :Socket774:2017/03/11(土) 15:53:21.37 ID:bgZCh1ff.net
>>82 Skylake-XはAVX2でも行けそうってこと。AVX512が封印されなけりゃOCなしで
楽に行けるのかな。

84 :Socket774:2017/03/11(土) 16:55:59.91 ID:ShSqRFhe.net
ryzenの圧倒的なパフォーマンス

https://www.servethehome.com/amd-ryzen-7-1800x-linux-benchmarks-paying-for-speed/

85 :Socket774:2017/03/11(土) 17:09:24.25 ID:bgZCh1ff.net
Xeon D-1587のワッパが光ってるな。

86 :Socket774:2017/03/11(土) 17:26:21.16 ID:ShSqRFhe.net
1ソケットあたり8チャネルのメモリコントローラが、
問題なく動くのならば、intelの xeonは、死亡する。
現在、サーバの最大の問題はメモリーネックだから。
さらに今後のことを考えるとHBM2を搭載するだろうから
intel終わってる状態になる。
半年前を考えると信じられん。

87 :Socket774:2017/03/11(土) 17:41:48.54 ID:2ttzjhgM.net
>>34
まあ増やしたところで消費電力が減らないからな

88 :Socket774:2017/03/11(土) 19:04:35.23 ID:AyBFemdX.net
>>86
鯖用ならもう一つの熱源として10GbEがある
XeonDとかはベンチの時は動かさずに電力止めてるんだろうけど
AMDは付いてるのかね?

89 :Socket774:2017/03/11(土) 20:46:43.10 ID:C5QnibSv.net
LGA1150 DDR3 1600 2ch はメモリ帯域不足気味。
4core AVX512 を想定したらDDR4 3200 2ch でも不足気味

LINPACKベンチ/理論値
  Xeon E5-2670(0.31Byte/Flop)    93.4%
  Xeon E3-1270v3(0.11Byte/Flops) 77.9%
ttp://www.hpc.co.jp/benchmark20130617.html

90 :Socket774:2017/03/11(土) 21:28:17.49 ID:mpzKo+hk.net
>>86
メモリ量がネック
メモリ帯域がネック

どっちも数としてはそれほど多くないでしょ?

多くの処理は、たとえば2ch DDR4から4ch DDR4に変えても数パーセントしか向上しない

91 :,,・´∀`・,,)っ-○○○:2017/03/11(土) 21:49:39.78 ID:wliLOzfh.net
>>89
AVX-512を実行可能なE3はまだないぞ
実行効率が下がる原因がメモリ帯域だけとは限らない

ちなみにPurley世代を前提にするなら、論理レジスタの本数が2倍、幅2倍なら、オンレジスタで扱える部分行列は4倍のサイズになる。
さらにL2も従来のSkylakeの4倍の1024KB

92 :Socket774:2017/03/11(土) 22:05:19.33 ID:GP4QE1qzD
>>88
Seattleに10GbE物理層を二つ載せていた(多分Broadcommのライセンス)から、ダイ自体にはあるかもしれない。
それを使えるかどうかは、ソケットによるだろうとしか。SP3のソケットピンのマップとかあるのかな?

まあダイの機能とか見てみると、チップセット無しで動くのは確実
(X300とかのあれはRAID処理チップをどっかから買ってきてリネームしている気がする)なので、
XeonD的なこともそれ向けにソケットかBGA配置さえ決めていたらできるんじゃない?鳥系のコードネームはそっち向けじゃないかな。
GbEはCPUに内蔵していないけど、10GbEはともかくGbEなんぞ外付けなんて今時たいしたコストではないし。
マザボメーカーが問題の切り分けめんどくさいとか言って、サウスのGbEを使わずに蟹チップ載せる昨今だとね。

93 :Socket774:2017/03/11(土) 22:04:33.05 ID:JwFUWozA.net
CRAYのベクトルスパコンは最後まで2ADD+2MULだった
ワイドSIMDで性能出すのって難しいんでしょ

94 :,,・´∀`・,,)っ-○○○:2017/03/11(土) 22:07:43.06 ID:wliLOzfh.net
NxNの平方行列の行列積の演算回数はNの3乗、つまりオンレジスタ、オンキャッシュで表現可能な部分行列が大きくなるほど積和算あたりの外部メモリ帯域は必要なくなる


Flopsあたりのメモリ帯域ならCannonlake-4コアですらTesla Pよりマシなレベルだが、GPUがLINPACKでなんとかなってるのはひとえに巨大なレジスタの効果だと思ってる

95 :,,・´∀`・,,)っ-○○○:2017/03/11(土) 22:20:10.05 ID:7pu+21C8.net
>>93
NECのSXは倍精度8並列でプレディケートつきだ
つまり512ビットSIMDまではHPLでの実効性能90%越えが達成できることが証明されてると言える

ちなみに言えばZenのFPUはメモリの帯域が仮に無限大と仮定してもGEMMの実効性能8割切る構造だ。2つの128ビットFMAと、StoreやPermuteが並列処理できないからね。

96 :Socket774:2017/03/12(日) 03:24:45.39 ID:f38LgQd0.net
>>95
嘘だらけのほら吹き野郎しねよ
お前のことださ早く死ね

97 :,,・´∀`・,,)っ-○○○:2017/03/12(日) 08:59:39.33 ID:bxUaSepS.net
FPクラスタの実行ユニットが4ポートしかないのにFMA2つだけで4ポート使い切る(論破

98 :Socket774:2017/03/12(日) 09:15:20.96 ID:NlZ4JuGu.net
>>97
既にBroadwell-EPの最上位相手にNaplesでは同一コア数で2倍の性能差
MAXコア数で2.5倍の性能差があるのに何寝言ほざいてんだ?
Naplesに勝ちたかったら次で3倍の性能上げてこい

99 :Socket774:2017/03/12(日) 09:18:24.61 ID:dGRrDff1.net
Haplesの破壊力半端ないんだが。
しかも恐らくAMDのことだから、価格も安いぞ?

100 :,,・´∀`・,,)っ-○○○:2017/03/12(日) 09:33:15.03 ID:gmXIaQrF.net
マザーボードを作るのはAMDではないからな
コスト相応の値付けをしないと商売が成立しない

総レス数 1018
281 KB
新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★