2ちゃんねる スマホ用 ■掲示板に戻る■ 全部 1- 最新50    

■ このスレッドは過去ログ倉庫に格納されています

【国産AI】400億パラメータで日本語特化 情報通信研究機構、独自の生成AIを試作 [oops★]

1 :oops ★:2023/07/05(水) 01:15:54.45 ID:kSQ+RuPA.net
https://image.itmedia.co.jp/news/articles/2307/04/my_0704nict01.jpg
試作モデルの返答例。質問に対する回答ではなく、文章の続きを生成する

https://image.itmedia.co.jp/news/articles/2307/04/my_0704nict02.jpg
存在しない「本居宣長」に関する映画について、映画のあらすじや、その映画にまつわるプロモーション活動に関するテキストが創作されている例など

情報通信研究機構(NICT)が、日本語に特化した大規模言語モデルを試作した。Webから独自収集した350GBの日本語テキストをもとに開発したモデルで、400億のパラメータを持つという。

試作したモデルは、プロンプトを途中まで入力すると、大規模言語モデルが続きのテキストを生成する。ファインチューニング、強化学習などは実施しておらず、「性能面ではChatGPTなどと比較できるレベルではない」ものの、日本語でのやり取りが可能な水準には達したという。ただし、事実と異なる内容や意味をなさないテキストを生成することも確認しているとする。

また、現在「GPT-3」と同規模となる1790億パラメータを持つモデルの事前学習をスタート。学習用テキストの大規模化にも取り組んでいるという。さらに、民間企業、大学、国立研究所などとの共同研究を拡大し、安全に活用できる大規模言語モデルの研究開発に産学官連携して取り組む予定としている。


※以下省略。記事全文はソース元にて

2023年7月4日
https://www.itmedia.co.jp/news/spv/2307/04/news174.html


■国立研究開発法人情報通信研究機構プレスリリース
日本語に特化した大規模言語モデル(生成AI)を試作
~日本語のWebデータのみで学習した400億パラメータの生成系大規模言語モデルを開発~
https://www.nict.go.jp/press/2023/07/04-1.html

2 :名無しのひみつ:2023/07/05(水) 01:16:16.96 ID:d5E4PW6z.net
ドラマを降板、休養中の鈴木京香、激変した現在の姿が話題…激ヤセか、心配の声が相次ぐ
https://hyuih.centromedicopaz.com/0703/byvt/99d0bd.html

3 :名無しのひみつ:2023/07/05(水) 03:51:55.66 ID:mLyqpFua.net
まともに日-英翻訳できるAI笑が現れたら認めてやってもいい

4 :名無しのひみつ:2023/07/05(水) 06:08:31.06 ID:VjVEdLKn.net
WEBから集めた日本語テキストって2ちゃんの過去ログ?

5 :名無しのひみつ:2023/07/05(水) 06:29:12.22 ID:TmDyOp1u.net
日本語って世界屈指の変化速度と変化率の高い言語だろ
知らねえぞ

6 :名無しのひみつ:2023/07/05(水) 06:55:55.06 ID:igvNVraO.net
日本語やれたら大したもんですよ
行間を読ませるんだからね

7 :名無しのひみつ:2023/07/05(水) 08:47:20.80 ID:vsN1lSPN.net
400億は少ないなあ
「優しく丁寧な人」への対応でも1桁足りない

日本の重箱の隅つつく層を対象にしたら10兆オーバー必要か

8 :名無しのひみつ:2023/07/05(水) 08:55:46.11 ID:BzlZ1Ps/.net
>>6
縦読みもあるで

9 :名無しのひみつ:2023/07/05(水) 10:57:54.98 ID:4WrdlOOY.net
俺の書いたエロ小説も収集されたんかな

10 :名無しのひみつ:2023/07/05(水) 11:28:20.24 ID:H+sMtiZk.net
現状だと、AIの誤情報を鵜呑みにする人間が危ない

11 :名無しのひみつ:2023/07/05(水) 12:22:50.85 ID:CVte7KY8.net
〇〇の誤情報を鵜呑みにする人間
 ……
 ・映画館? 井戸端?
 ・テレビ
 ・えすえぬえす
 ・chat AI  ← 今ここ
 ……

12 :名無しのひみつ:2023/07/05(水) 19:02:51.88 ID:hVDnZAG1.net
>>8
縦見抜けるようになったら本物やな。

13 :名無しのひみつ:2023/07/05(水) 20:07:51.21 ID:IpB2Phz2.net
日本は日本語モデルを作れるがai自身は作れない
根本的な更新をすることができなく常に後付け後追いのテクノロジーしか持ってない

もっというとai以上(他国産以上)のものを作れない

14 :名無しのひみつ:2023/07/05(水) 20:09:16.47 ID:IpB2Phz2.net
中国が作ってアメリカが気に食わなくなるくらいできないと国産なんて夢の話

15 :名無しのひみつ:2023/07/05(水) 21:09:56.80 ID:TmDyOp1u.net
>>8
紅組「人民とバチバチにバトルしまくった結果斜め読みも初歩レベルという有様です

16 :名無しのひみつ:2023/07/05(水) 22:27:37.04 ID:6Jo5Lr5M.net
東ロボくん

17 :名無しのひみつ:2023/07/06(木) 07:38:02.88 ID:O6wybWGC.net
ただチャットgptを日本向けにしてるだけだ
試しに法律関係聞いてみろ
国産なら答えてくれる
だけどパクリモデルの改造に過ぎないので日本の法律を答えてるわけではない
外国(アメリカ)の法律を規準に物事を語ってるから話が噛み合わなくなる

18 :名無しのひみつ:2023/07/06(木) 07:54:28.85 ID:Ke0iMGyJ.net
結局GPUの性能しだいだし
ケチな日本人には無理な分野

19 :名無しのひみつ:2023/07/06(木) 08:05:18.80 ID:O6wybWGC.net
根本的にオリジナルでなければだめだ
オリジナルという言葉ですらもう定着してるくらい根源がない

0と1以外で物事動かせなきゃだめだよ
もし日本が完全に覇権取るなら

20 :名無しのひみつ:2023/07/06(木) 16:45:07.17 ID:CPCaH939.net
試作を一々発表するな

21 :名無しのひみつ:2023/07/07(金) 14:19:03.88 ID:bUKintfk.net
>>20
成果発表しないとお金貰えないから

22 :名無しのひみつ:2023/07/07(金) 15:38:51.63 ID:JIO7aRjp.net
予算を割り当てられたんだから報告するのは義務だぞ。
義務を果たすのは当然のことで、報告が次の予算の保証になんかならない。

23 :名無しのひみつ:2023/07/07(金) 15:57:13.01 ID:Y6rlAcHA.net
AIと言いつつ言語に囚われる謎

24 :名無しのひみつ:2023/07/07(金) 19:23:44.87 ID:BrF3+uF9.net
Gptプリトレーニングレベルで10億円くらいの経費、とか言ってたし、、
金がかかるよな

25 :名無しのひみつ:2023/07/09(日) 18:58:37.62 ID:covCcXZd.net
ぴゅう太

26 :名無しのひみつ:2023/07/10(月) 07:01:10.60 ID:0fuoTq3W.net
>>23
多言語データ学ばせる力って実は凄いな

27 :名無しのひみつ:2023/07/10(月) 23:48:45.58 ID:uZnqOCV2.net
>日本語って世界屈指の変化速度と変化率の高い言語

イミフw

ネラーの使うネットスラングを言ってるのか?
あんなの無くても日本語として会話は可能だし、そもそも日本語の「文法」「音声(発音)」「は世界から見れば
難しい言葉ではない ロシア語やフィンランド語と比べれば「簡単すぎる」としかいいようがない
助詞の数、動詞・形容詞の変化の数など、どれをとっても日本語は「簡単」だ

語彙が多い、表記が難しい、文法や発音とのギャップが酷すぎる・・・と言うのは事実だがね

それを以て「日本語を知ってるオレらスゲーwww」ってのには安易に同調できないなw

少なくとも>>5はスゴくないしw

28 :名無しのひみつ:2023/07/17(月) 00:42:40.61 ID:hrEtrrip.net
パラメタの多い長期間のトレーニングには
とっても電気代が掛かるはず。

総レス数 28
7 KB
掲示板に戻る 全部 前100 次100 最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★