■ このスレッドは過去ログ倉庫に格納されています
【国産AI】400億パラメータで日本語特化 情報通信研究機構、独自の生成AIを試作 [oops★]
- 1 :oops ★:2023/07/05(水) 01:15:54.45 ID:kSQ+RuPA.net
- https://image.itmedia.co.jp/news/articles/2307/04/my_0704nict01.jpg
試作モデルの返答例。質問に対する回答ではなく、文章の続きを生成する
https://image.itmedia.co.jp/news/articles/2307/04/my_0704nict02.jpg
存在しない「本居宣長」に関する映画について、映画のあらすじや、その映画にまつわるプロモーション活動に関するテキストが創作されている例など
情報通信研究機構(NICT)が、日本語に特化した大規模言語モデルを試作した。Webから独自収集した350GBの日本語テキストをもとに開発したモデルで、400億のパラメータを持つという。
試作したモデルは、プロンプトを途中まで入力すると、大規模言語モデルが続きのテキストを生成する。ファインチューニング、強化学習などは実施しておらず、「性能面ではChatGPTなどと比較できるレベルではない」ものの、日本語でのやり取りが可能な水準には達したという。ただし、事実と異なる内容や意味をなさないテキストを生成することも確認しているとする。
また、現在「GPT-3」と同規模となる1790億パラメータを持つモデルの事前学習をスタート。学習用テキストの大規模化にも取り組んでいるという。さらに、民間企業、大学、国立研究所などとの共同研究を拡大し、安全に活用できる大規模言語モデルの研究開発に産学官連携して取り組む予定としている。
※以下省略。記事全文はソース元にて
2023年7月4日
https://www.itmedia.co.jp/news/spv/2307/04/news174.html
■国立研究開発法人情報通信研究機構プレスリリース
日本語に特化した大規模言語モデル(生成AI)を試作
~日本語のWebデータのみで学習した400億パラメータの生成系大規模言語モデルを開発~
https://www.nict.go.jp/press/2023/07/04-1.html
- 2 :名無しのひみつ:2023/07/05(水) 01:16:16.96 ID:d5E4PW6z.net
- ドラマを降板、休養中の鈴木京香、激変した現在の姿が話題…激ヤセか、心配の声が相次ぐ
https://hyuih.centromedicopaz.com/0703/byvt/99d0bd.html
- 3 :名無しのひみつ:2023/07/05(水) 03:51:55.66 ID:mLyqpFua.net
- まともに日-英翻訳できるAI笑が現れたら認めてやってもいい
- 4 :名無しのひみつ:2023/07/05(水) 06:08:31.06 ID:VjVEdLKn.net
- WEBから集めた日本語テキストって2ちゃんの過去ログ?
- 5 :名無しのひみつ:2023/07/05(水) 06:29:12.22 ID:TmDyOp1u.net
- 日本語って世界屈指の変化速度と変化率の高い言語だろ
知らねえぞ
- 6 :名無しのひみつ:2023/07/05(水) 06:55:55.06 ID:igvNVraO.net
- 日本語やれたら大したもんですよ
行間を読ませるんだからね
- 7 :名無しのひみつ:2023/07/05(水) 08:47:20.80 ID:vsN1lSPN.net
- 400億は少ないなあ
「優しく丁寧な人」への対応でも1桁足りない
日本の重箱の隅つつく層を対象にしたら10兆オーバー必要か
- 8 :名無しのひみつ:2023/07/05(水) 08:55:46.11 ID:BzlZ1Ps/.net
- >>6
縦読みもあるで
- 9 :名無しのひみつ:2023/07/05(水) 10:57:54.98 ID:4WrdlOOY.net
- 俺の書いたエロ小説も収集されたんかな
- 10 :名無しのひみつ:2023/07/05(水) 11:28:20.24 ID:H+sMtiZk.net
- 現状だと、AIの誤情報を鵜呑みにする人間が危ない
- 11 :名無しのひみつ:2023/07/05(水) 12:22:50.85 ID:CVte7KY8.net
- 〇〇の誤情報を鵜呑みにする人間
……
・映画館? 井戸端?
・テレビ
・えすえぬえす
・chat AI ← 今ここ
……
- 12 :名無しのひみつ:2023/07/05(水) 19:02:51.88 ID:hVDnZAG1.net
- >>8
縦見抜けるようになったら本物やな。
- 13 :名無しのひみつ:2023/07/05(水) 20:07:51.21 ID:IpB2Phz2.net
- 日本は日本語モデルを作れるがai自身は作れない
根本的な更新をすることができなく常に後付け後追いのテクノロジーしか持ってない
もっというとai以上(他国産以上)のものを作れない
- 14 :名無しのひみつ:2023/07/05(水) 20:09:16.47 ID:IpB2Phz2.net
- 中国が作ってアメリカが気に食わなくなるくらいできないと国産なんて夢の話
- 15 :名無しのひみつ:2023/07/05(水) 21:09:56.80 ID:TmDyOp1u.net
- >>8
紅組「人民とバチバチにバトルしまくった結果斜め読みも初歩レベルという有様です
- 16 :名無しのひみつ:2023/07/05(水) 22:27:37.04 ID:6Jo5Lr5M.net
- 東ロボくん
- 17 :名無しのひみつ:2023/07/06(木) 07:38:02.88 ID:O6wybWGC.net
- ただチャットgptを日本向けにしてるだけだ
試しに法律関係聞いてみろ
国産なら答えてくれる
だけどパクリモデルの改造に過ぎないので日本の法律を答えてるわけではない
外国(アメリカ)の法律を規準に物事を語ってるから話が噛み合わなくなる
- 18 :名無しのひみつ:2023/07/06(木) 07:54:28.85 ID:Ke0iMGyJ.net
- 結局GPUの性能しだいだし
ケチな日本人には無理な分野
- 19 :名無しのひみつ:2023/07/06(木) 08:05:18.80 ID:O6wybWGC.net
- 根本的にオリジナルでなければだめだ
オリジナルという言葉ですらもう定着してるくらい根源がない
0と1以外で物事動かせなきゃだめだよ
もし日本が完全に覇権取るなら
- 20 :名無しのひみつ:2023/07/06(木) 16:45:07.17 ID:CPCaH939.net
- 試作を一々発表するな
- 21 :名無しのひみつ:2023/07/07(金) 14:19:03.88 ID:bUKintfk.net
- >>20
成果発表しないとお金貰えないから
- 22 :名無しのひみつ:2023/07/07(金) 15:38:51.63 ID:JIO7aRjp.net
- 予算を割り当てられたんだから報告するのは義務だぞ。
義務を果たすのは当然のことで、報告が次の予算の保証になんかならない。
- 23 :名無しのひみつ:2023/07/07(金) 15:57:13.01 ID:Y6rlAcHA.net
- AIと言いつつ言語に囚われる謎
- 24 :名無しのひみつ:2023/07/07(金) 19:23:44.87 ID:BrF3+uF9.net
- Gptプリトレーニングレベルで10億円くらいの経費、とか言ってたし、、
金がかかるよな
- 25 :名無しのひみつ:2023/07/09(日) 18:58:37.62 ID:covCcXZd.net
- ぴゅう太
- 26 :名無しのひみつ:2023/07/10(月) 07:01:10.60 ID:0fuoTq3W.net
- >>23
多言語データ学ばせる力って実は凄いな
- 27 :名無しのひみつ:2023/07/10(月) 23:48:45.58 ID:uZnqOCV2.net
- >日本語って世界屈指の変化速度と変化率の高い言語
イミフw
ネラーの使うネットスラングを言ってるのか?
あんなの無くても日本語として会話は可能だし、そもそも日本語の「文法」「音声(発音)」「は世界から見れば
難しい言葉ではない ロシア語やフィンランド語と比べれば「簡単すぎる」としかいいようがない
助詞の数、動詞・形容詞の変化の数など、どれをとっても日本語は「簡単」だ
語彙が多い、表記が難しい、文法や発音とのギャップが酷すぎる・・・と言うのは事実だがね
それを以て「日本語を知ってるオレらスゲーwww」ってのには安易に同調できないなw
少なくとも>>5はスゴくないしw
- 28 :名無しのひみつ:2023/07/17(月) 00:42:40.61 ID:hrEtrrip.net
- パラメタの多い長期間のトレーニングには
とっても電気代が掛かるはず。
総レス数 28
7 KB
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★