無住心言術道場0075回

無住心言術道場第75回「 日本国産の大規模言語モデルの作成のための、複数のトレーニング済みモデルを用いたスペシャリスト型の拡張可能型大規模言語モデルの作成への提言」無住心剣術の精神で、今回も針屋忠道、突貫します。

今回の要点は、現状での日本の国産の大規模言語モデルの作成の課題は、

1、計算資源の課題。

2、データ資源の課題。

3、アーキテクチャーとしての、複数のトレーニング済みモデルを用いたスペシャリスト型の拡張型大規模言語モデルの作成とApache Kafka。

が、考えられます。

この解決として、複数のスペシャリスト型の拡張可能な大規模言語モデルの作成を考えます。

この場合。複数のスペシャリスト型の大規模言語モデルを構成する、各スペシャリスト型の大規模言語モデルは、データ転送型(データ・スリーミング)のソフトウェアである、Apache Kafkaをブローカーとして使う事を前提とします。

1、現状では、日本の大規模言語モデルを作成するための困難な、状況は、ハードウェア的には、GPUやTPU、NPUを用いた、深層学習のトレーニングを行うための、データセンターを使うことが困難な現状が在ると考えられます。

 民間企業の場合では、クラウドサービスで、時間単位で料金を支払って、深層学習のトレーニングをマネーロンダリングの検出用のAIのトレーニング済みモデルなどを作ることは容易ですが。

 日本政府が、日本製の大規模言語モデルを作成する場合。

 現在、日本のスーパーコンピュータである富岳の後継となる、スーパーコンピュータは、GPUの使用が広報されていますが。

 ハードウェアリソースと呼ばれる、具体的な、計算資源の課題が在ります。

2、データ資源の課題は、国際的なデータセット作成時の法規制に基づく課題が存在します。

 日本は現在、ヨーロッパ寄りの姿勢で、生成AIのモデルを作成するためのデータセットの扱いをしています。

 この日本の慎重な姿勢は、大規模言語モデルを作成する際に、著作権などの権利侵害が発生するリスクに対する予防処置だと考えられます。大規模言語モデルを開発した国であるアメリカや中国とは異なるスタンスを日本はデータセットの作成では行っています。

 この場合、日本は、データセットの作成の際に、現状では、使えるデータ資源が限定されると考えられます。

 生成AIのChatGPTとの対話では、日本は、限られたデータ資源の利用しか行えず。現状では、Chat GPT3.5水準の大規模言語モデルの作成を、日本が目指す場合では制限される。

 解決策としては、今後、国際法の整備で、匿名性が保証されるデータは、全世界で深層学習のトレーニングを行うためのデータセットとして使用できる方向性の位置づけが必要であると、生成AIのChatGPTとの対話では結論付けられている。

3、現実的に、日本がChatGPT3.5水準の大規模言語モデルの作成を目指す場合。複数のスペシャリスト型のトレーニング済みのモデルを用いて、データのストリーミング配信を行うサーバー上で動くソフトウェアである、Apache Kafkaをブローカーとして用いるアーキテクチャーが妥当であると、生成AIのChatGPTとの対話では得られている。

 日本が大規模言語モデルの作成を目指す場合。計算資源の制約から、パラメーターが多い、大型の大規模言語モデルの作成を目指す場合と比較して。スペシャリスト型の方が、パラメーター数が少なくて済む結果。大型の大規模言語モデルの作成に際してパラメーターが多い場合に急激に増加する計算コストの低減が可能であると考えられる。

複数のスペシャリスト型のAIが一つの大規模言語モデルを形成する場合。スペシャリスト型のAI単位で、新しくトレーニング済みのモデルを交換可能である利点も指摘できる。

 通常のChatGPT3.5水準の大規模言語モデルの作成を一つのトレーニング済みのモデルで目指す場合に生じるリスクである。不具合が生じた場合に再び深層学習のトレーニングを長い時間と資金を費やす。時間的リソースと、資金的なリソースを費やすリスクの低減が考えられる。

「したがって、日本が今後ChatGPT水準の大規模言語モデルを国産で開発するためには:

  1. GPU・TPU等を含む計算資源の国家的整備
  2. 匿名化データ利用に関する国際的法整備
  3. 分散型スペシャリスト構成(Apache Kafka等のデータブローカーによる連携)

この三点の整備が不可欠である。

」(この部分は、生成AIのChatGPTさんが纏めた文章を少し変更して掲載している)

今日は、このあたりで筆を置きましょう。

この「無住心言術道場第○○○回」の文章は全て、クリエイティブ・コモンズ・ライセンスのCC BY です。CC BYの条件:原著作者の表示(BY)を条件に、作品の利用、改変、商用利用が許可」。原著者:針屋忠道、Copilot,ChatGPTCC BYから、ホームページからコピー・アンド・ペーストを行って生成AIを用いての翻訳および保存は自由に許可されます。CC BYから、ホームページからコピー・アンド・ペーストを行って生成AIを用いての翻訳および保存は自由に許可されます。

Hide picture