東洋経済新報社とVisual Bank 生成Al向け学習用データに関するデータパートナーシップ契約を締結

2024.11.28 13:00
株式会社東洋経済新報社
東洋経済の保有するテキストデータ等を『Qlean Dataset』において、LLM/生成Al/マルチモーダルAl向けのAl学習用データとして提供開始
 株式会社東洋経済新報社(東京都中央区、代表取締役社長:田北 浩章、以下「東洋経済新報社」)はVisual Bank株式会社(東京都渋谷区、代表取締役CEO:永井 真之、以下「Visual Bank」)傘下の株式会社アマナイメージズ(以下「アマナイメージズ」)を通じて、データパートナーシップ契約を2024年11月19日に締結したことをお知らせします。
 東洋経済新報社の有するテキスト等の大規模データを、Visual BankのAI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を通じ、AI学習用途に対して販売開始します。
 本契約締結により東洋経済新報社の有する膨大なテキスト、グラフ等のデータを日本のAI開発現場に届け、日本のAI開発が加速・発展することに貢献していきます。
背景
●AIの隆盛と良質な日本語コーパスの必要性
 人工知能(AI)技術の進化のスピードは著しく、社会・生活の様々な場面に活用されています。特に2022年以降は生成AIやマルチモーダルAIの技術革新が注目を集めています。LLM(大規模言語モデル)のハルシネーション逓減を含めた自然言語処理技術の向上において、豊富かつ良質な学習用データセットは不可欠です。しかし、グローバルで英語を用いたLLMの研究開発が進む一方で、日本においては信頼性の高いテキストデータを大量に入手する手段が限られており、日本語の独自LLMの開発は依然としてデータの質と量がボトルネックになっています。代表的な日本語公開コーパスとしては、CC-100、mC4、OSCAR、Swallow Corpus等がありますが、品質のばらつきもあり、学習データとして利用するためにはデータのクリーニングなどの前処理が必要になります。

●テキスト、グラフ等の大規模データ提供による、AI開発現場の支援を目指したデータパートナーシップ契約
 こうした背景の中、東洋経済新報社とVisual Bankは、AIの研究開発におけるデータの多様性と品質を確保し、イノベーションを加速させることを目的とし、日本市場に向けたAI学習用のテキスト、グラフ等の大規模データの提供を開始します。LLM・生成AI・マルチモーダルAIでの活用を念頭に、良質で信頼性の高い日本語コーパス等を提供することで、日本におけるAIの研究開発を支援していきます。


データパートナーシップ契約の内容
本契約は、東洋経済新報社の有する良質でクローズドなテキスト、グラフ等のデータを、Visual BankのAI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を通じて販売開始するものです。AI開発企業や研究機関に対して提供し、LLM/生成AI/マルチモーダルAIの学習用途にご利用いただくことを想定しています。
Qlean Dataset(キュリンデータセット)とは
AI開発の加速を支援するために、高品質かつ権利クリアなデータセットを開発するサービスで、40年にわたり権利許諾のノウハウを持つアマナイメージズが提供。画像・映像・テキスト・音声・3Dなど多領域の「権利許諾済みデータベース」を基盤にデータセットを開発し、利用に応じた対価をデータ権利者に還元。本契約では、データセットの企画・開発と販売機能を提供。
「東洋経済オンライン」及び「会社四季報オンライン」を含む東洋経済新報社が提供・公開している記事・テキストデータベースは、東洋経済新報社の著作物で、日本の著作権法や国際条約などで保護されており、かつ、『Qlean Dataset』を通じてAIの学習用に有償で提供しているデータとなります。スクレイピングやクローリングなどいずれの方法を問わず、無断でのAIの学習利用を禁止致します。万が一、無断利用が発覚した際は、著作権の侵害として法的措置を含め厳正に対処します。


各社コメント
Visual Bankグループ 株式会社アマナイメージズ 代表取締役CEO:望月 逸平様
 日本において生成AI・LLMの研究開発が急ピッチで進行しています。そのなかで、良質なテキストやグラフデータを求める声は多く聞かれます。東洋経済新報社様とのデータパートナーシップ契約により、東洋経済新報社様の有する貴重な素材を『Qlean Dataset』を通じてAI開発現場に届けることで、新たなテクノロジーやユースケースが創出される一助になることを目指します。Visual Bankグループは、今後も適切な権利処理・用途管理・対価還元のもと、クローズド・データのAI学習用としての社会での利活用を推進し、安心・安全なAI開発を裏側から支援していきます。
『Qlean Dataset』: 
株式会社東洋経済新報社 取締役: 廣田 充彦
 この度はVisual Bank様にお力添えをいただき、「東洋経済オンライン」や『週刊東洋経済』に掲載している記事などをご提供させていただくこととなり大変有り難く思います。AI規制が進むなかで、法的に問題がないことが明らかな学習用データを提供している『Qlean Dataset』の存在が重要性を増しており、その充実に微力ながら貢献して参ります。



【Qlean Dataset × 東洋経済新報社のサービス概要】
特設LPはこちらをご覧ください。
●特長
1.東洋経済新報社の過去20年以上の記事テキスト、グラフデータの提供
2.LLM/生成AI/マルチモーダルAIの学習用データに使用可能
3.専門的なインストラクションデータも作成可能

【LLM(大規模言語モデル)/生成AI/マルチモーダルAIにおける想定ユースケース】
●LLMの開発
高品質な日本語コーパスを利用した汎用性の高いLLM開発、ファインチューニング
経済領域での特化型のLLM開発、ファインチューニング
●図表×テキストのマルチモーダルAIの開発
IR資料、決算資料に関連するマルチモーダルAI
社内パワーポイント資料、エクセル、ワード、PDFなどの資料に関連するマルチモーダルAI


お問い合わせ先
【AI開発ベンダーの方からのお問い合わせ】
Visual Bank株式会社 Qlean Dataset問い合わせフォーム

あわせて読みたい

アドバンテック、生成AI開発向け エッジAI サーバー「AIR-520」をリリース
PR TIMES
「プログラマラブルなカメラデバイス」THINKLET cubeの開発者向け一般販売を開始
PR TIMES
戸籍を調べて驚愕! 実際にあった相続トラブル
antenna
ローカル環境でRAG構築を始める!『RAGスターターセット』企業の生成AI活用を次のステージへ
PR TIMES
ジーエルシー、スマートミラーを活用した「バーチャルヒューマンアシスタントシステム」の提供を開始
PR TIMES
サウナと鉄道を融合させた新しい旅のカタチ「サ鉄」スタート
PR TIMES Topics
本日、ついに情報解禁!『週刊東洋経済』が2024年注目のベンチャー100社を厳選!編集長が教える「すごいベンチャー100」の読み方とは?!
PR TIMES
AIエージェント開発の実践的ガイド『LangChainとLangGraphによるRAG・AIエージェント[実践]入門』が11月9日に発売 #AIエージェント実践本
PR TIMES
【土屋鞄製造所×ミナ ペルホネン】土屋鞄初の刺繍入り新柄ランドセル発売
PR TIMES Topics
Sparticle、SB C&Sとオンプレミス生成AI活用LLMパッケージ「GBase On-premises」のディストリビューター契約を締結
PR TIMES
マンガでわかる生成AI【第7話】著作権とかどうなのよ?
@DIME
カンボジアで紡がれたクリスマス限定アイテム登場
PR TIMES Topics
W2、EC事業者向けAI活用PoCサービス開始
PR TIMES
「LLM工場」目指す日立。NVIDIAなどと協業し「生成AIノウハウの外販」を10月開始
Business Insider Japan
「相続ナビ」で相続を手軽に! 事例とともに対処法を解説
antenna
MediaTek、フラッグシップモバイルSoC『Dimensity 9400』を発表。第2世代の「オールビッグコア」CPUアーキテクチャとAI対応NPUを搭載
Ubergizmo Japan
アルファポリスが、生成AIとRAG(検索拡張生成)の組み合わせによる対話型の小説検索機能を提供開始!
PR TIMES
アサイーボウル&カフェ「OLIP」から新メニュー登場
PR TIMES Topics
エルザジャパン、ローカルでAIを使うためのモバイルワークステー-ションなど『ELSA VELUGA』シリーズを発売
PR TIMES
生成AIアプリ入門【得する!大人のスマホ活用術】
クロワッサンオンライン
揚げどらやき専門店をリニューアルオープン
PR TIMES Topics