東洋経済新報社とVisual Bank 生成Al向け学習用データに関するデータパートナーシップ契約を締結

2024.11.28 13:00
株式会社東洋経済新報社
東洋経済の保有するテキストデータ等を『Qlean Dataset』において、LLM/生成Al/マルチモーダルAl向けのAl学習用データとして提供開始
 株式会社東洋経済新報社(東京都中央区、代表取締役社長:田北 浩章、以下「東洋経済新報社」)はVisual Bank株式会社(東京都渋谷区、代表取締役CEO:永井 真之、以下「Visual Bank」)傘下の株式会社アマナイメージズ(以下「アマナイメージズ」)を通じて、データパートナーシップ契約を2024年11月19日に締結したことをお知らせします。
 東洋経済新報社の有するテキスト等の大規模データを、Visual BankのAI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を通じ、AI学習用途に対して販売開始します。
 本契約締結により東洋経済新報社の有する膨大なテキスト、グラフ等のデータを日本のAI開発現場に届け、日本のAI開発が加速・発展することに貢献していきます。
背景
●AIの隆盛と良質な日本語コーパスの必要性
 人工知能(AI)技術の進化のスピードは著しく、社会・生活の様々な場面に活用されています。特に2022年以降は生成AIやマルチモーダルAIの技術革新が注目を集めています。LLM(大規模言語モデル)のハルシネーション逓減を含めた自然言語処理技術の向上において、豊富かつ良質な学習用データセットは不可欠です。しかし、グローバルで英語を用いたLLMの研究開発が進む一方で、日本においては信頼性の高いテキストデータを大量に入手する手段が限られており、日本語の独自LLMの開発は依然としてデータの質と量がボトルネックになっています。代表的な日本語公開コーパスとしては、CC-100、mC4、OSCAR、Swallow Corpus等がありますが、品質のばらつきもあり、学習データとして利用するためにはデータのクリーニングなどの前処理が必要になります。

●テキスト、グラフ等の大規模データ提供による、AI開発現場の支援を目指したデータパートナーシップ契約
 こうした背景の中、東洋経済新報社とVisual Bankは、AIの研究開発におけるデータの多様性と品質を確保し、イノベーションを加速させることを目的とし、日本市場に向けたAI学習用のテキスト、グラフ等の大規模データの提供を開始します。LLM・生成AI・マルチモーダルAIでの活用を念頭に、良質で信頼性の高い日本語コーパス等を提供することで、日本におけるAIの研究開発を支援していきます。


データパートナーシップ契約の内容
本契約は、東洋経済新報社の有する良質でクローズドなテキスト、グラフ等のデータを、Visual BankのAI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を通じて販売開始するものです。AI開発企業や研究機関に対して提供し、LLM/生成AI/マルチモーダルAIの学習用途にご利用いただくことを想定しています。
Qlean Dataset(キュリンデータセット)とは
AI開発の加速を支援するために、高品質かつ権利クリアなデータセットを開発するサービスで、40年にわたり権利許諾のノウハウを持つアマナイメージズが提供。画像・映像・テキスト・音声・3Dなど多領域の「権利許諾済みデータベース」を基盤にデータセットを開発し、利用に応じた対価をデータ権利者に還元。本契約では、データセットの企画・開発と販売機能を提供。
「東洋経済オンライン」及び「会社四季報オンライン」を含む東洋経済新報社が提供・公開している記事・テキストデータベースは、東洋経済新報社の著作物で、日本の著作権法や国際条約などで保護されており、かつ、『Qlean Dataset』を通じてAIの学習用に有償で提供しているデータとなります。スクレイピングやクローリングなどいずれの方法を問わず、無断でのAIの学習利用を禁止致します。万が一、無断利用が発覚した際は、著作権の侵害として法的措置を含め厳正に対処します。


各社コメント
Visual Bankグループ 株式会社アマナイメージズ 代表取締役CEO:望月 逸平様
 日本において生成AI・LLMの研究開発が急ピッチで進行しています。そのなかで、良質なテキストやグラフデータを求める声は多く聞かれます。東洋経済新報社様とのデータパートナーシップ契約により、東洋経済新報社様の有する貴重な素材を『Qlean Dataset』を通じてAI開発現場に届けることで、新たなテクノロジーやユースケースが創出される一助になることを目指します。Visual Bankグループは、今後も適切な権利処理・用途管理・対価還元のもと、クローズド・データのAI学習用としての社会での利活用を推進し、安心・安全なAI開発を裏側から支援していきます。
『Qlean Dataset』: 
株式会社東洋経済新報社 取締役: 廣田 充彦
 この度はVisual Bank様にお力添えをいただき、「東洋経済オンライン」や『週刊東洋経済』に掲載している記事などをご提供させていただくこととなり大変有り難く思います。AI規制が進むなかで、法的に問題がないことが明らかな学習用データを提供している『Qlean Dataset』の存在が重要性を増しており、その充実に微力ながら貢献して参ります。



【Qlean Dataset × 東洋経済新報社のサービス概要】
特設LPはこちらをご覧ください。
●特長
1.東洋経済新報社の過去20年以上の記事テキスト、グラフデータの提供
2.LLM/生成AI/マルチモーダルAIの学習用データに使用可能
3.専門的なインストラクションデータも作成可能

【LLM(大規模言語モデル)/生成AI/マルチモーダルAIにおける想定ユースケース】
●LLMの開発
高品質な日本語コーパスを利用した汎用性の高いLLM開発、ファインチューニング
経済領域での特化型のLLM開発、ファインチューニング
●図表×テキストのマルチモーダルAIの開発
IR資料、決算資料に関連するマルチモーダルAI
社内パワーポイント資料、エクセル、ワード、PDFなどの資料に関連するマルチモーダルAI


お問い合わせ先
【AI開発ベンダーの方からのお問い合わせ】
Visual Bank株式会社 Qlean Dataset問い合わせフォーム

あわせて読みたい

「楽天なくして生活ない、AIなくして未来ない、モバイルなくして成功ない」 三木谷氏が楽天市場出店者に訴える
ITmedia Mobile
Stripeが大型言語モデルでAIエージェントと金融サービスをつなぐ「エージェントツールキット」を発表
@DIME
【東京開催決定】電気自動車の世界選手権って?
antenna
<au>頼れるAIパートナー au「Samsung Galaxy S25」「Samsung Galaxy S25 Ultra」2025年1月31日(金)予約開始・2月14日(金)発売
PR TIMES
従来の50倍のAIエージェントを駆使し、大幅な機能向上を実現 2024年12月、「四季報AI」Version2リリース
PR TIMES
土作り、野菜作りをより楽しく!初心者もラクに使える「耕うん機」登場
PR TIMES Topics
【『AI vs. 教科書が読めない子どもたち』待望の続編】シリーズ48万部突破!新井紀子氏による最新刊『シン読解力』発売
PR TIMES
日本株、これから「市場規模10倍になる」と予想される超注目業界の「プロ厳選銘柄5選」を実名紹介
現代ビジネス
【温泉道場】ゲーム形式で楽しむ「きき醤油大会」を開催
PR TIMES Topics
株式会社Ridge-i社と共同開発「ローカルRAGスターターBOX」の受注を開始
PR TIMES
【CES2025】NVIDIAがフィジカルAIシステムの開発を推進するプラットフォーム「Cosmos」を発表
@DIME
【Anastasia】2025年のテーマは「星空」。夜空に輝く星のように神秘的でロマンチックなデザイン
PR TIMES Topics
2025年はAIエージェント元年!「普通の人間より賢いAI」がバーチャル同僚になる
ダイヤモンド・オンライン
AIエージェント開発の実践的ガイド『LangChainとLangGraphによるRAG・AIエージェント[実践]入門』が11月9日に発売 #AIエージェント実践本
PR TIMES
思わず今の気持ちを書き出してみたくなるような、美しい万年筆を開発
PR TIMES Topics
Sparticle、SB C&Sとオンプレミス生成AI活用LLMパッケージ「GBase On-premises」のディストリビューター契約を締結
PR TIMES
LINEヤフー社長に聞く「AIエージェント」の展望 生成AI導入はどこまで進んだ?
ITmedia ビジネスオンライン
無料生成AIアプリ「Le Chat by Mistral AI」、日本を含む世界で公開
ITmedia Mobile
次世代の覇権をかけた「巨大テック企業」の熾烈な争い…勝利のカギを握る「2つのキーワード」
現代ビジネス