東洋経済新報社とVisual Bank 生成Al向け学習用データに関するデータパートナーシップ契約を締結

2024.11.28 13:00
株式会社東洋経済新報社
東洋経済の保有するテキストデータ等を『Qlean Dataset』において、LLM/生成Al/マルチモーダルAl向けのAl学習用データとして提供開始
 株式会社東洋経済新報社(東京都中央区、代表取締役社長:田北 浩章、以下「東洋経済新報社」)はVisual Bank株式会社(東京都渋谷区、代表取締役CEO:永井 真之、以下「Visual Bank」)傘下の株式会社アマナイメージズ(以下「アマナイメージズ」)を通じて、データパートナーシップ契約を2024年11月19日に締結したことをお知らせします。
 東洋経済新報社の有するテキスト等の大規模データを、Visual BankのAI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を通じ、AI学習用途に対して販売開始します。
 本契約締結により東洋経済新報社の有する膨大なテキスト、グラフ等のデータを日本のAI開発現場に届け、日本のAI開発が加速・発展することに貢献していきます。
背景
●AIの隆盛と良質な日本語コーパスの必要性
 人工知能(AI)技術の進化のスピードは著しく、社会・生活の様々な場面に活用されています。特に2022年以降は生成AIやマルチモーダルAIの技術革新が注目を集めています。LLM(大規模言語モデル)のハルシネーション逓減を含めた自然言語処理技術の向上において、豊富かつ良質な学習用データセットは不可欠です。しかし、グローバルで英語を用いたLLMの研究開発が進む一方で、日本においては信頼性の高いテキストデータを大量に入手する手段が限られており、日本語の独自LLMの開発は依然としてデータの質と量がボトルネックになっています。代表的な日本語公開コーパスとしては、CC-100、mC4、OSCAR、Swallow Corpus等がありますが、品質のばらつきもあり、学習データとして利用するためにはデータのクリーニングなどの前処理が必要になります。

●テキスト、グラフ等の大規模データ提供による、AI開発現場の支援を目指したデータパートナーシップ契約
 こうした背景の中、東洋経済新報社とVisual Bankは、AIの研究開発におけるデータの多様性と品質を確保し、イノベーションを加速させることを目的とし、日本市場に向けたAI学習用のテキスト、グラフ等の大規模データの提供を開始します。LLM・生成AI・マルチモーダルAIでの活用を念頭に、良質で信頼性の高い日本語コーパス等を提供することで、日本におけるAIの研究開発を支援していきます。


データパートナーシップ契約の内容
本契約は、東洋経済新報社の有する良質でクローズドなテキスト、グラフ等のデータを、Visual BankのAI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を通じて販売開始するものです。AI開発企業や研究機関に対して提供し、LLM/生成AI/マルチモーダルAIの学習用途にご利用いただくことを想定しています。
Qlean Dataset(キュリンデータセット)とは
AI開発の加速を支援するために、高品質かつ権利クリアなデータセットを開発するサービスで、40年にわたり権利許諾のノウハウを持つアマナイメージズが提供。画像・映像・テキスト・音声・3Dなど多領域の「権利許諾済みデータベース」を基盤にデータセットを開発し、利用に応じた対価をデータ権利者に還元。本契約では、データセットの企画・開発と販売機能を提供。
「東洋経済オンライン」及び「会社四季報オンライン」を含む東洋経済新報社が提供・公開している記事・テキストデータベースは、東洋経済新報社の著作物で、日本の著作権法や国際条約などで保護されており、かつ、『Qlean Dataset』を通じてAIの学習用に有償で提供しているデータとなります。スクレイピングやクローリングなどいずれの方法を問わず、無断でのAIの学習利用を禁止致します。万が一、無断利用が発覚した際は、著作権の侵害として法的措置を含め厳正に対処します。


各社コメント
Visual Bankグループ 株式会社アマナイメージズ 代表取締役CEO:望月 逸平様
 日本において生成AI・LLMの研究開発が急ピッチで進行しています。そのなかで、良質なテキストやグラフデータを求める声は多く聞かれます。東洋経済新報社様とのデータパートナーシップ契約により、東洋経済新報社様の有する貴重な素材を『Qlean Dataset』を通じてAI開発現場に届けることで、新たなテクノロジーやユースケースが創出される一助になることを目指します。Visual Bankグループは、今後も適切な権利処理・用途管理・対価還元のもと、クローズド・データのAI学習用としての社会での利活用を推進し、安心・安全なAI開発を裏側から支援していきます。
『Qlean Dataset』: 
株式会社東洋経済新報社 取締役: 廣田 充彦
 この度はVisual Bank様にお力添えをいただき、「東洋経済オンライン」や『週刊東洋経済』に掲載している記事などをご提供させていただくこととなり大変有り難く思います。AI規制が進むなかで、法的に問題がないことが明らかな学習用データを提供している『Qlean Dataset』の存在が重要性を増しており、その充実に微力ながら貢献して参ります。



【Qlean Dataset × 東洋経済新報社のサービス概要】
特設LPはこちらをご覧ください。
●特長
1.東洋経済新報社の過去20年以上の記事テキスト、グラフデータの提供
2.LLM/生成AI/マルチモーダルAIの学習用データに使用可能
3.専門的なインストラクションデータも作成可能

【LLM(大規模言語モデル)/生成AI/マルチモーダルAIにおける想定ユースケース】
●LLMの開発
高品質な日本語コーパスを利用した汎用性の高いLLM開発、ファインチューニング
経済領域での特化型のLLM開発、ファインチューニング
●図表×テキストのマルチモーダルAIの開発
IR資料、決算資料に関連するマルチモーダルAI
社内パワーポイント資料、エクセル、ワード、PDFなどの資料に関連するマルチモーダルAI


お問い合わせ先
【AI開発ベンダーの方からのお問い合わせ】
Visual Bank株式会社 Qlean Dataset問い合わせフォーム

あわせて読みたい

50社以上の生成AIビジネス活用 書籍『生成DX~生成AIが生んだ新たなビジネスモデル~』が全国書店・Amazonで好評販売中!補足解説youtubeも配信開始(株式会社d-strategy,inc)
ラブすぽ
従来の50倍のAIエージェントを駆使し、大幅な機能向上を実現 2024年12月、「四季報AI」Version2リリース
PR TIMES
いつもの朝食プラス「Y1000」でウェルネスライフ。管理栄養士が奨める新習慣!
antenna
日本株、これから「市場規模10倍になる」と予想される超注目業界の「プロ厳選銘柄5選」を実名紹介
現代ビジネス
ローカル環境でRAG構築を始める!『RAGスターターセット』企業の生成AI活用を次のステージへ
PR TIMES
心も体も整う「サウナポテト」販売開始
PR TIMES Topics
ジーエルシー、スマートミラーを活用した「バーチャルヒューマンアシスタントシステム」の提供を開始
PR TIMES
AIエージェント開発の実践的ガイド『LangChainとLangGraphによるRAG・AIエージェント[実践]入門』が11月9日に発売 #AIエージェント実践本
PR TIMES
天然の果樹から生まれたダルマ5個セット「フルーツ小だるまレンジャー」年始限定発売
PR TIMES Topics
Sparticle、SB C&Sとオンプレミス生成AI活用LLMパッケージ「GBase On-premises」のディストリビューター契約を締結
PR TIMES
Amazon創業者が与えた助言 “生成AI戦争”で重視すべき指標とは?
ITmedia ビジネスオンライン
自宅で簡単にはちみつたっぷり”いちごミルク”が楽しめる「はちみつマリナードいちご」発売
PR TIMES Topics
マンガでわかる生成AI【第7話】著作権とかどうなのよ?
@DIME
W2、EC事業者向けAI活用PoCサービス開始
PR TIMES
次世代の覇権をかけた「巨大テック企業」の熾烈な争い…勝利のカギを握る「2つのキーワード」
現代ビジネス
Stripeが大型言語モデルでAIエージェントと金融サービスをつなぐ「エージェントツールキット」を発表
@DIME
アルファポリスが、生成AIとRAG(検索拡張生成)の組み合わせによる対話型の小説検索機能を提供開始!
PR TIMES
MediaTek、フラッグシップモバイルSoC『Dimensity 9400』を発表。第2世代の「オールビッグコア」CPUアーキテクチャとAI対応NPUを搭載
Ubergizmo Japan