★4 LLM EN The Decoder 2026年6月5日 21:10 by Synapse Flow 編集部

マイクロソフト、MAIモデルを無許諾ウェブデータで学習させていたことが判明

Microsoft trained its MAI models on unlicensed web data despite promising "enterprise grade, clean and commercially licensed data"

記事のポイント

📰ニュース

マイクロソフトが、MAIモデルを無許諾のウェブデータで学習させていたと報じられました。

🔍注目ポイント

「企業向けでクリーンかつ商用ライセンスデータのみ」という主張に反し、Common Crawlなどのデータを利用していました。

🔮これからどうなる

AI企業のデータ利用に関する透明性や著作権問題が改めて浮上し、企業やクリエイターに影響を与えそうです。

マイクロソフトは、他社とは異なるLLM学習アプローチを謳っていましたが、実際にはCommon Crawlのような無許諾データに依存していました。
同社はフェアユースを主張し、サイト所有者にクローラーのブロックを求めています。
これは他のAIラボと同様のアプローチです。

💡

編集部の視点

マイクロソフトのデータ利用方針が問われていますね。AIモデルの透明性と著作権問題は、今後のサービス利用にも大きく関わってきそうです。

元記事を読む →

DeepSeekがGPT-5.6 Lunaと同等性能で安価なオープンAIモデル「DeepSeek-V4-Flash-0731」を公開しました。

アリババが最新のAIモデル「Qwen3.8-Max」を発表し、その性能がAnthropicのFableなどの世界的なリーダーに…

自律型AIエンジニアDevinの開発元が、日本市場での事業展開と可能性について語りました。

中国MiniMaxが最大15秒の音声付き動画を生成できるAI「MiniMax H3」を発表しました。