Недавно мы сообщали о том, что компании, создающие большие языковые генеративные модели, сталкиваются с проблемой недостатка качественных данных для обучения своих ИИ. Как сообщается, OpenAI частично решила проблему благодаря YouTube.
Ещё для обучения GPT-4 компания создала модель транскрипции аудио Whisper и в итоге перевела в текст более миллиона часов видео с YouTube. The New York Times говорит, что OperAI прекрасно понимала, что это серая зона с юридической точки зрения, но всё равно пошла на это. Вполне возможно, сейчас для обучения GPT-5 компания пользуется в том числе этим же методом.
Источник говорит, что уже для GPT-4 компания OpenAI фактически исчерпала все запасы качественных данных для обучения, причём ещё в 2021 году.
Источник: https://www.ixbt.com/news/2024/04/07/gpt-4-openai-youtube.html
Еще полезное
Насколько автономными получились iPhone 16, 16 Pro и 16 Pro Max. Новинки сравнили с десяткой других флагманов
Redmi Note 14 Pro+ на качественных рендерах выглядит, как полноценный флагман
Дилер привез в Россию «особый» Toyota Highlander: гибридный Toyota Crown Kluger 2024 с полным приводом оценили в 6,38 млн рублей