Ultimate magazine theme for WordPress.
BTC
$88,184.31
+0.32%
ETH
$2,980.50
+1.03%
LTC
$77.07
+1.66%
DASH
$39.76
+6.79%
XMR
$445.28
+4.17%
NXT
$0.00
+0.32%
ETC
$12.48
+3.67%
DOGE
$0.13
+2.83%
ZEC
$449.64
+9.8%
BTS
$0.00
+0.46%
DGB
$0.01
+2.27%
XRP
$1.91
+2.49%
BTCD
$837.96
+0.32%
PPC
$0.36
+3.14%
YBC
$4,409.22
+0.32%
ЧИТАТЬ ТАКЖЕ:  Дипфейки на Тейлор Свифт вызвали призывы к принятию специального законодательства в США

ИИ GPT-4 просмотрел 4 миллиона часов видео на YouTube

ИИ GPT-4 просмотрел 4 миллиона часов видео на YouTube

В последнее время компании, занимающиеся разработкой искусственного интеллекта, сталкиваются с серьезной проблемой — получением высококачественных обучающих данных. По данным The Wall Street Journal, многие ИИ-компании упираются в стену при решении этого вопроса.

Недавно The New York Times подробно рассказала о том, как некоторые компании пытаются справиться с дефицитом качественных данных для обучения своих ИИ-моделей. Примечательно, что используемые ими методы зачастую находятся в правовой «серой зоне» в отношении авторского права на ИИ.

Так, издание сообщает, что OpenAI, остро нуждаясь в обучающих данных, разработала собственную модель распознавания речи Whisper. Она использовала Whisper для транскрибирования более миллиона часов видео с YouTube, чтобы потом применить эти данные для тренировки своей последней языковой модели GPT-4.

Руководство OpenAI понимало, что такие действия могут быть юридически сомнительными, но сочло их добросовестным использованием. Президент компании Грег Брокман лично участвовал в сборе видео для этих целей.

Представитель OpenAI Линдси Хелд заявила The Verge, что компания использует «уникальные» наборы данных для каждой своей модели, чтобы помочь им «понять мир» и сохранить глобальную конкурентоспособность в исследованиях. По ее словам, OpenAI применяет множество источников, включая общедоступные данные и закрытые партнерские данные, а также рассматривает возможность создания синтетических данных.

Ранее, в 2021 году, OpenAI исчерпала запасы полезных данных и стала рассматривать вариант транскрибирования видео, подкастов и аудиокниг с YouTube, после того как использовала другие доступные ресурсы, такие как компьютерный код с GitHub, базы данных шахматных партий и учебные материалы с Quizlet.

ЧИТАТЬ ТАКЖЕ:  Умный дом своими руками: выбор устройств и технологий

В ответ представитель Google Мэтт Брайант сообщил The Verge, что компания «видела неподтверждённые сообщения» о действиях OpenAI, и подчеркнул, что как файлы robots.txt, так и Условия использования YouTube запрещают несанкционированный сбор или загрузку контента. Глава YouTube Нил Мохан также заявил, что не допустит использования платформы для обучения ИИ-моделей генерации видео, таких как Sora от OpenAI. По словам Брайанта, Google предпринимает «технические и юридические меры» для предотвращения несанкционированного использования контента, когда есть правовые или технические основания для этого.

Очевидно, что стремление ИИ-компаний получить качественные данные для обучения своих моделей нередко приводит их к действиям, находящимся в правовой «серой зоне». Этот вопрос требует дальнейшего изучения и регулирования, чтобы обеспечить баланс между инновациями в области ИИ и защитой авторских прав.

Рекомендуем прочитать

Утечка персональных данных: угроза безопасности для миллионов клиентов AT&T

OSHU31.03.202431.03.2024

Нью-Йорк тестирует технологию обнаружения оружия с использованием ИИ

OSHU30.03.202430.03.2024

Натуральные шампуни — чем же они хороши?

OSHU29.03.202429.03.2024 Искать: Поиск

Комментарии закрыты.