شرکت اُپن ایآی بیش از یک میلیون ساعت از ویدیوهای یوتیوب را برای آموزش هوش مصنوعی جیپیتی-۴ (GPT-4) خود رونویسی کرده است که این با واکنش شرکت گوگل همراه بوده است.
سایت بدون- اوایل این هفته، وال استریت ژورنال گزارش داد که شرکتهای هوش مصنوعی هنگام جمعآوری دادههای آموزشی با کیفیت بالا با مانع مواجه شدهاند. اکنون، نیویورک تایمز برخی از روشهایی را که شرکتها با این موضوع برخورد کردهاند، شرح داده است. جای تعجب نیست که این کارها شامل فعالیتهایی میشود که در ناحیه خاکستری مبهم قانون کپیرایت هوش مصنوعی قرار میگیرند.
به نقل از ورج، داستان با شرکت اُپن ایآی آغاز میشود که بهدلیل ناامیدی از به دست آوردن دادههای آموزشی، مدل رونویسی صوتی ویسپر(Whisper) خود را توسعه داد و بیش از یک میلیون ساعت ویدیوی یوتیوب را برای آموزش هوش مصنوعی جیپیتی-۴ که پیشرفتهترین مدل زبانی بزرگ این شرکت است، رونویسی کرد. به گفته نیویورک تایمز این شرکت میدانسته که چنین کاری از نظر قانونی مورد سوال است اما معتقد بوده که استفاده از ویدیوها منصفانه است. تایمز مینویسد، گرگ براکمن(Greg Brockman)، رئیس اُپن ایآی، شخصا در جمعآوری ویدیوهای مورد استفاده شرکت داشته است.
لیندزی هلد(Lindsay Held)، سخنگوی اُپن ایآی در ایمیلی به ورج گفته است که این شرکت مجموعه دادههای منحصر به فردی را برای هر یک از مدلهای خود تنظیم میکند تا به درک آنها از جهان کمک کند و رقابت تحقیقاتی جهانی خود را حفظ کند. هلد افزود که این شرکت از منابع متعددی از جمله دادههای در دسترس عموم و دادههای غیرعمومی استفاده میکند و به دنبال تولید دادههای مصنوعی خود است.
براساس مقاله تایمز، این شرکت منابع دادههای مفید را در سال ۲۰۲۱ به پایان رسانده و پس از بررسی منابع دیگر به رونویسی ویدیوها، پادکستها و کتابهای صوتی یوتیوب روی آورده است. تا پیش از آن، اُپن ایآی مدلهای خود را بر روی دادههایی که شامل کد رایانهای بودند، آموزش داده بود.
مت برایانت(Matt Bryant)، سخنگوی گوگل در ایمیلی به ورج گفته است که این شرکت گزارشهای تایید نشدهای از فعالیت اُپن ایآی را دیده است و افزود که آنها هم فایلهای robots.txt و هم شرایط خدمترسانی، حذف یا دانلود غیرمجاز محتوای یوتیوب را ممنوع میکنند.
نیل موهان(Neal Mohan)، مدیرعامل یوتیوب، موارد مشابهی در مورد احتمال استفاده اُپن ایآی از یوتیوب برای آموزش مدل تولید ویدیوی سورا Sora خود در این هفته گزارش کرده بود. برایانت میگوید که گوگل تدابیر فنی و قانونی را برای جلوگیری از چنین استفادههای غیرمجازی اتخاذ میکند.
به گفته منابع تایمز، گوگل همچنین رونوشتهایی را از یوتیوب جمعآوری کرده است. تایمز مینویسد که دپارتمان حقوقی گوگل از تیم حریم خصوصی این شرکت خواسته تا خط مشی خود را به منظور گسترش فعالیتهایی که میتوان با دادههای مصرفکننده انجام داد، تغییر دهد.
گوگل، اُپن ایآی و دنیای آموزش هوش مصنوعی گسترده، با دادههای آموزشی که به سرعت از بین میروند برای آموزش مدلهای خود دست و پنجه نرم میکنند. این مدلها هرچه دادههای بیشتری دریافت کنند، بهتر میشوند. شرکتها ممکن است تا سال ۲۰۲۸ از محتواهای جدید پیشی بگیرند.