שימושים בתכנים מוגנים בזכויות יוצרים לצורך למידת מכונה

על מנת לאמן מערכות בינה מלאכותית נדרשים מאגרי נתונים רחבי היקף הרלבנטיים לתוצר הנדרש. תכנים אלה כוללים במקרים רבים, תכנים מוגנים בזכויות יוצרים, לרבות תמונות, טקסטים, יצירות והקלטות מוסיקליות, המשמשים לאימון המכונה. דיני זכויות  יוצרים, מגבילים, ככלל, את הזכות לעשות שימוש בתכנים שנוצרו על ידי אדם אחר, ומכאן מתעוררת שאלה לגבי ההסכמה של היוצרים / בעלי הזכויות ביצירות לשימוש ביצירותיהם לצרכי למידת מכונה. אל מול ההגבלות האמורות, המצדדים בשימוש מעין זה, סבורים שגישה חופשית למידע נדרשת עבור הטכנולוגיה, אשר לומדת בצורה דומה לבני האדם, ושהדבר ייטיב עם החברה בכללותה ויתרום לפיתוח הקידמה. הנושא מעלה שאלות מורכבות בדבר האיזון  הראוי בין שיקולים מתנגשים אלה.  לאור האמור, מדינות אחדות כבר תיקנו את חוק זכות יוצרים והוסיפו בו סעיף המתיר ניצול יצירה לצורך כריית מידע וטקסט Text & Data Mining (TDM). כך לדוגמא, בשנת 2018, יפן היתה המדינה החלוצה בהתרת שימוש זה, ללא צורך ברישיון, ללא תשלום ליוצר וללא צורך במתן קרדיט ליוצר. בשנת 2019,  התקבלה באיחוד האירופי הדירקטיבה המוכרת כ- DSM ונקבעו בה שני הסדרים המתירים שימוש ביצירות מוגנות לצורךTDM .

בישראל, משרד המשפטים פרסם בשנת 2022 חוות דעת העוסקת בנושא זה: https://www.gov.il/BlobFolder/legalinfo/machine-learning/he/machine-learning.pdf על פי משרד המשפטים הישראלי, העדר הבהירות בנוגע לחוקיות השימוש בחומרים המוגנים בזכויות יוצרים למטרות פיתוח בינה מלאכותית, עשוי להוות מחסום משפטי ללמידת מכונה יעילה ולצמיחה של שוק הבינה מלאכותית. לפי חוות הדעת (בעמ' 6) "גם אם נאמר כי זכויות יוצרים מהוות קניין במובנו הרחב, עדיין יש מקום לבדוק  את השתרעותו  של קניין זה והזכויות המוגנות בו מצב בו ניצב בפנינו אינטרס חברתית, ציבורי, כלכלי, כבד משקל, של קידום טכנולוגיות מתקדמות, הטמעתן בשוק, האצת הקידמה והבאת בשורת התפתחות".

עמדת משרד המשפטים הינה שלמעט קיומם של מקרים חריגים, השימוש בתוכן המוגן בזכות יוצרים למטרת הכשרת מכונה, חוסה תחת הסדרי השימוש המותרים בדיני זכויות היוצרים, ולפיכך לא מהווה, ברוב המקרים, הפרה של זכות יוצרים. ראשית, שימוש בתכנים מוגנים לשם אימון מכונה יהווה לרוב שימוש הוגן. שנית, בחלק ממיזמי למידת מכונה, יחול סעיף 22 לחוק, העוסק בשימוש אגבי. שלישית, במידה והנתונים המשמשים ללמידה נמחקים בסיום התהליך, הרי שיחול גם סעיף 26 לחוק זכות יוצרים בדבר יצירה ארעית. לפי חוות הדעת, מסקנה זו מתיישבת גם עם המגמה הגלובלית בדין החל על סוגיית אימון מכונה.

עם זאת, ולצד קביעה עקרונית זו, קיימות מספר נקודות אשר אין חוות הדעת מתייחסת אליהן. כך למשל אין חוות הדעת מתייחסת למקרים בהם מאגר המידע לאימון מכונה מורכב מיצירות של יוצרים בודדים (ולא ממגוון רחב של תכנים), ובכך מהווה תשתית ליצירת  מערכת בינה מלאכותית אשר תתחרה ביוצרים אלה (בעמ' 2). מעבר לכך, המדובר בדרך כלל על חברות מסחריות,  המספקות תוכן ושירותים בתשלום, על בסיס תוכן מסוג זה בדיוק. שנית, חוות הדעת מנתחת את המצב בו מתבצע תהליך הלימוד עצמו על ידי המכונה, אך לא נתנה מענה באשר לחוקיות התוצר של מערכות בינה מלאכותית המתבססות על למידת מכונה, ונקבע כי השאלה האם התוצר מהווה הפרת זכות יוצרים תידון על פי הכללים הרגילים. שלישית,  יתכן שבתוך נתוני האימון שנעשה בו שימוש לאימון המכונה, יש רכיבים אשר אינם מוגנים בזכויות יוצרים (ואשר בהם ניתן לעשות שימוש). אלא שהפרדה כזו, מציפה את הקושי המסחרי, שייאלץ חברות לעשות שימוש רק בנתונים אשר יש להם בעלות מלאה עליו, דבר שיצמצם את האפשרות לחברות גדולות דוגמת גטי. שאלה מהותית נוספת הינה, אילו תמריצים יהיו ליוצר לייצר יצירות חדשות, כאשר ניתן לפנות למכונה על מנת שתיצור את מבוקשנו?

בעת האחרונה הוגשו מספר תביעות, כנגד חברות שונות, רבות מהן מבקשות הכרה כתובענות ייצוגיות, בגין שימוש בתכנים מוגנים, לרבות תמונות, קוד, יצירות ספרותיות ויצירות מוסיקליות), לצורך אימון מודלים של בינה מלאכותית. כך למשל, חברת Getty Images הגישה תביעה כנגד חברת STABILITY AI, INC.  בטענה כי סטביליטי עשתה שימוש בלמעלה מ-12 מיליון תמונות של גטי, לצורך אימון מערכת הבינה המלאכותית המוכרת  Stable Diffusion. החברה דרשה להפסיק לאמן את המודל באמצעות התמונות וכן פיצוי כספי. במקרה אחר, הוגשה תביעה ייצוגית כנגד חברת Github בטענה כי זו הפרה את זכויות היוצרים של התובעים על ידי שימוש בקוד שלהם לצורך הכשרת מערכת הבינה המלאכותית Copilot (כלי שפותח על ידי Guthub  וחברת Open AI לסיוע בהשלמה אוטומטית של קוד למתכנתים במספר שפות תכנות), וזאת ללא קבלת הרשאה, ובאופן שבו Copilot מסוגלת כעת ליצור קוד  הדומה באופן מהותי לקוד המוגן בזכויות יוצרים של התובעת. Github טוענת כי השימוש שלה בקוד של התובעים היה שימוש הוגן וכי Copilot הינה יצירה טרנספורמטיבית שאינה מפרה את זכויות היוצרים של התובעים.    בגל תביעות נוסף שהוגשו בתקופה האחרונה, הגישו מספר יוצרים מוערכים ומוכרים, תביעות כנגד חברות שונות בטענה לשימוש ביצירות ספרותיות בזכויות יוצרים לצרכי אימון מודלים של בינה מלאכותית, ללא הרשאה, לא קרדיט וללא פיצוי לבעלי זכויות היוצרים. כך למשל, הגיש מייקל שיבון, סופר מוערך, זוכה פרס פוליצר, ביחד עם אחרים, תביעות, כנגד חברתMeta  ותביעה דומה כנגד חברת Open Ai, לבית משפט פדרלי בסן פרנסיסקו, בטענה כי המודלים התאמנו  על יצירות מוגנות בזכויות יוצרים תוך העתקת כמויות אדירות של טקסט. תביעה נוספת, הוגשה על ידי הקומיקאית שרה סילברמן ואחרים, כנגד חברת    Open AI   וחברת מטא בטענה שהחברות עשו שימוש בתכנים, המוגנים בזכויות יוצרים, לצורך אימון המכונה, באופן שמפר את זכויותיהם הבלעדיות של בעלי זכויות היוצרים ביצירות. לטענת מטא, הספרים בהם נעשה שימוש מהווים חלק זעיר מהחומר המשמש לצרכי אימון מערכת ה- LLaMa. כמו כן, לטענת הנתבעים חוק זכות יוצרים, אינו מגן על עובדות  או מבנה לשוני שאפשר שחולץ מתוך הספרות בה נעשה שימוש. לשיטתם, השימוש של המודלים בחומרים המוגנים בזכויות יוצרים הינו שימוש טרנספורמטיבי, ומכאן שראוי להחשב כשימוש הוגן.

גם בתחום המוסיקה, הגישו לאחרונה מספר חברות פאבלישינג (מו"לות), ובכללן חברת Universal Publishing Group הגישה תביעה כנגד חברת הבינה המלאכותית Anthropic PBC, בטענה כי החברה עשתה שימוש במילות השירים לצרכי אימון מערכת הבינה המלאכותית שלה – "קלוד", וזאת ללא קבלת הרשאה מראש מבעלי הזכויות.

מהפכת הבינה המלאכותית במוזיקה עומדת במרכזה של תביעה מסקרנת נוספת אשר הוגשה על ידי שלוש חברות התקליטים המובילות בעולם, יוניברסל, וורנר וסוני, כנגד כנגד שתי חברות בינה מלאכותית מובילות Udio  ו- Suno , אשר מציעות כלים מהפכניים ליצירת מוזיקה אשר זכות לפופולריות רבה: יצירת שירים באמצעות הנחיות טקסטואליות פשוטות, בטענה כי החברות אימנו את המודלים שלהן על בסיס מאות אלפי שעות של מוזיקה מוגנת בזכויות יוצרים, וזאת ללא קבלת אישור או תשלום לבעלי הזכויות. המדובר בקרבות משפטיים בעלי השלכות מרחיקות לכת, ואשר עשויים לעצב מחדש את תעשיית המוזיקה.

יתכן שעצם הגשת התביעות תתרום ל"אפקט מצנן" וכי הללו ישפיעו הן על הפרקטיקות הנוהגות על ידי חברות הבינה המלאכותית, והן  על ידי בעלי הזכויות. מעבר לכך, יוצרים יוכלו למשוך את הסכמתם (Opt-out)   לשימוש ביצירותיהם לצורך אימון הבינה המלאכותית. בדומה, חברות שונות המייצגות בעלי תכנים, כבר החלו לפעול לחסום בפני חברות המפתחות שירותי בינה מלאכותית את האפשרות לעשות שימוש בתכנים שבבעלותם לצרכי אימון מכונה.

ניצני חקיקה מתהווים לאחרונה בתחום, וכך למשל במסגרת הליך חקיקת חוק הבינה המלאכותית של  האיחוד האירופי, נקבעו כללים ספציפיים גם ביחס ל"מודלים בסיסיים" (Foundation Models)  – מודלים  של בינה מלאכותית שהוכשרו על נתונים רחבים בקנה מידה כך שניתן להתאים אותו למגוון רחב של משימות. החוק קובע שמודלים כאלה חייבים לעמוד, בין היתר, בהתחייבויות פרטניות לשקיפות טרם יציאתם לשוק. לצד החקיקה, ההכרעות המשפטיות בתביעות חשובות ומסקרנות אלה, אשר טרם התבררו לגופן, תהיינה בעלות השלכות מרחיקות לכת בשאלה בעלת משמעות כלכלית אדירה, והן תתרומנה להבהרת הנושא ולעיצוב כללי המותר והאסור ביחס לשימוש ביצירות לצרכי אימון מכונה.