לאחרונה הצליחה בינה מלאכותית מאוניברסיטת קרנגי מלון להביס ארבעה שחקני פוקר מקצועיים המשחקים בטקסס הולדם. עכשיו היוצרים של ה- AI הזה אישרו זה עתה כי ל- AI הזה יכולת על אנושית לנצח את המשחק הזה.
בתחילת 2017, Libratus, בינה מלאכותית מאוניברסיטת קרנגי מלון, הצליחה להביס ארבעה שחקני פוקר מקצועיים המשחקים בטקסס הולדם. עכשיו היוצרים של ה- AI הזה אישרו זה עתה שלליבראטוס יש יכולת על אנושית לנצח את המשחק הזה.
במחקר, שפורסם ב מדע, תומאס סנדהולם, פרופסור למדעי המחשב, ונועם בראון, הסטודנט שלו, מפרט כיצד הבינה המלאכותית שלו הסתדרה לחלק את המשחק לחלקים הניתנים לניהול חישוביים, ובמשחק מתנגדיו לפתור חולשות אפשריות באסטרטגיה שלהם במהלך התחרות. הוא עשה את זה עם יותר נקודות החלטה מאשר לאטומים ביקום.
תוכניות AI הביסו את מיטב בני האדם בשחמט והכל, כולם משחקי אתגר, אך בהם שני השחקנים יודעים את מצב המשחק המדויק בכל עת. שחקני פוקר, לעומת זאת, מתמודדים עם מידע נסתר: אילו קלפים יש ליריביהם ואם יריב מבלף.
בתחרות בת 20 יום בהשתתפות 120,000 ידיים בקזינו ריברס בפיטסבורג, ליברטוס הפכה למכונה הראשונה שהביסה את השחקנים האנושיים הטובים ביותר בטקסס הולדם ללא הגבלה.
Libratus ניצחה את כל אחד מהשחקנים בנפרד במשחק שני השחקנים וצברה ביחד יותר מ -2.1 מיליון דולר בשבבים.
"הטכניקות בליברטוס אינן משתמשות בידע מומחה או בנתונים אנושיים ואינן ספציפיות לפוקר", אמרו סנדהולם ובראון במסמך. "לכן, הם חלים על מספר רב של מערכות מידע לא מושלמות." מידע נסתר כזה הוא אינסופי בעולם האמיתי אינטראקציות אסטרטגיות, הם ציינו, כולל משא ומתן עסקי, אבטחת סייבר, כספים, מחירים וצבא יישומים.
Libratus כולל שלושה מודולים עיקריים, הראשון שבהם מחשב הפשטה של המשחק קטנה יותר וקל יותר לפתרון מאשר בהתחשב ב- 10 ^ 161 (המספר 1 ואחריו 161 אפסים) נקודות החלטה אפשריות ב מִשְׂחָק. לאחר מכן, היא יוצרת אסטרטגיה מפורטת משלה לסבבים המוקדמים של טקסס הולדם ואסטרטגיה גסה לסיבובים מאוחרים יותר. דוגמה להפשטות אלו בפוקר היא לקבץ ידיים דומות ולטפל בהן באופן זהה.
"באופן אינטואיטיבי, אין הבדל קטן בין סולם מלכותי לגוון מלכותי," אמר בראון. "ההתייחסות לאותן ידיים זהות מפחיתה את מורכבות המשחק ולכן מקלה על כך מבחינה חישובית."
אבל בסיבובים האחרונים של המשחק, מודול שני בונה הפשטה חדשה על בסיס מצב המשחק. במהלך התחרות בינואר, ליברטוס ביצע חישוב זה באמצעות מחשב הברידג'ס ממרכז המחשוב העל בפיטסבורג.
בכל פעם שיריב מבצע מהלך שאינו נמצא בהפשטה, המודול מחשב פתרון למשנה זו הכולל תנועת היריב. סנדהולם ובראון מכנים את פיתרון המשנה המקונן הזה.
המודול השלישי נועד לשפר את האסטרטגיה של התוכנית עם התקדמות המשחק. בדרך כלל, אמר סנהולם, רובוטים משתמשים בלימוד מכונה כדי למצוא טעויות באסטרטגיית היריב ולנצל אותן.
במקום זאת, מודול הביצוע העצמי של ליבראטוס מנתח את גודל ההימורים של היריבים בכדי לאתר חורים פוטנציאליים באסטרטגיה עצמה. לאחר מכן, ליברטוס מוסיפה ענפי החלטה חסרים אלה, מחשבת עבורם אסטרטגיות ומוסיפה אותן לתוכנית.
בנוסף לניצחון אנשי המקצוע האנושיים, ליברטוס הוערכה כנגד הבינה המלאכותית הטובה ביותר בפוקר. אלה כוללים את Baby Tartanian8, בוט שפותח על ידי Sandholm and Brown שזכה בפוקר המחשב השנתי לשנת 2016 תחרות שנערכה במשותף עם העמותה לקידום הבינה המלאכותית השנתית וְעִידָה.
המכונות רואות במשחק עץ. בפשטות, שני ענפים יוצאים מכל צומת, שהם ההחלטות או הנתיבים האפשריים לנקוט. לכל אחד מהענפים הללו נבטי פרי, שהם התגובות האפשריות של היריב. לפי המקום שממנו הגיע הפרי, כך יופיעו שני ענפים אחרים. עלווה ופירות מתחרים על מטרה אחת: להגיע לאור השמש.
ברור שלא כל הענפים הם כל כך עלים, וגם לא כל הפירות שמתפשרים כל כך עבורם. התבוננות על העץ בכללותו, מלמטה למעלה, הייתה נותנת לנו חזון של הדרך האופטימלית להגיע לשמש. אבל זה לוקח זמן. מסיבה זו ניתן לחתוך ענפים מסוימים עם פירותיהם ולהשאירם צרים יותר.
רשתות עצביות הן כמו גננים מנוסים. הם יכולים ללמוד אילו ענפים הם בדרך כלל אלה שמגיעים גבוה יותר או אלו שיישאו הכי הרבה פרי. החוויה גורמת לך לקלוע את הענפים לפי שהם פרודוקטיביים יותר או עלים וכך לעזור בקבלת החלטות היכן לגזום.
אז מה אתה חושב על זה? פשוט שתף את דעותיך ומחשבותיך בקטע ההערות למטה.