ابزارهای هوش مصنوعی با سرعتی نگران کننده در جلوی چشمان ما در حال توسعه هستند، اما همچنان نقص هایی دارند. دیدن برخی جزئیات عجیب و غریب در تصاویر تولید شده با هوش مصنوعی یکی از این نقص هاست که گاهی اوقات می تواند بسیار سرگرم کننده باشد. اما یکی از مواردی که انواع مختلف هوش مصنوعی با آن مشکل دارند، شبیه سازی و ایجاد تصویر واقعی از دست انسان است! ناتوانی هوش مصنوعی در درک درست دست به یکی از موضوعات داغ این روزها تبدیل شده است و در مورد آن بسیار صحبت می شود.
اما علت چنین نقص عجیبی چیست و چرا دست ها برای ابزارهای تصویربرداری مبتنی بر هوش مصنوعی چالش برانگیز هستند؟ در ادامه به بررسی این موضوع می پردازیم. با ما در DJ همراه باشید.
چرا دست های تولید شده توسط هوش مصنوعی به هم ریخته است؟
هر کسی که از ابزارهای هوش مصنوعی برای ایجاد تصاویر استفاده کرده است، ممکن است متوجه شده باشد که دست ها به ندرت درست ظاهر می شوند. با این حال، شاید هیچ کس اهمیتی نمی داد تا اینکه مجموعه ای از “عکس ها” در توییتر منتشر شد و این موضوع به یک موضوع داغ تبدیل شد.
با نگاه دقیق تر و مشاهده دست های عجیب افراد در عکس به سرعت می توان فهمید که تصویر مورد نظر توسط هوش مصنوعی ساخته شده است. اما هوش مصنوعی Midjourney این مشکل را به وضوح و غیرقابل انکار در جلوه های بصری خود دارد که آن را جذاب تر می کند.
Midgerni، یکی از بهترین ابزارهای هوش مصنوعی موجود، نمیتوانست از پس پیچیدگی دست انسان برآید، بنابراین قابلیتهای این ابزار و همتایانش زیر سوال رفت. حتی DALL-E نمی تواند انگشتان و ناخن ها را به طور واقع بینانه بکشد.
با توجه به تبلیغات گسترده در مورد عدم توانایی هوش مصنوعی در کشیدن دست، توسعه دهندگان Midgerni سعی کردند با انتشار نسخه پنجم این ابزار تا حد امکان مشکل را اصلاح کنند.
در نسخه جدید سیستم ترسیم دستی به میزان قابل توجهی بهبود یافته است که نشان می دهد مهندسان هوش مصنوعی به این مشکل توجه کرده و تصمیم به بهبود قابلیت های نرم افزار خود گرفته اند.
با این حال، سایر موتورهای هوش مصنوعی کمی کند هستند تا Midgerni را دنبال کنند، بنابراین انجام تنظیمات تصویر هوش مصنوعی در فتوشاپ هنوز یک مهارت ارزشمند است. در واقع، مانع اصلی برنامه نویسان این است که آموزش هوش مصنوعی برای کشیدن دست های طبیعی فرآیند بسیار پیچیده ای است.
چرا ابزارهای تولید تصویر مبتنی بر هوش مصنوعی مشکل دست دارند؟!
موتورهای هوش مصنوعی از شبکه های متخاصم مولد (GAN) یا انتشار پایدار برای تولید تصاویر استفاده می کنند. هر دو فناوری به منابع گسترده، آموزش و قدرت پردازش بالایی برای خلق حتی ابتدایی ترین آثار هنری نیاز دارند.
از آنجایی که تصاویر از قبل موجود در آموزش هوش مصنوعی نقش اساسی دارند، برنامه نویسان باید هزاران یا حتی میلیون ها تصویر را به نرم افزار خود وارد کنند و فرآیند پرسش و پاسخ را بارها و بارها تکرار کنند تا هوش مصنوعی یک کلمه را بفهمد. مربوط می شود و چگونه باید نشان داده شود؟
اما تصاویر مرجعی که هوش مصنوعی از آن ها آموزش می بیند، بیشتر دو بعدی هستند و در آن ها دست ها در موقعیت ها و اشکال مختلف به تصویر کشیده شده اند. به عنوان مثال، در یک عکس دست باز است، در عکسی دیگر به مشت گره کرده است، در عکسی دیگر نشانه پیروزی و غیره را نشان می دهد. بنابراین نکته اصلی این است که هوش مصنوعی واقعاً مفهوم دست ها را درک نمی کند و تصاویری که از آنها می آموزد همیشه دست ها را به وضوح یا به اندازه کافی ثابت نشان نمی دهند. به همین دلیل است که دست های تولید شده توسط Midgerni می توانند بسیار زشت باشند و این به دلیل سردرگمی هوش مصنوعی است.
بنابراین به همان اندازه که افرادی مانند ایلان ماسک نگران توسعه روزافزون هوش مصنوعی هستند، واضح است که برخی از بخشهای این فناوری هنوز راه درازی در پیش دارند و چیزهای زیادی برای یادگیری دارند.
بیشتر بخوانید:
چرا ابزارهای هوش مصنوعی به کندی پیشرفت می کنند؟
درست است که نسخه پنجم Midjourney تطابق بهتری بین پیامک ها و تصاویر تولید شده دارد و همچنین وضوح بالاتر و ابزارهای اضافی را ارائه می دهد. اما دستیابی به چنین دستاوردهایی اصلا آسان و ارزان نیست.
آموزش هوش مصنوعی برای انجام بهتر کارها، و در این مورد خاص، نقاشی با دست واقعی، مستلزم ارائه جلوه های بصری بهتر به خصوص در سه بعدی است. این بدان معناست که زمان و نیروی انسانی زیادی صرف فرآیند آموزش می شود. فرآیندی که شامل: ارائه تصاویر منبع کافی، بهبود کدگذاری و تکرار آموزش تا زمانی که هوش مصنوعی به درستی برسد.
حتی پس از گذراندن این مراحل، نرم افزار هوش مصنوعی همچنان می تواند در خلق آثار هنری منحصر به فرد و برجسته اشتباهات زیادی مرتکب شود. بنابراین دور از انتظار نیست که مبدلهای متن به تصویر مبتنی بر هوش مصنوعی میتوانند به سرعت به سطح Midger ارتقا پیدا کنند.
به بیان ساده، مشکل موتورهای هوش مصنوعی فقط ناتوانی آنها در درک درست ظاهر انسان یا ویژگی هایی مانند دست ها و پاها نیست. در عوض، تامین هزینه آموزش و دسترسی به تصاویر مرجع سه بعدی و همچنین تکنیک های یادگیری ماشین نیز یکی از چالش های اصلی برای پیشرفت هوش مصنوعی است.
ابزارهای هوش مصنوعی بالاخره این مشکل را حل خواهند کرد
دست ها موضوع بسیار سخت و پیچیده ای برای هوش مصنوعی هستند، اما در شرایط فعلی راه حل هایی برای آن وجود دارد. DALL-E 2، Midgerni 5 و دیگر پلتفرم های پیشرفته بالاخره توانسته اند تولید انگشتان عجیب و غریب را در تصاویر خود به حداقل برسانند، هرچند هنوز مشکل را به طور کامل حل نکرده اند.
بنابراین، پیشرفتها در زمینههای مختلف هوش مصنوعی تضمین میکند که این فناوری دائماً در حال پیشرفت است و توسعهدهندگان آن همیشه در حال یادگیری روشهای جدید برای آموزش و بهبود آن هستند.