Google ने पेश किया इमेजेन न्यूरल नेटवर्क
अनेक वस्तुओं का संग्रह / / May 24, 2022
और यह कम से कम DALL-E 2 के समान ही करता है।
गूगल की घोषणा की इमेजेन एक तंत्रिका नेटवर्क है जो टेक्स्ट क्वेरी को छवियों में परिवर्तित करता है। यह एक सीधा प्रतियोगी है DALL-E2 OpenAI से - जो कुछ परिदृश्यों में और भी बेहतर काम करता है।
टेक्स्ट क्वेरी को पहचानने के लिए, तंत्रिका नेटवर्क बड़े भाषा मॉडल का उपयोग करता है - प्राकृतिक भाषण प्रसंस्करण एल्गोरिदम जैसे GPT-3 भी उन पर आधारित होते हैं।
सिस्टम तीन चरणों में काम करता है। पहला एक छोटी 64 x 64 पिक्सेल की छवि खींचता है, जिसे तब तक परिष्कृत किया जाता है जब तक कि तंत्रिका नेटवर्क इसे मूल अनुरोध से बेहतर मिलान करने के लिए बदल नहीं सकता। फिर छवि को 256 x 256 पिक्सेल तक बढ़ाया जाता है और इमेजेन विवरण को परिष्कृत करता है। तीसरे चरण में, अंतिम आकार के कैनवास के साथ वही बात दोहराई जाती है - 1024 x 1024 पिक्सेल।
अध्ययन का पाठ बताता है कि इमेजन जटिल प्रश्नों को DALL-E 2 की तुलना में बेहतर ढंग से समझने में सक्षम है। उदाहरण के लिए, क्वेरी के लिए "पांडा लेटे कला बनाता है", DALL-E 2 ने पांडा के साथ विशेष रूप से लट्टे कला लौटा दी, जबकि Google तंत्रिका नेटवर्क ज्यादातर सही परिणाम देने में कामयाब रहा:
लेकिन Google यह भी मानता है कि इनमें से कोई भी तंत्रिका नेटवर्क "घुड़सवार अंतरिक्ष यात्री" क्वेरी को संभाल नहीं सका: दोनों ने हठपूर्वक अंतरिक्ष यात्री को घोड़े पर रखा, और इसके विपरीत नहीं। दोनों में स्पष्ट रूप से बढ़ने की गुंजाइश है।
स्वतंत्र दर्शक मूल्यांकन परिणाम दिखाते हैं कि इमेजन सटीकता और प्रासंगिकता के मामले में DALL-E 2 से बेहतर प्रदर्शन करता है। और यद्यपि इस तुलना को व्यक्तिपरक माना जा सकता है, ऐसे परिणाम अभी भी प्रभावशाली हैं, यह देखते हुए DALL-E 2 अब तक एक अप्राप्य आदर्श रहा है कि समान प्रकृति के अन्य तंत्रिका नेटवर्क मेल नहीं खा सकते हैं। गंतव्य।
किसी भी स्थिति में, इमेजन अभी के लिए एक प्रायोगिक परियोजना है, जिसे सामान्य उपयोगकर्ता एक्सेस नहीं कर सकते हैं। यह स्पष्ट नहीं है कि Google द्वारा इसके आधार पर एक ओपन एक्सेस सेवा बनाने में कितना समय लगेगा।
यह भी पढ़ें🧐
- न्यू न्यूरल नेटवर्क पेंट ट्रांसफॉर्मर एक तस्वीर को पेंटिंग ऑब्जेक्ट में बदल देता है
- भविष्य का पोलेरॉइड: NVIDIA का नया तंत्रिका नेटवर्क 2D छवियों को 3D मॉडल में बदल देता है
- Sber ने ruDALL-E न्यूरल नेटवर्क लॉन्च किया, जो विवरण के अनुसार चित्र बनाता है
सप्ताह की सर्वश्रेष्ठ पेशकश: अलीएक्सप्रेस, लमोडा, मिक्सिट और अन्य स्टोर से छूट