तकनीक के निरंतर विकास के साथ, मानव वीडियो जनरेशन के क्षेत्र में भी महत्वपूर्ण प्रगति हो रही है। इसी क्रम में, बाइटडांस के शोधकर्ताओं द्वारा विकसित किया गया ओम्निह्यूमन-1 एक अत्याधुनिक एआई फ्रेमवर्क है, जो केवल एक छवि और मोशन सिग्नल (जैसे ऑडियो या वीडियो) के माध्यम से अत्यंत यथार्थवादी मानव वीडियो जनरेट करने में सक्षम है।
ओम्निह्यूमन-1 एक मल्टीमॉडलिटी-कंडीशन्ड मानव वीडियो जनरेशन मॉडल है, जो विभिन्न प्रकार के इनपुट्स (जैसे छवियाँ और ऑडियो क्लिप्स) को मिलाकर यथार्थवादी वीडियो बनाता है। यह फ्रेमवर्क पोर्ट्रेट, हाफ-बॉडी शॉट्स, या फुल-बॉडी इमेजेज के साथ काम कर सकता है, जिससे जीवंत मूवमेंट्स, प्राकृतिक जेस्चर्स, और अद्भुत डिटेल्स के साथ वीडियो तैयार होते हैं।
ओम्निह्यूमन-1 का मुख्य आधार एक डिफ्यूजन-आधारित फ्रेमवर्क है, जो विभिन्न कंडीशनिंग सिग्नल्स को मिलाकर प्राकृतिक और यथार्थवादी मूवमेंट्स उत्पन्न करता है। इसका कार्यप्रणाली निम्नलिखित चरणों में विभाजित किया जा सकता है:
इमेज और मोशन इनपुट प्रोसेसिंग: ओम्निह्यूमन-1 इनपुट इमेज और मोशन सिग्नल्स (जैसे ऑडियो, वीडियो, या पोज डेटा) को लेकर चेहरे और शरीर की प्रमुख विशेषताओं का विश्लेषण करता है। मॉडल पोज हीटमैप्स, ऑडियो वेवफॉर्म्स, और कॉन्टेक्स्चुअल मूवमेंट क्यूज़ को एक्सट्रैक्ट करता है, जिससे स्मूद एनीमेशन जनरेट होते हैं।
डिफ्यूजन ट्रांसफार्मर ट्रेनिंग: एक शक्तिशाली डिफ्यूजन ट्रांसफार्मर (DiT) आर्किटेक्चर का उपयोग करके, ओम्निह्यूमन-1 बड़े डेटासेट्स से मोशन प्रायर्स सीखता है। यह मॉडल पूरे शरीर की मूवमेंट जनरेशन को इंटीग्रेट करता है, जिससे प्राकृतिक दिखने वाले जेस्चर्स और जीवंत इंटरैक्शन्स सुनिश्चित होते हैं।
ओम्नि-कंडीशन ट्रेनिंग स्ट्रेटेजी: ओम्निह्यूमन-1 की एक विशेषता इसकी क्षमता है कि यह ट्रेनिंग डेटा को प्रभावी ढंग से स्केल कर सकता है। पारंपरिक मॉडलों में असंगतियों के कारण बहुत सारा ट्रेनिंग डेटा छोड़ दिया जाता है, लेकिन ओम्निह्यूमन-1 मूल्यवान मोशन डेटा को बनाए रखता है।
एनीमेटेड वीडियो जनरेशन: ट्रेनिंग के बाद, मॉडल फ्लुइड, उच्च-गुणवत्ता वाले मानव वीडियो जनरेट करता है जो इनपुट मोशन से मेल खाते हैं। ओम्निह्यूमन-1 मनमाने वीडियो लंबाई, विभिन्न आस्पेक्ट रेशियो, और यहां तक कि आर्टिस्टिक स्टाइल्स (जैसे कार्टून या स्टाइलाइज्ड कैरेक्टर एनीमेशन) को भी सपोर्ट करता है।
मल्टीमॉडलिटी मोशन कंडीशनिंग: छवि और मोशन सिग्नल्स (जैसे ऑडियो या वीडियो) को मिलाकर यथार्थवादी वीडियो बनाता है।
यथार्थवादी लिप सिंक और जेस्चर्स: स्पीच या म्यूजिक के साथ लिप मूवमेंट्स और जेस्चर्स को सटीकता से मेल करता है, जिससे अवतार्स प्राकृतिक महसूस होते हैं।
विभिन्न इनपुट्स का समर्थन: पोर्ट्रेट्स, हाफ-बॉडी, और फुल-बॉडी इमेजेज के साथ सहजता से काम करता है। कमजोर सिग्नल्स, जैसे केवल ऑडियो इनपुट के साथ भी, उच्च-गुणवत्ता वाले परिणाम उत्पन्न करता है।
विभिन्न फॉर्मेट्स में बहुमुखी प्रतिभा: विभिन्न आस्पेक्ट रेशियो में वीडियो जनरेट कर सकता है, जिससे विभिन्न कंटेंट टाइप्स के लिए अनुकूल होता है।
उच्च-गुणवत्ता आउटपुट: सटीक चेहरे के भाव, जेस्चर्स, और सिंक्रोनाइजेशन के साथ फोटोरियलिस्टिक वीडियो जनरेट करता है।
मानव से परे एनीमेशन: ओम्निह्यूमन-1 कार्टून, जानवरों, और कृत्रिम वस्तुओं को एनीमेट करने में सक्षम है, जिससे क्रिएटिव एप्लीकेशन्स के लिए नए द्वार खुलते हैं।
1. गायन: ओम्निह्यूमन-1 संगीत को जीवंत बना सकता है, चाहे वह ओपेरा हो या पॉप सॉन्ग। मॉडल संगीत की बारीकियों को पकड़ता है और उन्हें प्राकृतिक शरीर की मूवमेंट्स और चेहरे के भावों में अनुवादित करता है। उदाहरण के लिए:
जेस्चर्स गीत की रिदम और स्टाइल से मेल खाते हैं।
चेहरे के भाव संगीत के मूड के साथ संरेखित होते हैं।
2. बातचीत: ओम्निह्यूमन-1 जेस्चर्स और लिप-सिंकिंग को संभालने में अत्यंत कुशल है। यह यथार्थवादी टॉकिंग अवतार्स जनरेट करता है जो लगभग मानव जैसे महसूस होते हैं। एप्लीकेशन्स में शामिल हैं
Website Link