• ব্যানার

OpenAI পয়েন্ট E: একটি একক GPU-তে মিনিটের মধ্যে জটিল তরঙ্গরূপ থেকে একটি 3D পয়েন্ট ক্লাউড তৈরি করুন

একটি নতুন নিবন্ধ Point-E: জটিল সংকেত থেকে 3D পয়েন্ট ক্লাউড তৈরির জন্য একটি সিস্টেম, OpenAI গবেষণা দল পয়েন্ট E চালু করেছে, একটি 3D পয়েন্ট ক্লাউড টেক্সট শর্তসাপেক্ষ সংশ্লেষণ সিস্টেম যা জটিল পাঠ্য দ্বারা চালিত বৈচিত্র্যময় এবং জটিল 3D আকার তৈরি করতে ডিফিউশন মডেল ব্যবহার করে। ইঙ্গিতএকক GPU-তে মিনিটের মধ্যে।
আজকের অত্যাধুনিক চিত্র প্রজন্মের মডেলগুলির আশ্চর্যজনক কর্মক্ষমতা 3D পাঠ্য বস্তুর প্রজন্মের গবেষণাকে উদ্দীপিত করেছে।যাইহোক, 2D মডেলের বিপরীতে, যা মিনিট বা এমনকি সেকেন্ডের মধ্যে আউটপুট তৈরি করতে পারে, অবজেক্ট জেনারেটিভ মডেলগুলিতে সাধারণত একটি একক নমুনা তৈরি করতে কয়েক ঘন্টা GPU কাজের প্রয়োজন হয়।
একটি নতুন নিবন্ধ পয়েন্ট-ই: জটিল সংকেত থেকে 3D পয়েন্ট ক্লাউড তৈরি করার জন্য একটি সিস্টেম, OpenAI গবেষণা দল পয়েন্ট ·E উপস্থাপন করে, 3D পয়েন্ট ক্লাউডের জন্য একটি পাঠ্য শর্তাধীন সংশ্লেষণ সিস্টেম।এই নতুন পদ্ধতিটি একটি জিপিইউতে মাত্র এক বা দুই মিনিটের মধ্যে জটিল পাঠ্য সংকেত থেকে বৈচিত্র্যময় এবং জটিল 3D আকার তৈরি করতে একটি প্রচার মডেল ব্যবহার করে।
দলটি পাঠ্যকে 3D তে রূপান্তর করার চ্যালেঞ্জের উপর দৃষ্টি নিবদ্ধ করে, যা ভার্চুয়াল বাস্তবতা এবং গেমিং থেকে শিল্প নকশা পর্যন্ত বাস্তব বিশ্বের অ্যাপ্লিকেশনের জন্য 3D সামগ্রী তৈরির গণতন্ত্রীকরণের জন্য গুরুত্বপূর্ণ।টেক্সটকে 3D-এ রূপান্তরের জন্য বিদ্যমান পদ্ধতি দুটি বিভাগে পড়ে, যার প্রতিটিরই তার ত্রুটি রয়েছে: 1) উত্পাদনশীল মডেলগুলি দক্ষতার সাথে নমুনা তৈরি করতে ব্যবহার করা যেতে পারে, কিন্তু বৈচিত্র্যময় এবং জটিল পাঠ্য সংকেতের জন্য দক্ষতার সাথে স্কেল করতে পারে না;2) জটিল এবং বৈচিত্র্যময় পাঠ্য সংকেতগুলি পরিচালনা করার জন্য একটি প্রাক-প্রশিক্ষিত টেক্সট-ইমেজ মডেল, কিন্তু এই পদ্ধতিটি গণনামূলকভাবে নিবিড় এবং মডেলটি সহজেই স্থানীয় মিনিমাতে আটকে যেতে পারে যা অর্থপূর্ণ বা সুসংগত 3D বস্তুর সাথে সামঞ্জস্যপূর্ণ নয়।
তাই, দলটি একটি বিকল্প পদ্ধতির সন্ধান করেছে যার লক্ষ্য উপরের দুটি পদ্ধতির শক্তিকে একত্রিত করা, একটি টেক্সট-টু-ইমেজ ডিফিউশন মডেল ব্যবহার করে টেক্সট-ইমেজ জোড়ার একটি বড় সেটে প্রশিক্ষিত (এটি বিভিন্ন এবং জটিল সংকেতগুলি পরিচালনা করার অনুমতি দেয়) এবং টেক্সট-ইমেজ জোড়ার একটি ছোট সেটে প্রশিক্ষিত একটি 3D ইমেজ ডিফিউশন মডেল।image-3D জোড়া ডেটাসেট।টেক্সট-টু-ইমেজ মডেলটি প্রথমে একটি একক সিন্থেটিক উপস্থাপনা তৈরি করতে ইনপুট ইমেজের নমুনা দেয় এবং ইমেজ-টু-3ডি মডেল নির্বাচিত ছবির উপর ভিত্তি করে একটি 3D পয়েন্ট ক্লাউড তৈরি করে।
কমান্ডের জেনারেটিভ স্ট্যাকটি টেক্সট থেকে শর্তসাপেক্ষে ছবি তৈরি করার জন্য সম্প্রতি প্রস্তাবিত জেনারেটিভ ফ্রেমওয়ার্কের উপর ভিত্তি করে তৈরি করা হয়েছে (সোহল-ডিকস্টেইন এট আল।, 2015; গান এবং এরমন, 2020b; হো এট আল।, 2020)।তারা 3 বিলিয়ন গ্লাইড প্যারামিটার সহ একটি GLIDE মডেল ব্যবহার করে (Nichol et al., 2021), রেন্ডার করা 3D মডেলগুলিতে তাদের টেক্সট-টু-ইমেজ ট্রান্সফরমেশন মডেল হিসাবে, এবং ডিফিউশন মডেলের একটি সেট যা তাদের হিসাবে RGB পয়েন্ট ক্লাউড তৈরি করে রূপান্তর মডেল।ইমেজ থেকে ইমেজ.3D মডেল।
পূর্ববর্তী কাজ পয়েন্ট ক্লাউড প্রক্রিয়া করার জন্য 3D আর্কিটেকচার ব্যবহার করার সময়, গবেষকরা দক্ষতা উন্নত করার জন্য একটি সাধারণ ট্রান্সডুসার-ভিত্তিক মডেল (Vaswani et al., 2017) ব্যবহার করেছিলেন।তাদের ডিফিউশন মডেল আর্কিটেকচারে, পয়েন্ট ক্লাউড ইমেজগুলিকে প্রথমে একটি প্রাক-প্রশিক্ষিত ViT-L/14 CLIP মডেলে খাওয়ানো হয় এবং তারপর আউটপুট মেশগুলিকে মার্কার হিসাবে কনভার্টারে খাওয়ানো হয়।
তাদের পরীক্ষামূলক গবেষণায়, দলটি প্রস্তাবিত পয়েন্ট·ই পদ্ধতিকে COCO অবজেক্ট ডিটেকশন, সেগমেন্টেশন এবং সিগনেচার ডেটাসেট থেকে স্কোরিং সিগন্যালের ক্ষেত্রে অন্যান্য জেনারেটিভ 3D মডেলের সাথে তুলনা করেছে।ফলাফলগুলি নিশ্চিত করে যে পয়েন্ট·ই জটিল পাঠ্য সংকেত থেকে বৈচিত্র্যময় এবং জটিল 3D আকার তৈরি করতে সক্ষম এবং এক থেকে দুই ক্রম মাত্রার অনুমান সময়কে গতি বাড়াতে পারে।দলটি আশা করে যে তাদের কাজ 3D পাঠ্য সংশ্লেষণে আরও গবেষণাকে অনুপ্রাণিত করবে।
একটি পূর্বপ্রশিক্ষিত পয়েন্ট ক্লাউড প্রচার মডেল এবং মূল্যায়ন কোড প্রকল্পের গিটহাবে উপলব্ধ।ডকুমেন্ট পয়েন্ট-ই: জটিল সূত্র থেকে 3D পয়েন্ট ক্লাউড তৈরি করার একটি সিস্টেম arXiv-এ রয়েছে।
আমরা জানি যে আপনি কোনো খবর বা বৈজ্ঞানিক আবিষ্কার মিস করতে চান না।সাপ্তাহিক AI আপডেট পেতে আমাদের জনপ্রিয় সিঙ্কড গ্লোবাল এআই সাপ্তাহিক নিউজলেটারে সদস্যতা নিন।


পোস্টের সময়: ডিসেম্বর-২৮-২০২২