جزوه روشنایی فنی PDF

جزوه روشنایی فنی

کاردانی برق دکتر کلهر گل محمدی محمدحسین فاتحی دکتر مهدی مظفری لقا کاردانی آقای کریم پور کارشناسی ارشد علیپیام نور حجرگشت محسن تقوی‌فر کریم

“” : ً -“” ” /++ ، #،

؛ : : –ً ()، () () ، ؛ ؛ در این مجموعه کوچک، اطلاعات لازم در روز بعد به سیستم داده می شود. از این مجموعه آموزشی از نمونه های شناخته شده، سیستم یک مدل ریاضی برای دسته بندی مثالی ناشناخته طبقه بندی می کند. یک مثال دیگر از مهندسی نرم افزار این است که بر اساس مجموعه ای از برنامه های معیوب و غیر معیوب، وجود یا عدم وجود خطا در یک کد را پیش بینی کنیم. از طرف دیگر، می توانیم هزینه توسعه نسخه جدید یک برنامه را بر اساس سابقه هزینه های نسخه های قبلی همان برنامه پیش بینی کنیم. در ساختن مدل، باید ساختن مدلی که داده های آموزشی را تعمیم می دهد را همراه با پیروی از اصل رایج تیغ Occam، مد نظر قرار داد و این مدل باید تا حد امکان ساده باشد تا داده های مجموعه آموزشی فعلی را توجیه کند. شکل A2.2 این موضوع را نشان می دهد. اگر مجموعه آموزشی فقط شامل دایره ها باشد، تیغ Occam مدل خطی را انتخاب می کند، اما با افزودن مثلث به مجموعه آموزشی، تیغ Occam می تواند منحنی سینوسی را انتخاب کند. بنابراین، کدام مدل مناسب است: خط مستقیم، منحنی سینوسی یا روشنایی فنی از منحنی هایی که هنوز ناشناخته اند؟
تصویر 2-A2
در مثال هواشناسی، سیستم سعی می کند تا نقاط مشترک و در عین حال تفاوت هایی را بین برداشت های هواشناسی کشف کند، هم برای روزهای بارانی بعدی و هم روزهایی که بعد از آن ها باران نمی بارد. سپس از این فراداده برای احتمال بارش در روز بعد استفاده () () () () () چه نوع مصنوعاتی مورد نیاز است؟ آیا به کد منبع، کد شیء و گزارش مربوط به اشکالات نیاز داریم؟ برای انجام تجزیه و تحلیل مناسب به چه حجم داده ای نیاز داریم؟
2. پاکسازی داده ها. پس از جمع آوری، داده ها باید پاکسازی شوند. این فرآیند، شامل حذف مشکلات موجود در داده است که در پردازش بیشتر، مشکل ایجاد می کند. به عنوان مثال، داده های مفقود شده باید پر شوند، و داده های خراب باید پیدا و تصحیح شوند.

دانلود رایگان خلاصه کتاب کامل جزوه روشنایی فنی پی دی اف pdf

3. 3. تبدیل داده ها. پس از پاکسازی، داده ها باید تبدیل شوند تا برای کارهای تجزیه و تحلیل پایین تر مناسب تر باشند. این فرایند را داده گزینی یا بحث اطلاعاتی می نامند. نمونه ای از این فعالیت ممکن است تغییر قالب نمایش داده ها، حذف علائم نگارشی در یک فایل داده متنی و انجام تجزیه و تحلیل قسمت های گفتار برای داده های متنی باشد.
4. تجزیه و تحلیل داده ها. پس از همه مراحل فوق، داده ها آماده تجزیه و تحلیل و پردازش توسط ابزارهای مختلف تجزیه و تحلیل داده ها خواهند بود. اما قبل از این امر، ما عموماً از ابزارهای تجسم برای کارهای مختلف استفاده می کنیم. به عنوان مثال، به کمک این ابزارها می توان در مورد ویژگی های مناسب برای پیش بینی ارزش سایر ویژگی تصمیم گرفت. تنها با این کار، می توانیم بهترین رویکرد تحلیلی را که برای اهداف پیش بینی کننده یا استنباطی استفاده می شود، تعیین کنیم.
5. ساخت مجموعه آموزشی. انتخاب یک مجموعه آموزشی مناسب، اهمیت زیادی دارد.در این بین، ممکن است تعاریف کلی از مجموعه های مختلف آموزشی در بین خود متفاوت باشد، اما امیدواریم که پاسخ های پایین دستی تولید شده همچنان صحیح باشند.توجه کنید که نباید از مجموعه باران بیش از ؛ : (). ً ً

؛ می تواند دارای ارزش واقعی یا ارزش گسسته باشد. فرض کنید یک مقدار، دارای بردارهای ویژگی زیادی است که شامل اطلاعات ویتاری برای استخدام جدید می باشد. یک مثال از مشکل رگرسیون، پیش بینی مدت زمانی است که شخص، قبل از جستجوی شغل جدید، در شرکت شما می ماند. مرز بین مشکلات طبقه بندی و مشکلات رگرسیون دقیق نیست. یک مشکل رگرسیونی که در آن مقادیر پیش بینی شده از یک مجموعه محدود هستند، می تواند به عنوان یک مشکل طبقه جزوه روشنایی فنی مطرح شود که در آن هر طبقه با مقدار معینی در مجموعه محدود مقادیر پیش بینی شده مطابقت دارد. به طور مشابه، یک مشکل طبقه بندی می تواند به عنوان یک مشکل رگرسیون مطرح شود که در آن مقادیر خروجی پیش بینی شده با مجموعه ای از برچسب های طبقه مطابقت دارد. تکنیک های رایج مورد استفاده برای یادگیری تحت نظارت شامل رگرسیون خطی، رگرسیون لجستیک، تجزیه و تحلیل تفکیک خطی، درختان تصمیم گیری، نزدیکترین همسایه k و شبکه های عصبی است. تکنیک های رایج برای روش های یادگیری روشنایی فنی نظارت شامل شبکه های عصبی، خوشه بندی و کاهش ابعاد است. ما در این ضمیمه فقط نمونه کوچکی از این تکنیک ها را بررسی می کنیم.
درختان تصمیم گیری. یادگیری درخت تصمیم گیری یک تکنیک پیش بینی است که از مشاهدات مشتق از داده های موجود در شاخه های درخت، برای نتیجه گیری در مورد مقدار هدف موجود در برگ درخت استفاده می کند. بر اساس مقادیر متغیر ورودی، مجموعه ای از تصمیمات سلسله مراتبی اتخاذ می شود. مقدار متغیر خروجی با دنبال کردن درختی از ریشه تا برگ، بر اساس پاسخ به سؤالات مطرح شده در طول مسیر، یافت می شود. به طور کلی، درختان تصمیم گیری می توانند دوتایی یا غیر دوتایی باشند و سؤالات مطرح شده می توانند دلخواه باشند، به شرطی که با تعداد فرزندان در یک گره فردی مطابقت داشته باشند. در این پیوست، ما فقط درختان دوتایی با سؤالات بولی از شکل x <a یا x ≤ b ، برای برخی متغیرهای ورودی x و ثابت های a و b در بررسی می کنیم. اگر پاسخ به سؤالی درست باشد، ما فرزند سمت چپ را برای ادامه راه بر درخت انتخاب می کنیم، و در صورتی که این پاسخ نادرست باشد، کودک سمت راست را انتخاب می کنیم. با توجه به مجموعه ای از مقادیر متغیر ورودی و خروجی، درختی را انتخاب می کنیم که نوع سؤال بولی را برای مطرح کردن در هر گره داخلی انتخاب می کند. این کار معمولاً به طرز حریصانه ای انجام می شود و فقط در مورد تصمیمی در یک گره معین می پرسد که مجموع خطاهای مربع را به حداقل می رساند. برای تجسم، فرض کنید دو متغیر ورودی داریم، x1 و x2 ، که هر دو پیوسته هستند. فرض کنید مجموعه آموزشی به شکل (y ، x1 ، x2) باشد و t1 = (5.7 ، 2.3 ، 9.6) ، t2 = (3.5 ، 1.1 ، 10) ، t3 = (0.55 ، 3.6 ، 17.5) باشد. ابتدا باید تصمیم بگیریم که اولین تقسیم در x1 یا x2 باشد. سپس متغیر ورودی را انتخاب می کنیم که کمترین خطا را ایجاد کند. اکنون، هر گره درخت با زیر مجموعه ای از مجموعه آموزشی مرتبط است. به عنوان مثال، ریشه با کل مجموعه آموزشی مرتبط است. اگر سؤال در ریشه x1 <1 باشد، فرزند سمت چپ ریشه با مجموعه خالی و فرزند راست ریشه با کل مجموعه جزوه روشنایی فنی مرتبط است.اما اگر سؤال در ریشه x1 <1.8 باشد، فرزند سمت چپ ریشه با t2 و فرزند راست ریشه با آموزش های t1 و t3 مرتبط است. توجه داشته باشید که با تغییر 1.8 به 2.2، همان ارتباط <؟
-()، <≥ ، (- ) + (- ) ≅ گیری در محیط یادگیری گروهی استفاده می شوند. این نوع یادگیری با ترکیب بسیاری از زبان آموزان موازی، نتایج نهایی را بهبود می بخشد.
Nearest Neighbor. تکنیک k-nearest همسایه، روشی برای برآورد احتمال عضویت یک متغیر ورودی طبقه بندی نشده(v)، در مجموعه ای محدود از طبقات است.
این تکنیک از نظر مفهومی بسیار ساده است اما می تواند بسیار قدرتمند باشد. این تکنیک، نزدیکترین نقاط k را در مجموعه آموزشی به نقطه داده شده در مقابل v را می یابد. برای یک طبقه معین مثل c، فرض کنید n نقطه بین این نزدیکترین نقاط مجموعه آموزشی k وجود دارد که به طبقه c تعلق دارد. پس احتمال اینکه v به c تعلق داشته باشد n/k خواهد بود. اگر مجبور باشیم v را با یک طبقه واحد برچسب گذاری کنیم، آن طبقه، طبقه ای با بالاترین احتمال خواهد بود. مقدار k قطعاً بر نتایج تأثیر می گذارد. مشخص شده است که k در مقادیر بسیار کوچک یا خیلی بزرگ، عملکرد خوبی ندارند. با افزایش k به نقطه مطلوب خود، جزوه روشنایی فنی کاهش می یابد، اما با افزایش بیشتر k، خطا بزرگتر می شود. برای مثال به شکل A2.4 مراجعه کنید: با 1 نزدیکترین همسایه، نقطه خاکستری به عنوان سیاه طبقه بندی می شود؛ و با 3 نزدیکترین همسایه، به عنوان نقطه سفید طبقه بندی می شود. و با 5 نزدیکترین همسایه نیز به عنوان سفید طبقه بندی می شود. هوانگ و همکارانش، استفاده از نزدیکترین همسایه برای توسعه یک رویکرد بهبود یافته برای داده های از دست رفته در زمینه کیفیت نرم افزار را توصیه می کنند. از دست دادن داده ها مشکلات زیادی را برای یادگیری ماشین ایجاد می کند. روش های زیادی برای برآورد هوشمند مقادیر این داده ها وجود دارد.
شبکه های عصبی. شبکه های عصبی نمایانگر پیوند، معماری متشکل از اتصالات چند () ()، ()

فهرست مطالب