Классификация арматура и маркировка: Класс арматуры — соответствие старой и новой маркировки (таблица)

Маркировка арматуры по ГОСТ стальная и композитная, расшифровка, прочность

Арматура используется для улучшения характеристик бетона. Она дает прирост прочности, позволяет выдерживать большие нагрузки без растрескивания и крошения. Без использования каркаса из металлических стержней или проволочной сетки стало бы невозможным возведение бетонных опор, мостов, подземных сооружений и других построек.

По назначению армированиеделится на четыре вида:

  • Анкерное. Применяется для создания закладных элементов в бетонировании.
  • Конструктивное. Исключает деформацию строения, распределяет нагрузки. Благодаря этому бетон не оседает, компенсируется температурное расширение.
  • Рабочее. Нужно, чтобы принимать основную нагрузку и увеличивать прочность.
  • Монтажное. Применяется, когда нужно соединить разрозненные детали в единый каркас.

Характеристики продукции указывают на то, где ее можно использовать. Продается напрягаемая и ненапрягаемая арматура, приспособленная для установки в опорных и ненагруженных конструкциях.

По методу установки выбирают продольные и поперечные разновидности. Первый тип хорошо противостоит вертикальным трещинам, второй – наклонным.

Классы арматуры и области их использования

В продаже вы найдете стержни, различающиеся по диаметру, длине и типу поверхности. Есть гладкие и рифленые разновидности. Для удобства обозначения их разделили на классы, для каждого прописана область использования и набор характеристик, марка стали арматуры.

Есть следующие виды:

  • А1 (А240, АI). Один из самых распространенных типов материла для изготовления ЖБИ – лотков, плит перекрытия, опорных элементов. Диаметр составляет от 6 до 40 мм. В зависимости от этого параметра товар поставляется в мотках или стержнях.
  • А2 (А300, АII). Диаметр достигает 80 мм. Допускается использование как каркаса для свай. Установка в бетон повышает его устойчивость к вертикальным нагрузкам.
  • А3 (А 400, АIII). На поверхности прутка есть ребра. Рифление улучшает сцепление с бетоном. Диаметр до 40 мм. До 10 мм продукция поставляется в мотках, больше – в стержнях.
  • А4 (А600, АIV). Металлические элементы используются как основа для ЖБИ разного назначения. Они подойдут при производстве деталей, на которые оказывается динамическая нагрузка. Распространено применение и в строительстве – не только гражданском, но и промышленном.
  • А5 (А800, АV). Материал создается из конструкционной низколегированной стали. Рекомендованная область применения – создание предварительно напряженных ЖБИ. Подойдет для возведения мостов и гидротехнических сооружений.
  • А6 (А1000, АVI). Характеристики позволяют использовать стальные стержни на самых ответственных участках – от объектов ядерной промышленности до дамб. Так как товар дорогостоящий, он производится по предварительному заказу. Дает хорошее сцепление с бетоном за счет особого строения ребер – они кольцевые или серповидные. Допускается применение и с ЖБИ. Армирование существенно продляет срок их эксплуатации.
  • А400С. Изготавливается горячекатаным методом. Диаметр достигает 40 мм. Отличается наличием двух ребер, расположенных продольно. Используется в частном строительстве, при возведении невысоких конструкций.
  • А500С. Дополнительно усиливается механическими и термическими методами. Не приспособлена к сильным динамическим нагрузкам, используется с базовыми видами ЖБИ.
  • А600С. Отличается повышенной стойкостью к коррозии за счет добавления к сплаву молибдена и ванадия. Подойдет для монолитных домов, строительства в районах с высокой сейсмической активностью.

Ниже представлена таблица классов и марок арматуры с прописанными основными характеристиками.

Класс арматуры Диаметр проката Марка стали Механические свойства, не менее
σT, Н/мм2

предел текучести

σB, Н/мм2

временное сопротивление разрыву

σS, %

относит. удлинение

Испытание на изгиб в холодном состоянии, С – диаметр оправки, в – диаметр стержня
А-I (А 240) 6-40 Ст3кп, Ст3пс, Ст3сп 235 373 25 180 град C=d
А-II (А 300) 10-40 Ст5сп, Ст5пс 295 490 19 180 град C=3d
40-80 18Г2С
АС-II (АС 300) 10-32 10ГТ 295 441 25 180 град C=d
А-III (А 400) 6-40 35ГС, 25Г2С 390 590 14 90 град C=3d
6-22 32Г2Рпс
А-IV (А 600) 10-18 80С 590 883 6 45 град C=5d
10-32 20ХГ2Ц, 20ХГ2Т
А-V (А 800) 10-32 23Х2Г2Т, 23Х2Г2Ц 785 1030 7 45 град C=5d
А-VI (А1000) 10-22 22Х2Г2АЮ, 22Х2Г2Р, 20Х2Г2СР 980 1230 6 45 град C=5d

«Что в имени тебе моем?»

Арматурная сталь – это не просто сталь, но еще и большое количество других химических компонентов. О том, какие включения есть в материале, можно узнать из наименования. Были разработаны стандарты обозначения тех или иных добавок в названии материала. Примеры:

  • Х – хром.
  • Ц – цирконий.
  • Т – титан.

После марки записываются цифры. Они отражают, как много углерода содержится в материале. Обозначаются сотые доли. Далее пишут буквы. Они обозначают химический элемент, после которого указано, как много его содержится в составе арматуры. Если никакой цифры не указано, можно сделать вывод, что это вещество включено в объеме менее одного процента.

Пример: «сталь арматурная 35ГС» расшифровывается как сталь, в составе которой присутствует углерод в концентрации 0,35 %, а также есть кремний и марганец, но процентное содержание обоих компонентов незначительно, поэтому уточненных данных нет (они присутствуют в объеме менее процента от общего количества материала).



Марки стали для производства арматуры

Классификация марки и классы арматурной стали указывает на эксплуатационные характеристики. Среди наиболее распространенных разновидностей:

  • 20ГС. Конструкционная низколегированная сталь. Хорошо поддается сварке, потому подходит для изготовления армирующих каркасов.
  • 35ГС. Еще одна конструкционная низколегированная разновидность. Хорошо защищена от агрессивных сред и давления.
  • Ст3кп. Конструкционная углеродистая обыкновенного качества. Показывает хорошее сцепление с бетоном, не портится из-за давления, вибрации, воздействия агрессивных сред.
  • 22Х2Г2АЮ. Характеристики этой низколегированной конструкционной стали позволяют применять ее для изготовления как обычных, так и предварительно напряженных железобетонных конструкций.
  • 80С. Прочный материал, выдерживает сильное напряжение и агрессивное воздействие внешних сред.

В таблице ниже указано соответствие класса арматурной стали, марки использованного при изготовлении сырья и диаметра профиля создаваемого прутка.

Таблица классов арматуры и марок стали – сталь для арматуры по ГОСТ 5781-82

Тип профиля Класс Диаметр, мм Марка стали
Гладкий профиль А1 (А240) 6-40 Ст3кп, Ст3пс, Ст3сп
Периодический профиль А2 (А300) 10-40, 40-80 Ст5сп, Ст5пс, 18Г2С
Периодический профиль А3 (А400) 6-40, 6-22 35ГС, 25Г2С, 32Г2Рпс
Периодический профиль А4 (А600) 10-18 (6-8), 10-32 (36-40) 80С, 20ХГ2Ц
Периодический профиль А5 (А800) 10-32 (6-8), (36-40) 23Х2Г2Т
Периодический профиль А6 (А1000) 10-22 22Х2Г2АЮ, 22Х2Г2Р

Что еще важно?

При создании ненапряженных железобетонных конструкций следует выбирать классы от первого до третьего, а более высокие пригодятся, если конструкция прошла предварительное напряжение.

Если предстоит работать при низких температурах, и объект далее будет эксплуатироваться в экстремальных условиях, тогда больше подходит такая марка арматуры, которую отличает пониженный процент углерода. В качестве альтернативы можно выбирать варианты сырья, прошедшего дополнительную обработку высокой температурой.

А вот если было решено использовать в качестве армирующего материала проволоку, тогда предпочтение лучше отдавать той, в которой углерод либо вовсе отсутствует, либо его содержание не превышает 0,8 %. Для этого материала свойственна повышенная прочность – до 180 кгс/мм2 включительно. Такие параметры обеспечены:

  • высокотемпературной обработкой;
  • наклепом.

От чего зависит область применения арматуры?

На то, где будет применяться конкретный вид стержней, влияет несколько факторов:

  • Степень нагруженности.
  • Потенциальные угрозы.
  • Область применения ЖБИ или расположение армируемой постройки.

Прежде чем купить партию стальных прутов, нужно понять, какими будут действующие на них нагрузки, – статическими или динамическими. Учитываются и механические параметры будущего каркаса. Если нужно соединить несколько частей методом сварки, сталь должна отличаться хорошим уровнем свариваемости.

Технические особенности

Прямые участки диаграммы отражают такие нагрузки, при которых образец не деформируется. При увеличении нагрузок можно видеть пропорциональное возрастание длины, позволяющее делать выводы о надежности стали и способности сопротивляться внешнему воздействию. Заранее задается предельное значение нагрузки, прилагаемой к испытуемому экземпляру. По достижении этого значения также плавно уменьшают влияние механической силы.

При наилучшем раскладе стержень, растянувшийся при влиянии большой внешней силы, возвращается в исходное состояние при снятии нагрузок. Такая способность обусловлена упругостью стали. Стоит понимать, что зона упругости для металла имеет определённые ограничения. При достижении показателей, превышающих эти границы, возвращение к исходным значениям станет невозможным. При выявлении такого граничного показателя говорят о достижении предела упругости.

Если произвести испытания произведённой в соответствии с действующим ГОСТ арматуры из стали СТ3, тогда удастся получить параметры, близкие к следующим:

  • предел текучести — 2 460 кгс/см2;
  • относительное удлинение — 25;
  • сопротивление разрыву в заданном временном промежутке — 4 000 кгс/см2.

Недостатки

У стержневой арматуры есть несколько недостатков, которые необходимо учитывать:

  • При отсутствии антикоррозийного покрытия прутки подвергаются окислению при контакте с водой. Процессы могут начаться даже от воздействия воды в составе цемента во время его затвердевания.
  • Невозможность выполнять функции стержневыми изделиями при неправильном выборе класса прутка и его диаметра.
  • Чрезмерно напряженная арматура способна дать обратный эффект и образовать трещины в бетонной конструкции.
  • Требуется соблюдение защитного слоя бетона – не менее 2 диаметров размера сечения для предотвращения попадания воды к стержням.

Воздействие на образцы стали

Чтобы улучшить показатели арматуры, прибегают к различным технологиям воздействия извне. В частности, широко распространена практика термического упрочнения. При этом прочность материала возрастает вдвое, а иногда и больше. Наиболее применимо это для низколегированных, углеродистых соединений. А вот стоимость материала растет всего на 10-12 %. Термическое упрочнение показывает лучшие показатели относительно механического, но для его реализации нужно располагать серьезным современным оборудованием и командой высококвалифицированных специалистов. Очень сильно на качество конечного продукта (и на репутацию его производителя) влияют даже мелкие ошибки технологического процесса.

Механическое упрочнение достигается использованием:

  • лебедки;
  • гидравлических домкратов;
  • профилированных валков.

Последние нужны, чтобы сплющивать сталь. При упрочнении удается добиться пластических деформаций, благодаря которым прочность увеличивается на 50 % относительно первоначального значения.

Самая популярная – какая она?

Традиционно наиболее востребована на рынке металлопроката арматура 8 мм в диаметре. Она принадлежит к третьему классу и выпускается в бухтах, мотках, прутьях. 8 мм – параметр среднего диаметра строительного материала. Производство такой арматуры должно соответствовать ГОСТ 30136-95. Выпускаемая мотками арматура специалистами именуется «катанкой».

Арматура 8 мм изготавливается из стали с низким содержанием углерода. Применяются марки СТ0, СТ3. В процессе изготовления есть две (иногда одна) стадии охлаждения, что позволяет добиться высоких показателей надежности материала. Катанка мотками представляет собой проволоку.

Арматура А3 – сталь, имеющая в сечении круг. Она необходима для последующего производства проволоки, пружин. Незаменимо сырье и в производственном процессе строительной холоднотянутой арматуры.

Арматурные канаты

Арматурные канаты изготавливают из высокопрочной холоднотянутой проволоки. Для наилучшего использования прочностных свойств проволоки в канате шаг свивки принимают максимальным, обеспечивающим нераскручиваемость каната, обычно в пределах 10-16 диаметров каната

Механические свойства арматурных канатов

Марка каната ГОСТ, ТУ Класс прочности каната Ø каната, мм Ø проволоки, мм Номин. плошадь поперечн. сечения каната, мм 2 Разрывное усилие каната, кН Усилие при условном пределе текучести, кН Относит. удлинение при разрыве, % Теор. масса 1м, кг
К-7 ГОСТ 13840 1500 6 2 22,7 40,6 34,9 4 0,173
К-7 ГОСТ 13840 1500 9 3 51 93,5 79,5 4 0,402
К-7 ГОСТ 13840 1500 12 4 90,6 164 139,5 4 0,714
К-7 ГОСТ 13840 1400 15 5 141,6 232 197 4 0,714
К-19 ТУ 14-4-22-71 1400 14,2 2,8 128,7 236,9 181,5 4 1,014

В процессе производства канаты К-7 и К-19 подвергают низкотемпературному отпуску. Согласно ТУ 14-4-1362-85 усилие, соответствующее условному пределу текучести, равно 30,1 кН

Маркировка и упаковка арматурной проволоки и канатов

Арматурную проволоку и канаты поставляют в несмазаном виде. Канаты поставляют на барабанах или в мотках, проволоку в мотках массой 500-1500 кг, равномерно перевязанных по окружности не менее чем в трех местах. Допускается изготовление проволоки в мотках массой 20-100 кг, перевязанных не менее чем в трех местах. Каждый моток должен состоять из одного отрезка проволоки. По требованию потребителя моток массой 500-1500 кг должен иметь промежуточные вязки, расположенные внутри мотка. Мотки проволоки массой 20-100 кг связывают в бухты. К каждому мотку (бухте) должен быть прочно прикреплен ярлык, на котором указывают: товарный знак или наименование и товарный знак предприятия-изготовителя ; условное обозначение проволоки; номер партии; клеймо технического контроля. Правила приемки и методы испытания проволоки установлены соответствующими стандартами и техническими условиями. Испытание на растяжение проводят по ГОСТ 12004, испытание на перегиб по ГОСТ 1579, а испытание на изгиб — по ГОСТ 14019.

Зачем это нужно?

Арматура 8 мм незаменима при возведении железобетонных и металлических конструкций. Катанка достаточно тонкая, поэтому применяется при изготовлении сеток, каркасов, канатов. Арматура эффективна в качестве основы для скоб. Ее используются для укрепления строительных конструкций. Конкретный вариант выбирают, анализируя условия эксплуатации строения, на основе чего принимают решение в пользу той или иной марки.

Арматура чаще применяется как сырье для изготовления другой строительной продукции, а не как самостоятельный материал. Если катанка нужна, чтобы производить гвозди, кабеля, тогда нужно контролировать ровность изделий: шероховатые поверхности недопустимы, это значительно снизит прочность готового изделия. При изготовлении толстой арматуры, скоб требования к гладкости поверхности не столь существенны. Арматура, применяемая для обустройства несущих стен, не может содержать наполненные воздухом полости или трещины. Если арматура 8-мм диаметра приобретается в прутьях, контроль качества предполагает отслеживание идентичности изделий.

Маркировка трубопроводной арматуры — Пермский трубопроводный завод ПТЗ

Чтобы разбираться в маркировке трубопроводной арматуры, была разработана система буквенно — цифрового обозначения изделий. На сегодняшний день все существующие виды отечественной запорной арматуры маркируются в соответствии с российским законодательством (ГОСТами). На территории России используется обозначение и маркировка трубопроводной арматуры по системе ЦКБА (Центральное конструкторское бюро арматуростроения). В соответствии с этой системой обозначение арматуры строится из цифрового и буквенного кода основных данных. Всего в маркировке используется 6 элементов. Маркировка позволяет легко классифицировать арматуру.

Всю информацию о конкретной модели наносят с лицевой стороны, а знак товаропроизводителя – с обратной. В соответствии с отечественными ГОСТами маркировка трубопроводной арматуры наносится непосредственно на корпус изделия. Маркировка трубопроводной арматуры на металлическую поверхность корпуса наносится тремя основными способами:

  • штамповка — представляет собой процесс деформации материала. Таким тиснением на поверхности корпуса арматуры создаются буквы и цифры. Долговечность данного тиснения такое же, как и у самой арматуры
  • гравировка — является одним из древнейших способов нанесения на металлы надписей. Нанесения букв и цифр осуществляется с помощью резца, в роли которого может выступать штихель, фреза, пуансон
  • клеймение — представляет собой достаточно сложный процесс, который потребует определенного навыка и профессионализма от исполнителя. Для нанесения используется специальное оборудование – электроискровой карандаш.

Для примера рассмотрим клиновую задвижку 30нж915нж1

30 — тип арматуры — задвижка
нж — материал корпуса -нержавеющая, коррозионно-стойкая сталь
9 — тип привода электрический
15 — номер модели
нж — материал уплотнения — нержавеющая сталь
1- исполнение по присоединению задвижки к трубопроводу фланцевое

Тип арматуры

10 — Кран пробно-спускной

11— Кран для трубопровода

12 — Запорное устройство

13, 14, 15 — Вентиль

16 — Клапан обратный подъемный и приемный с сеткой

17 — Клапан предохранительный

19— Клапан обратный поворотный

21 — Клапан предохранительный

22 — Клапан запорный

25 — Клапан регулирующий

27 — Клапан смесительный

30, 31 — Задвижка

32 — Затвор поворотный дисковый

33 — Задвижка шланговая

40 – Элеватор

45 — Конденсатоотводчик

 

Материал корпуса

с — сталь углеродистая

лс — легированная сталь

нж — нержавеющая, коррозионно-стойкая

ч — чугун серый

кч — ковкий чугун

вч — высокопрочный чугун

б — латунь или бронза

а — алюминий

мл — монель-металл

п — пластмасса

вп — винипласт

тн — титан

к — керамика, фарфор

ск — стекло

 

Тип привода

3 — механический с червячной передачей

4 — механический с цилиндрической передачей

5 — механический с конической передачей

6 — пневматический

7 — гидравлический

8 — электромагнитный

9 — электрический

 

Материал уплотнения

бр — бронза и латунь

бт — баббит

ст — стеллит

ср — сормайт

мн — монель-металл

к — кожа

нж — нержавеющая сталь (коррозионно-стойкая)

нт — нитрованная (азотированная) сталь

р — резина

п — пластмасса (кроме винипласта)

вп — винипласт

фт — фторопласт

э — эбонит

бк — без кольца (седло выполнено прямо на корпусе)

 

исполнение по присоединению задвижки к трубопроводу

10 – исполнение фланцевое

20 – исполнение под приварку

31 – исполнение муфтовое (DN≤40)

41 – исполнение штуцерное (DN≤40)

42 – исполнение штуцерно-ниппельное (DN≤40)

51 – исполнение вантузное

 

Классификация вне политики — новый метод выбора модели обучения с подкреплением — блог Google AI

Автор: Алекс Ирпан, инженер-программист, робототехника в Google

Обучение с подкреплением (RL) — это структура, которая позволяет агентам учиться принимать решения на основе опыта. Одним из многих вариантов RL является вне политики RL , где агент обучается с использованием комбинации данных, собранных другими агентами (данные вне политики), и данных, которые он собирает сам, для обучения обобщаемым навыкам, таким как роботизированная ходьба и хватание. Напротив, полностью не соответствует политике RL — это вариант, в котором агент изучает полностью из более старых данных, что привлекательно, поскольку позволяет выполнять итерацию модели без физического робота. С полностью внеполитическим RL можно обучить несколько моделей на одном и том же фиксированном наборе данных, собранном предыдущими агентами, а затем выбрать лучшую. Тем не менее, полностью внеполитическое RL имеет подвох: в то время как обучение может происходить без реального робота, оценка моделей не может. Кроме того, наземная оценка с помощью физического робота слишком неэффективна для тестирования многообещающих подходов, требующих оценки большого количества моделей, таких как автоматический поиск архитектуры с помощью AutoML.

Эта проблема мотивирует o ff-оценка политики (OPE), методы изучения качества новых агентов с использованием данных от других агентов. С помощью рейтингов OPE мы можем выборочно тестировать только самые многообещающие модели на реальных роботах, значительно расширяя масштабы экспериментов при том же фиксированном бюджете реальных роботов.

Диаграмма для разработки реальных моделей. Если предположить, что мы можем оценивать 10 моделей в день без оценки вне политики, нам потребуется в 100 раз больше дней для оценки наших моделей.

Хотя структура OPE выглядит многообещающе, она предполагает наличие нестандартного метода оценки, который точно ранжирует производительность по старым данным. Однако агенты, накопившие прошлый опыт, могут действовать совершенно иначе, чем агенты, получившие новые знания, что затрудняет получение точных оценок производительности.

В разделе «Оценка вне политики с помощью классификации вне политики» мы предлагаем новый метод оценки вне политики, называемый классификацией вне политики (OPC), который оценивает производительность агентов на основе прошлых данных, рассматривая оценку как проблема классификации, в которой действия помечаются либо как потенциально ведущие к успеху, либо как гарантированно приводящие к неудаче. Наш метод работает для входных данных изображения (камеры) и не требует повторного взвешивания данных с выборкой важности или использования точных моделей целевой среды — двух подходов, которые обычно использовались в предыдущей работе. Мы показываем, что OPC масштабируется для решения более крупных задач, включая роботизированную задачу захвата на основе зрения в реальном мире.

Как работает OPC
OPC основан на двух допущениях: 1) окончательная задача имеет детерминированную динамику, т. е. в изменении состояний нет случайности, и 2) что агент либо преуспевает, либо терпит неудачу в конце каждого испытания. . Это второе предположение об «успехе или неудаче» естественно для многих задач, таких как поднятие предмета, решение лабиринта, победа в игре и так далее. Поскольку каждое испытание будет либо успешным, либо неудачным детерминированным образом, мы можем присвоить каждому действию метки бинарной классификации. Мы говорим, что действие равно эффективный , если он может привести к успеху, и катастрофический , если он гарантированно приведет к неудаче.

OPC использует Q-функцию, изученную с помощью алгоритма Q-обучения, которая оценивает будущее общее вознаграждение, если агент решит выполнить какое-либо действие из своего текущего состояния. Затем агент выберет действие с наибольшей общей оценкой вознаграждения. В нашей статье мы доказываем, что производительность агента измеряется тем, насколько часто выбранное им действие является эффективным действием, что зависит от того, насколько хорошо Q-функция правильно классифицирует действия как эффективные по сравнению с катастрофическими. Эта точность классификации действует как оценка оценки вне политики.

Однако маркировка данных предыдущих испытаний является лишь частичной. Например, если предыдущее испытание было неудачным, мы не получаем отрицательных меток, потому что не знаем, какое действие было катастрофическим. Чтобы преодолеть это, мы используем методы полуконтролируемого обучения, в частности позитивно-немаркированного обучения, чтобы получить оценку точности классификации на основе частично размеченных данных. Эта точность является оценкой OPC.

Оценка вне политики для Sim-to-Real Learning
В робототехнике обычно используют смоделированные данные и методы обучения, чтобы уменьшить сложность выборки при обучении навыкам робототехники. Это может быть очень полезно, но настройка этих симуляционных методов для реальной робототехники является сложной задачей. Как и в случае внеполитического RL, в обучении не используется настоящий робот, потому что он обучается в симуляции, но для оценки этой политики по-прежнему необходимо использовать настоящего робота. Здесь снова может прийти на помощь оценка вне политики — мы можем взять политику, обученную только в симуляции, затем оценить ее, используя предыдущие данные реального мира, чтобы измерить ее передачу реальному роботу. Мы изучаем OPC как в полностью неполитическом RL, так и в симуляционном RL.

Пример того, как смоделированный опыт может отличаться от реального. Здесь смоделированные изображения ( слева ) имеют гораздо меньшую визуальную сложность, чем изображения реального мира ( справа ).

Результаты
Во-первых, мы настроили смоделированную версию нашей задачи захвата робота, где мы могли легко обучить и оценить несколько моделей для эталонной оценки вне политики. Эти модели были обучены с полностью вне политики RL, а затем оценены с оценкой вне политики. Мы обнаружили, что в наших задачах по робототехнике вариант OPC, называемый SoftOPC, лучше всего справлялся с прогнозированием конечного процента успеха.

Эксперимент с имитацией захвата. Красная кривая — безразмерная оценка SoftOPC в ходе обучения, рассчитанная по старым данным. Синяя кривая — это показатель успешности захвата в симуляции. Мы видим, что SoftOPC на старых данных хорошо коррелирует с успехом понимания модели в нашем симуляторе.

После успеха в симуляции мы попробовали SoftOPC в реальной задаче. Мы взяли 15 моделей, натренированных на разную степень устойчивости к разрыву между симуляцией и реальностью. Из этих моделей 7 были обучены исключительно в моделировании, а остальные были обучены на сочетании смоделированных и реальных данных. Для каждой модели мы оценили SoftOPC на реальных данных вне политики, а затем успешность захвата в реальном мире, чтобы увидеть, насколько хорошо SoftOPC предсказал производительность этой модели. Мы обнаружили, что на реальных данных SoftOPC действительно дает оценки, которые коррелируют с истинным успехом схватывания, что позволяет нам ранжировать симуляционные методы с реальными, используя прошлый реальный опыт.

Оценка SoftOPC и истинная производительность для 3 различных методов имитации реального: базовая симуляция, симуляция со случайными текстурами и освещением и модель, обученная с помощью RCAN. Все три модели обучаются без реальных данных, а затем оцениваются с оценкой вне политики на проверочном наборе реальных данных. Порядок оценки SoftOPC соответствует порядку реального успеха захвата.

Ниже приведена диаграмма рассеяния полных результатов всех 15 моделей. Каждый балл представляет собой балл оценки вне политики и реальный успех каждой модели. Мы сравниваем различные оценочные функции по их корреляции с успехом окончательного захвата. SoftOPC не полностью коррелирует с истинным успехом схватывания, но его оценки значительно более надежны, чем базовые подходы, такие как ошибка временной разницы (стандартная потеря Q-обучения).

Результаты нашего оценочного эксперимента по преобразованию симулятора в реальный. Слева — базовая линия, временная разностная ошибка модели. Справа — один из предложенных нами методов — SoftOPC. Заштрихованная область представляет собой доверительный интервал 95%. Корреляция значительно лучше с SoftOPC.

Будущая работа
Одно из многообещающих направлений будущей работы — посмотреть, сможем ли мы ослабить наши предположения о задаче, поддержать задачи, в которых динамика более шумная или где мы частично признаем почти успех. Тем не менее, даже с нашими включенными предположениями, мы считаем, что результаты достаточно многообещающие, чтобы их можно было применить ко многим реальным задачам RL.

Благодарности
Это исследование было проведено Алексом Ирпаном, Канишкой Рао, Константиносом Бусмалисом, Крисом Харрисом, Джулианом Ибарзом и Сергеем Левином. Мы хотели бы поблагодарить Razvan Pascanu, Dale Schuurmans, George Tucker и Paul Wohlhart за полезные обсуждения. Препринт доступен на arXiv.

Положительное и отрицательное подкрепление: следует ли сохранять различие?

. 2005;28(2):85-98.

дои: 10.1007/BF03392107.

Алан Барон, Марк Галицио

  • PMID:

    22478443

  • PMCID:

    PMC2755378

  • DOI:

    10.1007/BF03392107

Бесплатная статья ЧВК

Алан Барон и др.

Анальное поведение.

2005.

Бесплатная статья ЧВК

. 2005;28(2):85-98.

дои: 10.1007/BF03392107.

Авторы

Алан Барон, Марк Галицио

  • PMID:

    22478443

  • PMCID:

    PMC2755378

  • DOI:

    10.1007/BF03392107

Абстрактный

Майкл (1975) рассмотрел попытки классифицировать подкрепляющие события с точки зрения того, добавляются ли стимулы (положительное подкрепление) или удаляются (отрицательное подкрепление). Он пришел к выводу, что различия в этих терминах сбивают с толку и неоднозначны. По необходимости добавление стимула требует его предыдущего отсутствия, а удаление стимула — его предыдущего присутствия. Более того, нет веских оснований, ни поведенческих, ни физиологических, указывающих на участие совершенно разных процессов, и на этом основании он предложил отказаться от этого различия. Несмотря на убедительность анализа Майкла, различие между положительным и отрицательным подкреплением все еще изучается. В данной статье мы пересматриваем этот вопрос с точки зрения 30-летней давности. Однако в современных исследованиях и теориях нам не удалось найти новых данных, позволяющих надежно классифицировать событие как положительное, а не отрицательное подкрепление. В заключение мы повторим предостережения Михаила о концептуальной путанице, вызванной таким различием.

Похожие статьи

  • Различие между положительным и отрицательным подкреплением: используйте с осторожностью.

    Барон А., Галицио М.

    Барон А и др.
    Анальное поведение. Весна 2006 г .; 29 (1): 141–51. дои: 10.1007/BF03392127.
    Анальное поведение. 2006.

    PMID: 22478461
    Бесплатная статья ЧВК.

  • Комментарии к Михаилу (1993): организация операций.

    Мур Дж.

    Мур Дж.
    Анальное вербальное поведение. 2013;29(1):41-4. дои: 10.1007/BF03393121.
    Анальное вербальное поведение. 2013.

    PMID: 23814364
    Бесплатная статья ЧВК.

  • В поисках следов Джека Майкла на песке.

    Палмер, округ Колумбия.

    Палмер ДК.
    Анальное вербальное поведение. 2021 13 июля; 37 (2): 251-255. doi: 10.1007/s40616-021-00156-3. электронная коллекция 2021 дек.
    Анальное вербальное поведение. 2021.

    PMID: 35141112
    Бесплатная статья ЧВК.

  • Мотивационные взгляды на подкрепление: последствия для понимания поведенческих функций дофамина в прилежащем ядре.

    Саламоне Д. Д., Корреа М.

    Саламоне Дж. Д. и соавт.
    Поведение мозга Res. 2 декабря 2002 г .; 137 (1–2): 3–25. doi: 10.1016/s0166-4328(02)00282-6.
    Поведение мозга Res. 2002.

    PMID: 12445713

    Обзор.

  • Сложные взаимодействия между никотином и нефармакологическими стимулами раскрывают многочисленные роли никотина в подкреплении.

    Чаудхри Н., Каджиула А.Р., Донни Э.К., Палматье М.И., Лю Х, Свед А.Ф.

    Чаудри Н. и др.
    Психофармакология (Берл). 2006 март; 184 (3-4): 353-66. doi: 10.1007/s00213-005-0178-1. Epub 2005 21 октября.
    Психофармакология (Берл). 2006.

    PMID: 16240165

    Обзор.

Посмотреть все похожие статьи

Цитируется

  • Одновременно доступное отрицательное подкрепление резко снижает самостоятельный прием кокаина у самцов и самок крыс.

    Маркус М.М., Бэнкс М.Л.

    Маркус М.М. и др.
    bioRxiv. 2023 31 марта: 2023.03.29.534800. дои: 10.1101/2023.03.29.534800. Препринт.
    bioRxiv. 2023.

    PMID: 37034754
    Бесплатная статья ЧВК.

  • Дрессировка рабочих собак в двадцать первом веке.

    Холл, Нью-Джерси, Джонстон А.М., Брей Э.Е., Отто К.М., Маклин Э.Л., Уделл МАР.

    Холл, штат Нью-Джерси, и соавт.
    Передняя ветеринарная наука. 2021 27 июля; 8:646022. doi: 10.3389/fvets.2021.646022. Электронная коллекция 2021.
    Передняя ветеринарная наука. 2021.

    PMID: 34386536
    Бесплатная статья ЧВК.

    Обзор.

  • Эмоциональное состояние и негативность, связанная с обратной связью, вызванная позитивным, негативным и комбинированным подкреплением.

    Сюй С, Сунь И, Хуан М, Хуан И, Хань Дж, Тан Х, Рен В.

    Сюй С. и др.
    Фронт Псих. 2021 10 мая; 12:647263. doi: 10.3389/fpsyg.2021.647263. Электронная коллекция 2021.
    Фронт Псих. 2021.

    PMID: 34040560
    Бесплатная статья ЧВК.

  • Дофаминергическая активность и поведение при физической нагрузке при нервной анорексии.

    Горрелл С., Коллинз Эйдж, Ле Гранж Д., Ян Т.Т.

    Горрелл С. и др.
    ОБМ Нейробиол. 2020;4(1):10.21926/обм.нейробиол.2001053. doi: 10.21926/обм.нейробиол.2001053. Epub 2020 23 марта.
    ОБМ Нейробиол. 2020.

    PMID: 33569542
    Бесплатная статья ЧВК.

  • Почему котенок перешел дорогу? Медитация о положительном и отрицательном подкреплении при зависимости.

    Лейтон М.

    Лейтон М.
    J Psychiatry Neurosci. 2021 21 января; 46 (1): E184-E185. doi: 10.1503/jpn.210004.
    J Psychiatry Neurosci. 2021.

    PMID: 33497168
    Бесплатная статья ЧВК.

    Аннотация недоступна.

Просмотреть все статьи «Цитируется по»

Рекомендации

    1. J Exp анальное поведение. 1984 май; 41 (3): 291-308

      пабмед

    1. J Appl ведет себя анально.